- 相關(guān)推薦
數(shù)字圖書館信息資源本體論的構(gòu)建
【內(nèi)容提要】在借鑒國外信息處理領(lǐng)域本體論的理論研究和實(shí)踐應(yīng)用最新成果的基礎(chǔ)上,根據(jù)數(shù)字圖書館信息資源管理的不同層次,從宏觀上建立數(shù)字圖書館信息資源本體論的3個(gè)層次結(jié)構(gòu),并從微觀上為每一層次提出可操作的方法體系。【摘 要 題】信息資源建設(shè)
.
【關(guān) 鍵 詞】本體論/數(shù)字圖書館/層次結(jié)構(gòu)/信息資源
隨著信息技術(shù)的發(fā)展和數(shù)字化時(shí)代的到來,數(shù)字圖書館應(yīng)運(yùn)而生。數(shù)字圖書館的核心是數(shù)字化信息資源的組織與管理,而目前已有的信息處理方法在對信息客體進(jìn)行深層描述時(shí)存在一定的缺陷。本體論(ontology)從信息客體或信息對象出發(fā),通過建立信息客體之間的概念聯(lián)系和等級關(guān)系,將對信息客體的揭示深入到知識內(nèi)涵的層次并實(shí)現(xiàn)對信息客體內(nèi)在聯(lián)系的推理。由于本體論為信息資源組織引入了新的方法和思想,它無疑會對數(shù)字圖書館建設(shè)產(chǎn)生積極的作用。
1 本體論的概念
本體論原本是哲學(xué)中的一個(gè)概念,是指從人類行為中抽象出來的現(xiàn)實(shí)本質(zhì)。但信息處理領(lǐng)域中的本體論與哲學(xué)領(lǐng)域中的內(nèi)涵不同,國外一些學(xué)者已從多種角度對其進(jìn)行了描述,如:“本體論是一種概念化的關(guān)系明確的模式”;“本體論是解釋概念潛在的含義的邏輯關(guān)系”;“本體論是可以在人和機(jī)器間進(jìn)行交流的某一領(lǐng)域共同的概念表達(dá)”;“本體論是可以共享和再利用的概念化模式”。而Borst則將本體論定義為“共用概念的正規(guī)明確的具體的概念化模式”,其“概念化”指的是通過標(biāo)識某一現(xiàn)象的相關(guān)概念而建立的這一現(xiàn)象的抽象模型,“明確”指的是所用的概念的類型和用法的限制有明確的定義,“正規(guī)”指的是本體論的實(shí)例可以實(shí)現(xiàn)機(jī)讀,“共用”指的是本體論所捕捉的知識帶有一般性,而不是某些個(gè)體所獨(dú)有的。
從本體論這些定義可以看出,本體論這一信息處理模式在保持原有核心特征的基礎(chǔ)上,本身在逐步發(fā)展和完善。簡而言之,本體論是一個(gè)概念的集合,這些概念包括等級結(jié)構(gòu)、概念間的關(guān)系、每個(gè)概念所具有的屬性及進(jìn)一步限制的定理。當(dāng)使用本體論表示數(shù)字文獻(xiàn)資源時(shí),是在描述一個(gè)事物的兩個(gè)方面:一是資源外在形式——題名、作者、出版者、文件格式、知識產(chǎn)權(quán)等,另一方面是資源內(nèi)容——文獻(xiàn)的主題。兩個(gè)方面都可以使用本體論來建立等級關(guān)系的知識模型,在等級結(jié)構(gòu)的知識模型中可以定義信息客體、信息客體的內(nèi)容和相關(guān)的屬性與關(guān)系。
2 文本文獻(xiàn)本體論的構(gòu)建
為數(shù)字圖書館信息資源構(gòu)建本體論不是單一的一個(gè)層次,而是在傳統(tǒng)圖書館的基礎(chǔ)上,針對數(shù)字圖書館信息資源管理的不同發(fā)展階段,形成一個(gè)多層次的體系,其中的第一層就是為文本文獻(xiàn)構(gòu)建本體論。
2.1 可行性分析
文本文獻(xiàn)資源是傳統(tǒng)圖書館館藏的主體,隨著圖書館數(shù)字化進(jìn)程的深入,對揭示大量文本文獻(xiàn)內(nèi)在關(guān)系的需求更為緊迫,因而為文本文獻(xiàn)構(gòu)建本體論成為數(shù)字圖書館信息資源本體論構(gòu)建的第一步。
構(gòu)建本體論的核心是建立概念的等級結(jié)構(gòu)及定義概念屬性,從而利用邏輯推理來推導(dǎo)概念之間的關(guān)系。對于文本文獻(xiàn)來說,構(gòu)建本體論的實(shí)質(zhì)就是建立文獻(xiàn)之間的等級結(jié)構(gòu),并定義文獻(xiàn)之間的關(guān)系。與其它類型的信息資源相比,文本文獻(xiàn)本身就有較為規(guī)范和概念明確的特點(diǎn),所以為文本文獻(xiàn)信息建立等級結(jié)構(gòu)和定義屬性較為便利。因?yàn)槲谋疚墨I(xiàn)的等級關(guān)系在MARC上有較好的體現(xiàn),所以在MARC數(shù)據(jù)的基礎(chǔ)上構(gòu)建本體論具有較強(qiáng)的可行性和實(shí)用性,由此文本文獻(xiàn)本體論的構(gòu)建包括一個(gè)MARC記錄的轉(zhuǎn)化過程。構(gòu)建本體論的最終目的是實(shí)現(xiàn)推理,利用文獻(xiàn)的等級結(jié)構(gòu)和定義的屬性可以在轉(zhuǎn)化后的MARC上實(shí)現(xiàn)推導(dǎo)文獻(xiàn)間關(guān)系的目標(biāo)。構(gòu)建文本文獻(xiàn)本體論的最后一步是將推理的結(jié)果生成知識庫。
2.2 文獻(xiàn)等級結(jié)構(gòu)的建立
構(gòu)建文本文獻(xiàn)信息本體論的基礎(chǔ)是文獻(xiàn)等級結(jié)構(gòu)的建立。文獻(xiàn)的創(chuàng)造過程始于一種思想,即“構(gòu)思”。這種“構(gòu)思”一經(jīng)抽象,則被稱之為“表述”。當(dāng)“表述”出版后,它就成為“版本”!鞍姹尽钡奈锢硇问綖椤拜d體”;如果是數(shù)字化的,這種“載體”則稱為“數(shù)字化形式”。“載體”的某一版本稱為“實(shí)例”。
文獻(xiàn)等級各層次之間的關(guān)系比其看上去要復(fù)雜,低層次對高層次而言是一種繼承關(guān)系!皩(shí)例”是“載體”、“版本”等中的一種,因此,“實(shí)例”有一個(gè)統(tǒng)一題名,這一統(tǒng)一題名可以直接檢索到而無需利用文獻(xiàn)等級結(jié)構(gòu)導(dǎo)航。在著錄邏輯中,文獻(xiàn)等級中的每一個(gè)概念被定義為“屬于”關(guān)系,或是一種對上層概念的“延伸”關(guān)系。繼承的值與“延伸”關(guān)系相關(guān)上位類的值“相同”。
2.3 MARC記錄轉(zhuǎn)入本體論
將MARC字段和值轉(zhuǎn)化為標(biāo)識的文本要借助4個(gè)控制文檔,這組文檔著錄了MARC格式和它與本體論的關(guān)系。主控文檔將選定MARC字段和編碼掃描為一個(gè)或多個(gè)本體論概念。一些掃描過程視MARC值而定,依據(jù)不同情況將單一字段掃描為多個(gè)本體論概念。第二個(gè)控制文檔對多個(gè)MARC字段掃描為同一個(gè)本體論概念的情況建立優(yōu)先權(quán)。第三個(gè)控制文檔依據(jù)MARC記錄的類型和書目層次標(biāo)識MARC字段內(nèi)編碼的位置。第四個(gè)控制文檔包括每一個(gè)編碼的信息,包括編碼—值表的長度和位置。
2.4 知識庫的生成
將MARC數(shù)據(jù)轉(zhuǎn)為用本體論概念標(biāo)識的文本后,依據(jù)本體論所規(guī)定的文獻(xiàn)等級結(jié)構(gòu)及定義的相關(guān)屬性可以進(jìn)行如下推理:
·用統(tǒng)一的標(biāo)準(zhǔn)對中間概念的多項(xiàng)進(jìn)行合并。統(tǒng)一標(biāo)準(zhǔn)算法使用基數(shù)限定,這一基數(shù)限定是本體論定義的一部分。如果某項(xiàng)的類型屬于另一項(xiàng),且允許多重值,那么該項(xiàng)被合并。
·標(biāo)識合并相同的構(gòu)思。有相同統(tǒng)一題名、作者、序列號的構(gòu)思被視為相同的構(gòu)思。當(dāng)缺少統(tǒng)一題名時(shí),使用版本項(xiàng)的題名代替。
·如果文風(fēng)和相關(guān)作者值相匹配,或者版本層的某種衍生關(guān)系可以識別的情況下,標(biāo)識和合并有相同構(gòu)思的表述。
·在出版者和出版日期相匹配,并且一項(xiàng)的出版形式值是另一項(xiàng)出版形式值的子集時(shí),標(biāo)識和合并有相同表述的版本項(xiàng)。同時(shí)還可在載體層某種衍生關(guān)系可以確定的情況下合并版本項(xiàng)。
·依據(jù)MARC記錄描述的衍生關(guān)系建立與先前文獻(xiàn)的關(guān)系。如果在文獻(xiàn)族中未發(fā)現(xiàn)原作,則生成原作相關(guān)知識的本體論(包括在文獻(xiàn)等級結(jié)構(gòu)中衍生文獻(xiàn)所在等級以上的全部層次和來自MARC記錄的信息)。
最后將推理的結(jié)構(gòu)進(jìn)行歸納,將具有相同關(guān)系的文獻(xiàn)合并,從而生成知識庫。
3 XML中本體論的構(gòu)建
數(shù)字圖書館管理的不僅是文本文獻(xiàn),還有多媒體信息,因此,為此類信息資源構(gòu)建本體論就成為數(shù)字圖書館信息資源本體論構(gòu)建的第二個(gè)層次。
3.1 可行性分析
由于MARC等處理手段著錄多媒體信息的缺陷,數(shù)字圖書館必須采用能標(biāo)識各類型信息資源的標(biāo)準(zhǔn)和技術(shù)。XML具有靈活性和可擴(kuò)展性優(yōu)勢,突破了MARC的局限,可以描述各種類型的文獻(xiàn)資源。使用者可利用XML中的DTD自行定義所需的標(biāo)記語言及XML文件的結(jié)構(gòu)。如果使用者就DTD達(dá)成一致,則文獻(xiàn)可以用一致的方式創(chuàng)造、傳
遞和翻譯,同時(shí)保留傳遞者指明的語義。在XML的DTD中構(gòu)建本體論可以實(shí)現(xiàn)在概念層整合各種類型信息資源,它將來自句法和表述層的信息提高到更為抽象的概念和關(guān)系層進(jìn)行描述,滿足了揭示多媒體信息內(nèi)在關(guān)系的需求。
3.2 等級關(guān)系的建立
實(shí)現(xiàn)基于本體論的XML描述首先要定義描述客體之間的等級關(guān)系,這就需要建立等級關(guān)系模型。以一個(gè)由人和出版物概念等級結(jié)構(gòu)組成的本體論關(guān)系模型為例,本體論在框架邏輯中描述概念,規(guī)定“人”是“客體”的一個(gè)子概念;“職員”和“學(xué)生”是“人”的子概念等等。概念“博士生”同時(shí)繼承了“學(xué)生”和“研究者”的屬性,相繼承的屬性被定義在本體論的第二部分,指的是概念之間的關(guān)系,在此通過相應(yīng)類型的屬性建立起概念之間的關(guān)系。本體論的第三部分是定理,使用這一定理可以在已有事實(shí)的基礎(chǔ)上推斷新知識。例如,假設(shè)研究者A和B合作,則可推斷出B也是研究者,同時(shí)B也與A合作。因此,本體論可以推斷不完整的知識。
3.3 本體論DTD的生成
因?yàn)槔^承關(guān)系是本體論的核心,而XML本身并不支持這種關(guān)系,所以這一關(guān)系模式需要借助其它方法才能在DTD中生成。使用XML的參數(shù)實(shí)體可以實(shí)現(xiàn)這一目標(biāo),參數(shù)實(shí)體定義了可以用于DTD的替換字符串,每當(dāng)參數(shù)實(shí)體被參照時(shí),這一參照則使用替換字符串來代替。DTDMAKER是一個(gè)在XML文獻(xiàn)的DTD中構(gòu)建本體論的有效工具,它將本體論的概念掃入DTD的元素類型中,即對每一個(gè)概念元素類型都做定義,這些元素類型的內(nèi)容模型由表達(dá)概念屬性的元素構(gòu)成。本體論中的屬性和XML的屬性一樣可以表述出來,也就是說本體論的屬性可以被掃入相應(yīng)的XML屬性中。最后一步是將本體論屬性元素內(nèi)容模型的規(guī)范掃入DTD中。
4 知識管理中本體論的構(gòu)建
數(shù)字圖書館的目標(biāo)是在對各種文獻(xiàn)信息進(jìn)行組織和管理的基礎(chǔ)上,最終實(shí)現(xiàn)對知識的管理。在知識管理的全過程中構(gòu)建本體論,可以實(shí)現(xiàn)對知識本身的揭示,實(shí)現(xiàn)數(shù)字圖書館對信息資源最高層次的管理。
4.1 可行性分析
在知識管理的過程中構(gòu)建本體論主要由4項(xiàng)工作構(gòu)成:①建立等級結(jié)構(gòu);②知識描述;③本體論信息瀏覽;④在推理基礎(chǔ)上提供知識的智能檢索。這些內(nèi)容容易與關(guān)系型數(shù)據(jù)庫技術(shù)相混淆:本體論模型對應(yīng)于數(shù)據(jù)模型,對知識的描述對應(yīng)于知識庫中的數(shù)據(jù)項(xiàng),查找則對應(yīng)于SQL。然而,這種本體論方法與集中的數(shù)據(jù)庫技術(shù)有顯著的不同,它捕捉的是分布的而不是集中的知識,知識可以直接在它的初始位置被查找(如HTML網(wǎng)頁),而不是被分割到相應(yīng)的數(shù)據(jù)庫中才能查找。這種方法允許對知識進(jìn)行推斷,知識雖然沒有明確表達(dá)出來,但卻可以根據(jù)一般性的知識(包含在本體論內(nèi))進(jìn)行推導(dǎo)。
知識管理過程中本體論的構(gòu)建具有上述優(yōu)勢。在網(wǎng)絡(luò)環(huán)境下借助相應(yīng)的基于代理的本體論服務(wù)工具,使這一構(gòu)建過程具有很強(qiáng)的可行性。
4.2 等級結(jié)構(gòu)的建立
構(gòu)建本體論的關(guān)鍵步驟是等級結(jié)構(gòu)的建立,這一過程與2.2、3.2部分所述內(nèi)容相似,因此這里省略。
4.3 知識描述
在分布式的網(wǎng)絡(luò)環(huán)境下,需要管理的知識資源分布在網(wǎng)頁中,可以在網(wǎng)頁中添加本體論的標(biāo)識語句,如在HTML中對被描述的信息客體添加本體論的onto語句。在標(biāo)準(zhǔn)的Web瀏覽器如Netscape或Explorer中,onto語句的添加并不影響HTML文件的視覺效果,這樣做只是使得主題事物知識的智能Web查找可視化。同時(shí),這可以直接使用(再利用)語句體中的文本知識,避免了知識標(biāo)注者重復(fù)表示相同的信息。
4.4 本體論信息瀏覽
由于使用者在標(biāo)注和查詢的過程中使用了本體論標(biāo)識語句,因此,在此階段可提供便捷的信息瀏覽。本體論元數(shù)據(jù)表示的是概念的等級關(guān)系,這種等級關(guān)系至少容易滿足用戶的兩種需求:①瀏覽某一類的周圍類目,以便尋找最合適的形成某一提問的類,②瀏覽全部等級,以便快捷地完成由一個(gè)等級向另一個(gè)等級的導(dǎo)航。
4.5 智能知識檢索
在網(wǎng)絡(luò)環(huán)境下可以使用基于本體論的代理服務(wù)Ontobroker,它由3個(gè)部分組成:網(wǎng)絡(luò)爬蟲(Ontobroker)、推理引擎及查詢界面。
首先,Ontocrawler通過標(biāo)識的網(wǎng)頁進(jìn)行查找并收集標(biāo)注的知識片斷。其次,將知識片斷轉(zhuǎn)化為以O(shè)ntocrawler所使用的表述語言規(guī)范成的事實(shí)。不論是推理引擎還是查詢用戶都不需要了解因特網(wǎng)上事實(shí)表述的句法,只有標(biāo)注者必須使用標(biāo)注語言。
推理引擎收到用戶的提問后,利用兩個(gè)信息源來推導(dǎo)答案,即主題事物的本體論和Ontocrawler中的事實(shí)。推理引擎的基本推理機(jī)制類似于知識庫中的智能推導(dǎo)系統(tǒng)。
5 結(jié)語
由于信息資源組織在數(shù)字圖書館中的重要作用,開發(fā)科學(xué)有效的信息處理工具已成為數(shù)字圖書館研究的一個(gè)重點(diǎn)。本體論的構(gòu)建彌補(bǔ)了現(xiàn)有手段描述信息客體功能上的不足,它既從宏觀上為信息資源的有效組織提供了指導(dǎo)思想,也從微觀上構(gòu)成了描述信息客體的標(biāo)準(zhǔn)和技術(shù)。本文對國外本體論的理論研究和實(shí)踐應(yīng)用進(jìn)行了深入分析和系統(tǒng)整理,建立了構(gòu)建數(shù)字圖書館信息資源本體論的3個(gè)層次體系,并在每個(gè)層次的具體操作中形成了從可行性分析到等級結(jié)構(gòu)建立再到本體論生成的方法體系。
【參考文獻(xiàn)】
1 Gruber,T.R.A translation approach to portable ontology specifications. Knowledge Acquisitions, 1993(5): 199-210
2 Uscbold, M. Ontology: principles, methods, and applications. Knowledge Engineering Review, 1996(11) :93-155
3 Farquhar A., Fikes, R. et al. The ontolingua server: a tool for collaborative ontology construction. International Journal of &nb
sp;Hunmn-Computer Studies, 1997(46) :707-728
4 Michael, Erdmann. How to structure and access XML with ontologies. Data & Knowledge Engineering, 2001 (36):317-335
5 http://www. aifb. uni-karlsruhe, de/WBE/broker/
6 Birmingham,W. Building ontologies for the Internet: a midterm report. International Journal of Human-Computer Studies, 1999(5) :687-712
7 Guarino,N. Semantic matching: formal ontological distinctions for information organization, extraction, and integration. Computer Science, 1997(5): 139-170
8 Louise, C. Extracting focused knowledge from the semantic Web. International Journal of Human-Computer Studies, 2001 (54):155-184
9 O' Leary, D.E. Impediments in the use of explicit ontology for KBS development. International Journal of Human-Gomputer Studies, 1997(46) :327-337
10 Weinstein, P., Birmingham, W. Creating ontological metadata for digital library content and services. International Journal on Digital Libraries, 1998(2) :20-37
11 Fensel, D. OIL in a nutshell. http://www. ontoknowledge. org/oil/papers. html.
【數(shù)字圖書館信息資源本體論的構(gòu)建】相關(guān)文章:
社會科學(xué)信息資源網(wǎng)絡(luò)的構(gòu)建08-05
數(shù)字信息資源合理使用問題探討08-05
淺談圖書館地方文獻(xiàn)信息資源的開發(fā)08-09
數(shù)字圖書館館藏評價(jià)08-05
數(shù)字圖書館的評估研究08-05