天天被操天天被操综合网,亚洲黄色一区二区三区性色,国产成人精品日本亚洲11,欧美zozo另类特级,www.黄片视频在线播放,啪啪网站永久免费看,特别一级a免费大片视频网站

現(xiàn)在位置:范文先生網(wǎng)>理工論文>計算機信息技術>中國地方志(舊方志)資源庫的設計與展望

中國地方志(舊方志)資源庫的設計與展望

時間:2023-02-22 15:51:05 計算機信息技術 我要投稿
  • 相關推薦

中國地方志(舊方志)資源庫的設計與展望


一. 中國地方志(舊方志)資源庫建庫緣起  

地方志,也稱為“方志”,“志”就是“記”,是記錄、記載、記述的意思。顧名思義,“地方志”就是一個地方從古到今,從自然到社會方方面面情況的總覽。中國國家圖書館特色館藏,就包括1949年以前編纂的地方志(簡稱舊方志),不論質量還是數(shù)量均居海內外各藏書單位之首。對于先人留給我們的這一寶貴文化遺產(chǎn),我們有責任保護、利用和推介。采用數(shù)字化的形式,整理、加工舊方志資源,是實現(xiàn)這一目標的有效途徑。

方志資源庫采用什么樣的結構模式,是建庫之初首先遇到的問題。國家圖書館資源庫的發(fā)展歷程伴隨著圖書館發(fā)展的腳步,也經(jīng)歷了從傳統(tǒng)館藏資源———館藏資源數(shù)字化———數(shù)字圖書館資源庫發(fā)展三部曲。我館現(xiàn)在已有的數(shù)據(jù)庫,大多是將傳統(tǒng)館藏經(jīng)過數(shù)字化處理生成的。方志資源庫如采用原有的思路,即把志書平行地轉換成數(shù)字化內容,那我們最終實現(xiàn)的僅是把紙質志書轉換成電子志書。就載體形態(tài)來說,志書數(shù)字化使其發(fā)生了質的飛躍,但就內容而言,它僅是形式的變化。而當今信息網(wǎng)絡技術的發(fā)展,信息網(wǎng)絡資源的迅速擴大,越來越影響和改變著人們選擇信息、使用信息的行為和方式。人們對知識的需求已不滿足于以文獻為單位,而是希望通過簡單、快捷的方式檢索到所需文獻中的具體事件、數(shù)據(jù)、結論等知識單元,同時將所需知識單元和與其相關的信息進行整合,在最短的時間內獲取最大的信息量。為了最大限度地開發(fā)方志資源,多角度、多側面地深入揭示方志內涵,依據(jù)信息時代人們的信息需求特點和信息網(wǎng)絡技術發(fā)展所提供的技術保證,達到知識創(chuàng)新的目標,因此,方志資源庫的建庫模式應定位在數(shù)字化信息資源的重組與多媒體展示的平臺上。在此,先論述圖書館數(shù)字化和數(shù)字圖書館之間的聯(lián)系與區(qū)別以及其他幾個基本概念。

二. 方志資源庫的幾個基本概念

1.圖書館數(shù)字化:從字面上看,傳統(tǒng)圖書館館藏經(jīng)過數(shù)字化技術處理和加工,為用戶提供服務,這個過程就叫圖書館數(shù)字化。這方面的工作我們在十幾年前就開始了。例如:八十年代后期我們就在M150機上編制“國家書目”,九十年代前期我們開始編制的地方志書目數(shù)據(jù)庫及以后編輯的地方志人物傳記索引數(shù)據(jù)庫,直到目前我們還在做的“古籍書目”數(shù)據(jù)庫以及我們將要建的地方志資源庫中的全文影像庫等都屬于圖書館資源數(shù)字化的范疇。其工作對象和結果僅限于傳統(tǒng)資源本身,或者說它只是一種載體形式的轉換(由紙制品轉化成電子出版物)。

2.數(shù)字圖書館:數(shù)字圖書館是把傳統(tǒng)圖書館的功能由信息的查詢和圖書資料的借閱擴展到知識服務的新階段。其中兩個關鍵的技術是信息資源的整合和知識的創(chuàng)新。前者就是要依據(jù)統(tǒng)一標準,將相互關聯(lián)的信息資源重新組合并進行科學的分類和標引,強調重組后的信息資源的有序化和關聯(lián)性,而后者突出的是知識的增值與創(chuàng)新。如果把前一過程比做物理學中物質所發(fā)生的“物理變化”的話,則知識創(chuàng)新所引發(fā)的就是物質的“化學變化”。即通過分解、重組,形成了新的信息知識網(wǎng)絡,較原來的傳統(tǒng)信息資源在功能、用途等方面都發(fā)生了質的變化。對此許多專家、學者都有嚴謹?shù)拿枋龊徒忉?在這里就不一一贅述了。通俗一點兒說,它有以下幾個特征。

(1) 信息資源數(shù)字化:數(shù)字圖書館內的所有信息資源都經(jīng)過數(shù)字化處理。

(2)服務手段網(wǎng)絡化:它借助網(wǎng)絡技術、計算機技術和現(xiàn)代通信技術傳播知識(例如互聯(lián)網(wǎng)、衛(wèi)星傳遞等),突破了館舍的時空局限,用戶可以隨時隨地得到所需信息,是不局限于圖書館場館的。(3)資源實體虛擬化:它是基于互聯(lián)網(wǎng)的多維知識網(wǎng)絡,突破了傳統(tǒng)載體的限制,延伸、拓展了傳統(tǒng)圖書館館藏外延。它不僅提供傳統(tǒng)的基于印刷介質的服務,還可通過跨庫檢索,對數(shù)字信息進行重新組合,提供重組后的信息服務。因而,它是對館藏資源的再開發(fā)。例如:“昭陵”和“玄武門之變”分別是景觀和事件對象資源,它們都與“李世民”相關聯(lián),分別收藏在景觀庫和事件庫中,但重組在一個頁面里,以視頻、音頻、圖像等多媒體手段展現(xiàn)在用戶面前。

(4)檢索方式良序化:依據(jù)統(tǒng)一規(guī)范即統(tǒng)一的元數(shù)據(jù)標準,對數(shù)字信息資源進行科學的分類和標引,達到對數(shù)字信息處理的良序化(相當于書刊采訪到館后先編目),保證了分散的數(shù)字資源經(jīng)重組后提供給用戶精確的檢索,檢索效率很高。這一點有別于一般的網(wǎng)絡搜索引擎。網(wǎng)絡搜索引擎是通過網(wǎng)絡機器人自動搜索并生成相關的著錄信息,存入數(shù)據(jù)庫中供檢索之用,其檢索系統(tǒng)由于采用自動標引,檢索后的網(wǎng)上信息還需要人工識別處理,檢索效率太低。

(5)信息利用共享化:由于數(shù)字化圖書館內的信息資源的加工、發(fā)布都依據(jù)統(tǒng)一的標準和規(guī)范,所以它可以最大限度地實現(xiàn)信息資源的共建共享。

3.元數(shù)據(jù):傳統(tǒng)圖書館流程中重要的一步工作就是圖書、期刊的編目,便于用戶查找。數(shù)字圖書館中的數(shù)字資源同樣需要編目。元數(shù)據(jù)就是為了滿足數(shù)字資源的編目需要應運而生的,它是數(shù)字圖書館編目的新規(guī)則,是一種有效的信息資源組織和管理的工具。它具有描述性、結構性、管理性。就描述性而言,我們以前用的卡片目錄,現(xiàn)在用的MARC格式都屬于元數(shù)據(jù)的范疇。但元數(shù)據(jù)又比卡片目錄、MARC格式具有更強大的描述能力,而元數(shù)據(jù)所具有的結構性(揭示資源的內部結構)和管理性(規(guī)定運行環(huán)境、數(shù)字版本、收費情況等)使它能更全面的反映了數(shù)字文檔的各個方面,為數(shù)字資源的保存和利用提供了更有效的工具。

4.資源庫:經(jīng)過專業(yè)人員組織、加工、整合而成的符合數(shù)字圖書館規(guī)范的資源的集合。它具有數(shù)字圖書館的基本特征。資源庫是完全網(wǎng)絡化的,具有強大的檢索平臺和豐富的檢索途徑。一般資源庫都包括了文字、圖片、視頻、音頻等豐富的多媒體資料,對各種媒體都具有良好的支持。各種專題知識資源庫組成了數(shù)字圖書館的物質基礎。資源庫的建設不可能一蹴而就,它要隨著時間的推移、知識的不斷更新,動態(tài)地更新內容。由于資源庫的信息資源使用統(tǒng)一的加工、發(fā)布標準(例如元數(shù)據(jù)標準),可吸收各信息資源優(yōu)勢單位參與共建,形成系列知識庫群,使信息資源最大限度地被公眾所共享。

三. 方志資源庫的結構和內容

根據(jù)方志內容特點和用戶需求,我們的方志資源庫設計成由一個全文影像庫,一個OCR數(shù)據(jù)庫和八個專題子庫組成。

用戶既可通過全文檢索進入全文影像庫或OCR庫,也可通過“跨庫檢索”、“字段聯(lián)接”和“詞語置標標引”等方式進入各個專題子庫,再通過8個專題子庫跨庫進入全文影像庫或OCR庫,該方法實現(xiàn)了不同專題庫中的字段及字段中的內容的鏈接。

1 全文影像庫:就是將國圖分館所藏的1949年前編纂刊行約6000余種地方志書進行全文掃描,即志書的數(shù)字化處理,全文影像庫并沒有改變原有的信息組織,它只是對紙制志書的載體形式進行了一次平面轉移,即將紙制舊志通過掃描處理,變成可在網(wǎng)上閱讀的電子書。在全文影像庫用戶除了閱讀原書,還可以做多幅影像的比較即版本?。(最多4幅圖像同時顯示)。

2 OCR數(shù)據(jù)庫:OCR是英文Optical Character Recognition 的縮寫。意為“光學字符識別”,也可簡稱為文字識別。通俗地說就是計算機認字,是一種文字自動輸入方法。它的作用是將全文影像庫中的志書影像轉換成文本格式再進行切詞標引,按設計要求規(guī)定標引到志書中的“標目”。在OCR數(shù)據(jù)庫中,用戶不但可以閱讀到舊志的原文,還可以對志書進行全文檢索,也可進行精確到“標目”的詞組檢索。同時用戶還可以根據(jù)需要進行個性化處理,例如添加標記、注釋,選擇自己需要的內容進行編輯、復制,對文本形式的不同版本的影像進行多屏幕比較研究等。

以上兩個庫內容的外延都沒有超出志書提供的內容。而只是將原書載體形式做了轉換,以電子圖書的形式顯現(xiàn)。

3 八個專題子庫:八個子庫的建庫原則是以原書為基礎,按照元數(shù)據(jù)標準進行規(guī)范化處理,多角度、多途徑地豐富、補充、擴展原書內容,將原來分散或不完整的方志信息集合起來,形成地方志知識網(wǎng)絡。八個專題資源庫彼此相連,并且都與全文影像庫和OCR庫相連接,專題資源庫的檢索條件可以單獨使用,也可以兩個檢索條件組配,進行復合檢索。在專題資源庫,用戶根據(jù)需要,從一個知識點入手檢索,就可以方便、快捷地跳轉到全文影像庫、OCR庫或不同的專題資源庫,檢索到與入口知識點相關的各種信息,從而為用戶節(jié)省大量的精力和時間,最大限度地為用戶提供個性化的服務。

(1)地名資源庫地名資源庫的建設分為兩步:首先建立志書名稱中涉及到的方志地名資源庫,其次再逐步擴大地名收錄范圍,建成為更大規(guī)模的中國地名資源庫。地名庫中的規(guī)范地名是依據(jù)2002年國家行政區(qū)劃表及有關規(guī)則進行規(guī)范處理后的地名?陀^地名是規(guī)范地名以外該地歷史上通行或常用的地名。地名異名包括客觀地名的又名、別名、俗稱、簡稱等。規(guī)范地名與客觀地名相互參見。用戶可根據(jù)需要選擇入口詞。該庫的基本內容包括:規(guī)范地名、客觀地名、規(guī)范地名的異名、地名隸屬關系、地名沿用時間(朝代)、地名簡介(沿革、變遷情況)、地名文化(相關人物、事件、景點和插圖名稱等)、周邊地名、所轄地名、影像原文和OCR原文等。以蘇州為例,商代末年始建吳國。秦統(tǒng)一中國后,在此地置吳縣,后或稱吳郡,或稱吳州,到隋代始稱蘇州;宋代升為平江府,元代治平江路,明代改為蘇州府。清代沿襲明制,并將蘇州府城定為江蘇省治。依據(jù)地名規(guī)范原則,此條地名數(shù)據(jù)的規(guī)范地名選“蘇州”,行政區(qū)劃單位是“市”客觀地名是“蘇州、吳縣、平江、平江”,但行政區(qū)劃單位分別是“府、縣、府、路”規(guī)范地名“蘇州市”與客觀地名“蘇州府、吳縣、平江府、平江路”之間具有相互參見關系,規(guī)范地名的異名為吳郡、吳州,它們與規(guī)范地名“蘇州”之間是單純參見關系,當用戶以“吳郡”、或“吳州”做入口詞,檢索“蘇州”時,機器會自動指引到規(guī)范地名“蘇州”條目下,檢索到它的相關信息。

(2) 人物資源庫

凡出現(xiàn)在方志人物、選舉、職官等篇目中的有較詳細傳記資料的人物(現(xiàn)暫定傳記文字應不少于150個漢字),按照元數(shù)據(jù)標準進行規(guī)范處理,通過“單純參見”或“相互參見”建立規(guī)范人名與非規(guī)范人名(又名)之間的聯(lián)系。人物資源庫基本內容包括:規(guī)范人名、又名(字、號、別名、筆名、室名等)、性別、籍貫(出生地)、民族、生卒年、主要活動年代、人物關鍵詞、分類、相關信息等。一般人物以其“名”作規(guī)范名稱,知名人物以人們熟悉的通行名稱作規(guī)范名稱。例如清代著名藏書家黃丕烈,字紹武,又字紹甫,號蕘圃,別號蕘夫、老蕘、復翁等,室名學耕堂、百宋一廛、龜巢。在人物資源庫中,此條數(shù)據(jù)的規(guī)范名稱選黃丕烈,而其字、又字、號、別號、室名等則入“又名”字段,同時在規(guī)范名稱(黃丕烈)與又名(字、又字、號、別號、室名等)之間建立單純參照關系,用戶可從黃丕烈的任一名或字、號入口檢索,機器自動指引到規(guī)范名稱———黃丕烈,檢索出與他生平相關的信息。用戶還可以通過相關人物字段檢索到和黃丕烈同時代的蘇州另外三個著名藏書家周錫瓚(字香巖)顧之逵(字抱沖)、袁廷?(字壽階)的相關情況。通過跨庫鏈接檢索到黃丕烈的著作(作品庫)以及和他有關的地名、事件、插圖、景點、研究文獻等),用戶也可以根據(jù)需要回全文影像庫或OCR庫查看原文。人物資源庫多側面、多角度地描述被傳人物。

(3) 事件資源庫

事件資源庫收錄了志書大事記篇或雜記中記載的重大事件。內容包括災祥、戰(zhàn)事等。依據(jù)元數(shù)據(jù)標準,對事件資源進行規(guī)范著錄、標引。事件資源庫基本內容包括:事件名稱、發(fā)生時間、地點、事件簡介、分類、關鍵詞、相關信息(相關人物、事件、地名、作品、景點、志書、文獻等)、影像原文、OCR原文和出處等。

例如清光緒二十四年(戊戌年,1898),以康有為為代表的資產(chǎn)階級維新派發(fā)動了資產(chǎn)階級政治改良運動,即著名的“戊戌變法”又稱“百日維新”。此條數(shù)據(jù)的規(guī)范名稱選用“戊戌變法”,事件又名為“百日維新”,規(guī)范名稱與事件又名之間是參見關系,用戶不論是從規(guī)范名稱“戊戌變法”還是從事件又名“百日維新”都能檢索到事件信息。用戶還可以通過分類號、關鍵詞等途徑檢索事件信息。通過相關信息(相關人物、地點、作品、景點等)跨庫了解戊戌變法的代表人物康有為等的生平事跡、康有為的著述、事件發(fā)生地北京的情況,也可以返回全文影像庫或OCR庫查看在志書中的記載。

(4)作品資源庫該庫收錄了方志藝文志、人物志中記載的著述、詩詞、游記、散文、墓銘志等作品,依據(jù)元數(shù)據(jù)標準進行規(guī)范著錄、標引。它與研究文獻資源庫的區(qū)別在于作品庫的內容一定出自志書,所做的補充和擴展都是為了保證志書的作品的完整性而進行的。例如:《武功縣志》上有關于駱賓王的記載,而藝文志中他的詩文作品收集的又不全,這時為了保證有關駱賓王詩文作品在作品庫中的完整性,可以從志書其他方面進行補充和完善。

作品庫內容包括:作品題名、作者、作品出處、出版情況(包括出版者、出版地、出版日期)、現(xiàn)存版本、發(fā)表時間或歷史時期、關鍵詞、分類、原文(圖片資料、視頻、音頻資料)等、作品出處、提要和制作信息,并增加了相關地名、人物、事件、作品、景點、插圖、研究文獻、影像原文和OCR原文鏈接,使作品資源庫內容更豐富、充實。以著名藏書家黃丕烈的著述為例,用戶通過作品庫不但可以檢索到《蘇州府志》著錄的黃丕烈的著述:百宋一廛書錄、百宋一廛賦注、士禮居詩抄二卷、還可以十分方便地檢索到作品主人其他方面的信息,如研究文獻《黃丕烈評傳》。

(4) 插圖資源庫

插圖資源庫將志書中的輿地、器物、肖像、景觀和營造等類插圖,依據(jù)元數(shù)據(jù)標準進行規(guī)范著錄、標引,建立插圖資源庫。該庫內容包括:插圖代碼、名稱、版框尺寸、出處、關鍵詞、分類、相關鏈接(包括相關人物、地名、事件、景點、文化民俗、研究文獻等)、圖象信息(包括圖像格式、圖像文件大小、尺寸、分辨率和色彩深度等)。用戶可通過插圖名稱、關鍵詞、分類號等途徑,檢索到志書插圖并能自動連接到同一志書的其他插圖。還可以通過“原圖”、“原文”按鈕或輸入URL網(wǎng)址與全文影像庫、OCR?guī)戽溄印?/p>

(6)景觀資源庫該庫將方志中記載的名勝景觀,依據(jù)元數(shù)據(jù)標準進行規(guī)范著錄、標引,建立景觀名稱和它的又名之間的相互參見關系,并在該庫中增加了景觀圖片、視頻、音頻資料,相關人物、事件、作品、地名和研究文獻等信息,使景觀內容更豐富、充實。該庫內容包括:景點名稱、位置、景觀介紹(包括文字、圖片、音頻、視頻)、分類、關鍵詞、景觀文化(包括相關人物、事件、作品、地名、研究文獻等)、周邊景觀、下層景觀并可以鏈接到影像原文或OCR原文。

(7)目次資源庫該庫記載國家圖書館志書收藏信息。依據(jù)元數(shù)據(jù)標準,對志書題名和志書中的卷次篇目進行規(guī)范處理。通過該庫用戶不但可以檢索到志書書目,還可以對書中的卷次篇目進行檢索。目次資源庫的基本內容有:志書名稱,目次名,版本項、載體形態(tài)、相關信息(地名、人物、事件)等。

(8)研究文獻資源庫收錄后人對志書、志書版本、志書內容(相關人物、事件、地名等)的評論、研究、考證論文、論著。依元數(shù)據(jù)標準進行著錄、標引。該庫基本內容有:文獻名稱、作者信息(責任描述、工作單位)、原文、分類、關鍵詞、文獻發(fā)表時間、發(fā)表刊報、相關鏈接(包括相關事件、人物、作品、志書、地名、插圖、文獻)、影像原文、OCR原文等。

全文影像庫,OCR數(shù)據(jù)庫和八個專題子庫相互關聯(lián),互為依托,構成數(shù)字方志資源庫的主體。為了更好地說明方志資源庫的內部結構,我們以陜西省《武功縣志》為例,分析方志資源庫中各個專題庫之間的相互鏈接關系。

 假如我們從地名庫進入,以“武功”做檢索詞,則在地名庫這個條目下不但可以檢索到武功縣和與之相臨的禮泉縣的情況,還可以通過字段聯(lián)接和詞語置標標引等手段從地名庫直接跨庫進入相關子庫檢索到與“武功”有關聯(lián)的人物(如李世民、蘇武)、事件(如玄武門之變、蘇武牧羊)、作品(如蘇武李陵詩)、景觀(如蘇武墓)、插圖(如李世民像)、研究文獻(如蘇武傳)、目次(武功縣志卷一)等,同時這些專題子庫都可以與全文影像庫和OCR?guī)煜噫溄?用戶隨時可以根據(jù)需要查看原文出處。同理,用戶也可以從其他任意一個專題子庫進入,檢索效果相同,如圖。

四.方志資源庫的建庫進程及展望  

我們在對館藏情況(包括方志數(shù)量、質量、版本等)進行認真分析、調研后,就方志資源庫的結構、規(guī)范、收錄范圍、工作進度、共建共享等問題反復論證、規(guī)劃,在此基礎上,我們推出了方志資源庫演示版,并在2002年7月召開的《北京國際數(shù)字化公眾信息服務與技術展覽會》上進行了展覽和演示,得到了與會各級領導和專家及觀眾的關注和肯定,F(xiàn)在我們已經(jīng)開始了全文影像庫的建設,到2002年底,我們計劃完成330萬頁舊志的全文掃描,同時,對7月推出的演示系統(tǒng)進行完善,從明年開始著手制作與之配套的OCR數(shù)據(jù)庫及地名、人物、事件、作品等八個規(guī)范化的專題子庫。方志資源庫完全建成后,應包括本館所藏6000余種地方志(舊方志)及其相關信息資源。此外,我們還設想待今后條件許可繼續(xù)擴大收錄范圍,一方面希望聯(lián)合全國地方志(舊志)收藏單位,參與我們方志資源庫的建設,另一方面將吸收我館普通古籍中所藏的各種專業(yè)志資源,豐富其內容,將其建設成為更廣大意義上的中國地方志(舊志)資源庫。

通過上面敘述,可以看到正在建設的方志資源庫是一個多維的信息資源網(wǎng)絡,是一個非常宏大的工程。

國圖特色鮮明的館藏為開展數(shù)字方志資源庫建設提供了資源保證,相當長時間內我們已經(jīng)開展起來的二次文獻開發(fā)和數(shù)據(jù)庫建設為數(shù)字方志資源庫建設積累了寶貴的經(jīng)驗,業(yè)已形成的圖書館自動化和服務網(wǎng)絡為資源庫建設提供了技術和手段保證,更重要的是我們有一支熟悉館藏、熟悉古籍的專業(yè)人員隊伍,依靠著這些優(yōu)勢,國家圖書館的數(shù)字方志資源庫的建設一定會不斷完善起來。

〔出處〕 國家圖書館學刊 2003(1)



【中國地方志(舊方志)資源庫的設計與展望】相關文章:

中國地方志的史料價值及其利用08-09

遼寧地方志的價值與利用08-09

地方文獻工作如何為編修地方志服務08-09

圖書館應該努力為編修地方志服務08-09

對開發(fā)利用山東舊方志的思考08-09

市地方志編纂委員會基本情況匯報08-17

用地方志史料價值為四化建設服務08-09

談談為地方志編纂服務的二次文獻工作08-09

建立地方志計算機數(shù)據(jù)庫系統(tǒng)初探08-09