天天被操天天被操综合网,亚洲黄色一区二区三区性色,国产成人精品日本亚洲11,欧美zozo另类特级,www.黄片视频在线播放,啪啪网站永久免费看,特别一级a免费大片视频网站

現在位置:范文先生網>教學論文>綜合教育論文>館藏文獻優(yōu)先數字化的策略思考

館藏文獻優(yōu)先數字化的策略思考

時間:2023-02-20 10:11:38 綜合教育論文 我要投稿
  • 相關推薦

館藏文獻優(yōu)先數字化的策略思考

  【內容提要】本文討論了我國館藏文獻優(yōu)先數字化的原則與宜于優(yōu)先數字化的文獻類型。作者認為館藏文獻優(yōu)先數字化的原則是:具有較高價值的本國文獻,不受版權約束的文獻,以及館藏文獻的縮微膠片拷貝。考慮到用戶需求,技術支持以及經濟成本,作者提出了優(yōu)先數字化的文獻類型:非文字類型的文獻,OCR識別率高的文字文獻。
【摘  要  題】信息資源建設
【關  鍵  詞】館藏……
    隨著信息手段革命與信息內容革命兩次巨大的跳躍性發(fā)展,全球掀起了數字圖書館建設的浪潮。數字圖書館的出現,引發(fā)了一場全球范圍內的文化媒介遷移運動,促使許多國家把本國的文化遺產大規(guī)模轉換成數字形態(tài),以擴充數字圖書館的“內容”資源,以便為未來的“內容市場”競爭奠定基礎。數字圖書館的“內容”資源是刺激與滿足人們對文化內容需求的關鍵,人們對內容需求的革命性增長將推動技術革命的進一步發(fā)展,從而有力地促進國家信息化進程。
  由上可見,數字圖書館建設使我們的信息產業(yè)發(fā)展戰(zhàn)略更加明確:以內容的創(chuàng)造來帶動技術的發(fā)展,以民族文化產業(yè)的發(fā)展來拉動信息產業(yè)的躍升,從而有力地推動國家信息化進程,在整個戰(zhàn)略中,文化資源的數字化成為了核心行動。
  圖書館歷來承擔著保存和傳播人類文化遺產與知識的關鍵職能,它豐厚的館藏閃爍著中華民族悠久歷史與燦爛文化的光輝,是世界各國久久仰慕的。將圖書館館藏文獻數字化,通過英特網讓世界共享,不僅為中華文化在數字形態(tài)下再現輝煌提供了一次歷史機遇,而且這筆巨大資源本身對國際市場就具有無比的吸引力。然而,受財力、物力以及當前技術能力的限制,我們暫不可能將這大量的文化瑰寶全部數字化,只能分期分批、有步驟有選擇地進行數字化工作,逐步將中華民族文化推向世界文化市場。優(yōu)先數字化哪類館藏文獻才有可能在全球用戶市場上具有競爭力?在當前技術環(huán)境與資源配置情況下,制定什么樣的數字化策略才最經濟與可行?這兩個問題是所有從事館藏文獻數字化的同行所共同關注的,也是本文的研究主題。
      1 館藏文獻優(yōu)先數字化的原則
  數字化活動的主要目的是提高對圖書館館藏的獲取,或通過提供數字化拷貝,保護珍貴或易損的館藏文獻。鑒于此,筆者認為以下各類文獻應當優(yōu)先考慮數字化。
    1.1 優(yōu)先數字化有利于國家和民族的知識積累、傳播與創(chuàng)新
  這一優(yōu)先數字化原則是以符合本國利益、傳播本國文化為目的的?疾煸S多國家數字圖書館的網頁,都可以明顯地感覺到這一點。例如,美國國會圖書館就是優(yōu)先將美國1774年至1955年間各類歷史、文化、史料性文獻數字化,并通過因特網向全世界講述美國的歷史、戰(zhàn)爭與文化發(fā)展(注:許綏文.漫筆之三:館藏資源的數字化.北京圖書館館刊,1998(2))。日本也是優(yōu)先將本國主要的學術刊物(含人文科學、自然科學、工程科學等)優(yōu)先數字化,并通過因特網向全世界展現自己的文化、科學與技術水平。
  因而,我國應當優(yōu)先數字化本國的文化遺產,將被各類圖書館收藏的,由我國作者撰寫的,其著作的有價值部分,與我國社會、政治、文化、科學及經濟有關的內容優(yōu)先數字化;本國的文化和科學領域具有代表性的出版物可考慮優(yōu)先數字化。這些由本國人產生的,反映本國各方面活動的文獻數字化后,通過因特網可在全世界傳播中華民族文化與展現本國的科學技術水平。
    1.2 優(yōu)先數字化具有較高價值的本國文獻
  只有將具有較高價值的本國文獻數字化,才有可能吸引國內與國外用戶,只有這類資源才有可能在國際市場上具有競爭力;只有將具有較高價值的文獻數字化,這類文獻才可能為用戶長期存取。具有長期利用價值的數字文獻,才有可能使數字化初投資與其產生的效益相符。因而,我們必須將具有較高的文化價值、藝術價值、史料價值與研究價值的文獻資源優(yōu)先數字化,必須將本國的文化和科學領域具有代表性的出版物優(yōu)先數字化。
    1.3 優(yōu)先數字化使用頻率中、高的館藏文獻
  數字圖書館發(fā)揮的社會效益與經濟效益的大小,可以通過被訪問的次數多少來衡量。只有將用戶需求大的文獻優(yōu)先數字化,才可能提高數字圖書館被訪問的頻率。使用頻率中高的館藏,一般損壞風險也大。將這類文獻優(yōu)先數字化,可直接降低由于多次使用而給這類文獻帶來的損壞或丟失的風險,也促成了對這類文獻的保護。
    1.4 優(yōu)先數字化進入公有領域的文獻或不受版權法保護的文獻
  圖書館數字化活動應遵守知識產權法。對大多數圖書館而言,版權所有資料占館藏的主要部分。數字化受知識產權保護的文獻,需要與產權所有人協商。大多數情況下,協商版權許可是要付出高額費用的。例如,IBM在準備制作有關“哥倫布”的光盤時,僅為得到版權擁有者的同意,就花掉了100萬(注:Michael  Lesk.Going  Digital.Scientifi  American,Mar.1997)。
  目前,在我國大多數數字資料上網不收費或收費低微的情況下,如果將大量受版權保護的資料數字化,圖書館是承擔不起支付著作權人的費用的。因而,我國館藏文獻數字化初期的活動,應主要集中在版權期滿或不受版權制約的文獻上。
  世界各國對作者版權的保護期是有限制的,我國著作權法第21條規(guī)定,公民的作品,其發(fā)表權和著作財產權的保護期為作者終身及去世后50年,截止于作者去世后第50年的12月31日;如果是合作作品,截止于最后去世的作者去世后的第50年的12月31日。電影、電視、錄像和投影作品的發(fā)表權、著作財產權的保護期為50年,截止于作品首次發(fā)表第50年的12月31日。照此,170年前發(fā)表的論著(即1832年以前的論著)或50年以前公開發(fā)表的音像制品,是可以考慮優(yōu)先數字化,而不涉及版權問題。在此時期之后出版的文獻,均應仔細地檢查、核實其是否仍受知識產權約束。
  我國知識產權法規(guī)定,不受著作權保護的對象有:法律、法規(guī),國家機關的決議、決定、命令和其他具有立法、行政、司法性質的文件,及其官方正式譯文;時事新聞;歷法、數表、通用表格和公式等不受版權法保護。對于這類不受版權法保護,具有長期使用價值的文獻,可以考慮優(yōu)先數字化,例如國家制定的有關法律、法規(guī)等。
    1.5 可考慮優(yōu)先數字化縮微膠片文獻,以充分利用已有的成果
  由于多方面原因,縮微膠片文獻應當優(yōu)先數字化。
  1.5.1 縮微膠片文獻內容具有較高的研究價值。我國縮微膠片文獻,大多是80年代初,在文化部主持開展的“搶救祖國文化遺產”的工程中形成的。為了有組織、有計劃地將我國瀕臨損毀的、有長期保存價值的文獻縮攝為膠片拷貝,近40個公共圖書館與文獻收藏單位對本館本地區(qū)的歷史文獻進行了全面調研。將具有長期保存價值的重要文獻,分期分批地制作成縮微拷貝,F今,有重要史料價值的建國前的舊報紙、舊期刊以及古籍善本已經制作成縮微拷貝。目前,有重要價值的普通古籍、革命文獻以及建國以

前出版的平裝書、建國初期的報紙、期刊等仍在縮攝中,這些重要文獻預期在2010年前縮攝完畢。
  由此可見,館藏文獻的縮攝拷貝凝聚了我國重要文獻的內容。
  1.5.2 數字化縮微膠片有利于克服閱讀障礙,便于用戶存取。以縮微膠片為載體的文獻,利用起來十分不方便。例如,在提供利用前,需要查出所需文獻的縮微膠卷盒號,而從這一卷含有成百上千頁的文獻中,用閱讀器逐頁查出所需文獻,操作環(huán)節(jié)多,周期長,利用起來極不方便。所以盡管縮微膠片文獻上藏珍聚寶,利用者卻寥寥無幾。將縮微膠片的模擬影像轉換為以數字信息(數字圖像或數字文本)后,可以用多種途徑為用戶提供服務,實現快速方便地檢索與查閱,為世界共享中華文化提供了工具。
  1.5.3 縮微膠片文獻轉換為數字信息,也減少了縮微膠片文獻因復制和利用帶來的損壞,實際上是對縮微膠片文獻的保護。
  1.5.4 縮微膠片的原件不宜再作數字化處理,制作縮微拷貝的大多數文獻,由于年代久遠,絕大多數處于急待搶救狀況。即使保存狀況較好的文獻,其紙張也存在不同程度的劣化。近代出版物,如舊報紙、舊期刊中許多因紙張嚴重變質已無法繼續(xù)流通,如果再對這些文獻直接進行數字化處理,許多脆化的文獻就會由此而損毀。
  實驗表明,用縮攝影像數字系統將縮微影像轉換為數字影像,要比其紙質原件經平板掃描儀掃描后轉換為數字信息快6倍(注:邵杰.“縮微膠片影像數字化轉換及應用”在京通過鑒定.中國檔案,2000(8))。可見,將縮微膠片文獻數字化不僅避免了對原件的損壞,還節(jié)省了數字化的人力與時間。
  將縮微膠片轉換為數字圖像文獻的技術早已成熟,自1991年以來,OCLC的保存資源公司就已經掃描了多種格式的縮微膠片。實踐證明,今天的技術已經可將所有標準膠片上的模擬信息轉換為高質量的雙色或灰色的數字影像(注:劉鐵莊.美國圖書館資料從縮微膠片到數字化存取的轉變.國家圖書館館刊,2002(1))。
  1.5.5 掃描縮微膠片要比直接數字化其原件,獲取的信息更完整。按照縮攝中心的要求,文獻縮攝前必須進行一系列的補配、加工與整理工作。例如,建國前的舊報紙,保存至今絕大部分已殘缺不全,許多善本也破損嚴重。縮攝前,許多圖書館到全國各地圖書館或其他文獻收藏單位對這類文獻已經進行過補缺與修補,以及逐頁檢查、整理、修補和著錄等一系列前期工作。盡管許多報刊能補齊的是極少數,但絕大多數文獻經過補缺后,明顯地提高了自身史料價值。有些重要報紙,長期破壞嚴重,經過大規(guī)模補缺,大多充實了內容。又如,對于古籍善本,在縮攝前還請了研究古籍的行家負責古籍善本著錄標板的校編等。因而,直接對縮攝膠片進行數字化要比對其原件數字化,所獲取的信息更完整、更充實。
  由上可見,優(yōu)先將縮微膠片文獻轉換為數字文獻,無論從哪個角度分析都是十分有必要的。
      2 宜于優(yōu)先數字化的文獻類型
  館藏文獻的數字化除需要大量的人力、物力與財力外,還需要成熟的技術支持。盡管在館藏文獻數字化方面,我們已經取得不少成果,但許多問題仍在探索之中。我們優(yōu)先數字化的對象應是具有成熟的技術支持、具有成功的經驗可以借鑒,并且其轉換經費還得合理。對于一些文獻對象數字化后,其存取格式不為用戶所認同,或在當前技術條件下進行數字化可能投資過大的,都應暫緩數字化。
  當前,模擬轉換后的文獻大多可用兩類格式進行存取,一類是圖像格式,另一類是文本格式。這兩類格式各有弊利,并各適于不同類型的文獻。在制定優(yōu)先數字化策略時,我們必須對這些問題進行認真分析。
    2.1 存取格式與實現方式分析
  通過對傳統文獻進行掃描或數碼相機拍攝就可以得到傳統文件的數字圖像拷貝。數字圖像文獻的最大優(yōu)點是可以保存文獻原貌;制作技術相對簡單、制作成本相對低。其最大的缺點是占用存貯空間較大,影響傳遞速度,但通過壓縮技術的不斷提高,這個問題不會是影響數字圖像利用的主要問題。其關鍵的問題是,盡管可以制作一些檢索工具提高對數字圖像文獻的檢索速度,但目前的技術只能檢索到檢索詞所在的頁面,不能像文本文件那樣可以逐詞、逐字檢索到該字、詞所在的句、段。這種存取格式最適于傳統圖片、圖形文獻,以及其他必須保存文獻原貌的文獻。
  以文本方式存儲文獻信息的最大優(yōu)勢是可以通過檢索系統實現模糊檢索和邏輯檢索,其檢索深度直到所需查詢的檢索詞所在的字句,查全率、查準率高,且檢索速度快。其最大的缺點是不能保留文獻的原貌以及原文獻的字體,轉換成本高,轉換速度慢。對于以文本格式轉換館藏文獻的不足,我們是可以回避的。例如,對一些不需要必須保留文獻原貌的,只需要保留內容信息的文獻可選取這種方式轉換,但是該轉換成本與轉換速度是我們目前無法克服的。
  目前將傳統文獻轉換為文本格式文獻主要有兩種方式,一是鍵盤輸入。用鍵盤錄入文獻內容不僅轉換速度慢,錄入過程中還會出現較多的文字錯誤,需要較大的校對工作量,無法實現工業(yè)化的資源生產。因而鍵盤錄入方式對于大量傳統文獻的數字化轉換工作,是沒有經濟可行性的。二是先轉換成圖像文件后再通過OCR軟件將其變?yōu)槲谋靖袷。它是利用掃描儀和OCR軟件(OCR:光學字符識別)。擬轉換的文獻先用掃描儀掃描,再用OCR軟件識別,便可以將傳統文獻轉換為可編輯加工的文本文件了。
  中文OCR光學字符識別是一種文字文稿的自動輸入方式,將一份文獻的數字圖像輸入計算機,計算機取出每個文字和圖像,并將其轉換為漢字的編碼。它不再需要敲擊鍵盤,就可以將傳統文獻轉換為數字文本文件。
  我國從70年代末就開始研究OCR技術,到80年代中期,中文OCR已可識別上萬個漢字,識別率在90%左右的軟件已相當多,可以說中文OCR軟件在模數轉換中已經走向了實用。例如,“漢王OCR錄入系統”可實現對各種現代書籍、簡繁體書籍、報刊雜志、公文檔案的錄入識別,且識別率較高,速度快、還能實現橫校、縱校與對比校等。
  然而,對于館藏文獻的數字化而言,由于漢字的復雜性,OCR對各類中文文獻的識別遠難于英文與數字的識別,如果識別率低于90%,OCR在館藏文獻數字化的實踐中就會失去意義。因為過多的錯誤會花費大量精力和時間去校對,這會抵消OCR技術帶來的效率,特別對于以下幾類文獻,OCR技術目前尚不能成功地解決問題:
  2.1.1 含有繁體手寫漢字的古籍文獻
  由于當前OCR還不能識別大字符集的繁體手寫漢字,因而這類古籍文獻如果想要數字化為文本格式,最大困難在于OCR識別后的校對工作。由于古籍還需要很多研究古籍的專家來對文本進行核對,因而失去了使用OCR的積極意義。
  2.1.2 簡繁混排的中文文獻
  這類文獻識別率低,目前所有中文OCR都將識別字典分為簡體字集和繁體字集來提供給用戶,而對20世紀30年代至70年代的大量簡繁漢字混合使用的印刷品,無論用戶選擇簡體還是繁體,其識別率都極低。
  2.1.3 專業(yè)性強的中文文獻
  這類文獻誤識率高,現有中文OCR基本上以GB2312-80的一級漢字作為基本字符集,對專業(yè)性較強的印刷品識別率不高。
  2.1.4 難于機檢的漢字文獻
  即使?jié)h字庫的容量非常之

大,在具體工作中,仍然有一些文字無法用字庫中的漢字檢索,如古代鐘鼎文、甲骨文、篆字或其他圖形漢字等。這些還有待于技術的進一步的開發(fā),例如,近幾年來,華東師大中國文字研究與應用中心正在大力開展古文字信息化處理研究,現已突破了計算機處理古文字的一系列難題。不久前開發(fā)出了“金文資料庫”和“金文字庫”,實現了嚴格意義上的金文的計算機文字處理等,使之既能最大限度地反映古文字原貌,又能快速地深入到句、段進行檢索(注:文其.古文字信息化處理的可喜進展.光明日報,2002-05-22)。
  綜上所述,考慮到圖書館文獻的多樣性,以及用戶對不同類型文獻不同檢索要求以及當前技術的可行性,必須提出優(yōu)先數字化的文獻類型的選擇問題。將一些由于技術問題暫不能達到滿意的檢索效果,或利用當前技術將其轉換為用戶歡迎的格式可能費用過高的文獻對象,暫緩考慮數字化。等待技術的發(fā)展或經驗的累積再進行這類文獻的轉換工作,可能會更恰當、更現實。為此,筆者提出了優(yōu)先數字化的文獻類型設想。
    2.2 優(yōu)先數字化的文獻類型
  鑒于以上分析,筆者建議以下類型文獻可以優(yōu)先考慮數字化:
  2.2.1 直接轉換為圖像文獻就可以滿足用戶存取需求的對象,可優(yōu)先數字化。
  傳統文獻可以以多種方式轉換為數字圖像文獻,例如,直接掃描、拍攝文獻原件,或掃描其縮微拷貝等。其轉換技術簡單,轉換成本相對較低,因而國際上目前的數字資源中,圖像數據庫與全文數據庫的比例大約是9∶1(注:許綏文.漫筆之三:館藏資源的數字化.北京圖書館館刊,1998(2))。只要給每一圖像文件賦一個文件名,并與對應的索引工具相鏈接,通過查找索引條目就可以直接得到該圖像文件。因而,凡不必制作文本文件就可以滿足用戶需求的文獻對象,均可以考慮優(yōu)先數字化。這種類型文獻主要有:圖形或圖像文獻,書法篆刻,版畫,名人手跡,印章,簡、帛、金石銘文,拓片,甲骨文等。
 。1)圖形圖像文獻
  圖形圖像文件是基本不以或完全不以文字記錄信息,而是以圖像或圖形等形象化語言揭示人、物與事等的非文字文獻。比起文字文獻來,圖形圖像更鮮明、更直觀、更生動。這類文獻對象如圖錄、圖片與版畫等。
  圖錄主要是用圖形、圖像或附以簡要文字,反映各種事物、文物、人物、藝術、自然博物及科技工藝等形象的文獻。圖錄包括地圖和歷史圖譜、文物圖錄、人物圖錄、藝術圖錄、科技圖譜等。圖錄有的編集各種歷史圖片資料,匯編各種繪圖資料,或是摹繪、攝制和編集各種文物、人物、自然博物及科技工藝資料等,對于歷史研究、文藝工作、工藝制作及科學技術研究都有重要的參考價值。
  與圖錄文獻不同,圖片文獻(包括照片與插圖等),它們大多并未匯編為一集,而分散在不同文獻之中。特別是照片,隨保存時間延長,畫面逐漸發(fā)黃,顏色消退,質地變脆;許多圖片文獻由于年代久遠、存放分散而鮮為人知,使許多有史料價值的圖片,湮沒在浩瀚書海中。因而,無論從保存、利用還是管理的角度考慮,這類文獻都需要優(yōu)先數字化。
  法國十分重視圖形圖像文獻的數字化工作,早在上個世紀末,法國圖書館與各城市精品藏書館合作,將原本分散于法國各地的古書的藝術插頁用彩色高分辨率掃描入CD-R光盤中,送至國家圖書館新館匯集后上網,讓全世界與法國共享法國文化藝術精品,博得很高聲譽(注:許綏文.漫筆之三:館藏資源的數字化.北京圖書館館刊,1998(2))。
  (2)文字形體具有特殊價值的文字文獻
  有些文字文獻,除文字表述的內容有價值外,其文字形體特征也具有重要的研究價值或欣賞價值,如果將其以全文本形式數字化,不僅費用太高而且將丟失字型本身所含有的重要價值。這類文獻更宜于數字化為數字圖像。因而,這類文獻宜于優(yōu)先數字化,例如金文、甲骨文或其他圖形文字,簡、帛、金石銘文,拓片,書法篆刻,名人手跡,印譜等。
  2.2.2 OCR識別率高的文字文獻
  只要調制好掃描輸入的技術指標,OCR的識別率可達90%以上的文字文獻可考慮優(yōu)先數字化為全文本文獻,利用檢索系統提供多途徑檢索。這一選擇原則主要是基于數字化的成本與技術的可行性考慮的。一般說來,學術期刊、報紙文獻以及現代書刊比較其他古籍文獻來講,OCR識別率較高。
【參考文獻】
  1 陳天倫.縮微工作十年.圖書館研究與工作,1997(1)
  2 李健.我國圖書館的縮微工作.中國圖書館學報,1997(3)
  3 任永芳.中文OCR與圖書資料的再制作.江蘇圖書館學報,2001(3)
  4 凌山.OCR漢字識別技術.工程設計、CAD與智能建筑,1999(6)
  5 National  Library  of  Australia  Digitization  Policy.2000~2004,http:www.nla.zov.ou/plicv.html(訪問時間2002/6/6)
  6 張偉云.大陸縮微技術應用與研究現狀概述.中國圖書館學報,1997(2)


【館藏文獻優(yōu)先數字化的策略思考】相關文章:

地方文獻資源數字化思考08-09

積極開發(fā)館藏地方文獻08-09

關于建立三峽庫區(qū)特色文獻資源館藏的思考08-09

數字化館藏資源的多層次揭示08-05

文獻資源數字化與數字化資源開發(fā)08-09

加大文獻采訪力度 培育館藏地方特色08-09

館藏民族圖書二次文獻的編制08-09

民族地區(qū)圖書館館藏地方文獻結構分析08-09

淺談海南地方文獻數字化建設08-09