- 相關(guān)推薦
用PDF文檔制作特色文獻全文數(shù)據(jù)庫的實踐
摘要:文章系統(tǒng)分析了PDF文檔的特點,根據(jù)開發(fā)"粵北地方文獻全文數(shù)據(jù)庫"的方法和實踐,指出圖書館制作特色文獻數(shù)據(jù)庫應(yīng)首選PDF文檔。
中圖分類號:250.74
文獻標識碼:B
文章編號:1006-1525(2004)01-0046-03
國家數(shù)字圖書館是依托互連網(wǎng)連接起來的全國各地圖書館電子信息數(shù)據(jù)庫群,其信息基礎(chǔ)由國家圖書館藏文獻信息、網(wǎng)絡(luò)信息、各地圖書館藏特色文獻信息構(gòu)成。全國各地的地方特色文獻是國家數(shù)字圖書館中具有重要意義的信息,地方圖書館盡快設(shè)法將這些信息數(shù)字化是國家數(shù)字圖書館工程的重要基礎(chǔ)。下面是我館以PDF文檔格式制作"粵北地方文獻數(shù)據(jù)庫"的一點認識和經(jīng)驗。
1什么是PDF
PDF是Adobe公司開發(fā)的一種電子文檔格式PortableDocumentFormat的簡稱,這是一種可移植的結(jié)構(gòu)化通用文檔格式,它可以將任何文字、表格、顏色、圖形圖像、超文本鏈接、聲音、動態(tài)圖像等信息封裝在一個電子文檔中,而不管創(chuàng)建該文檔所使用的應(yīng)用程序和平臺。AdobePDF是出版業(yè)新興的工作流程標準。
PDF文檔是通過一系列對象序列來構(gòu)造的,PDF對象包括直接對象(DirectObject)和間接對象(IndirectObject)。直接對象通常有布爾型(Boolean)、數(shù)值型(Number)、字符串型(String)、名字型(Name)、數(shù)組型(Array)、字典型(Dictionary)、空對象(Null)、流對象(Stream)等基本類型,間接對象是經(jīng)過標識了的PDF對象。一個PDF文檔包含了一個或多個頁面,而每一頁都可以包含文檔、圖形和圖像。一個典型的PDF文件包含文件頭、文件主體、交叉引用表和文件尾4個部分。文件頭(Header)位于PDF文檔的第一行,它表明當前文件使用PDF規(guī)范的版本;文件體(Body)中包括構(gòu)成文件間接對象的一個序列,這些對象代表文檔中的各個組件,例如字體、頁數(shù)和圖像等,交叉引用表(Cross-referenceTable)則是為了能對間接對象進行隨機存取而設(shè)立的一個間接對象地址索引表,它給出了所有當前文件使用對象的入口地址,即字節(jié)偏移量,以便系統(tǒng)隨機訪問不同的對象;文件尾(Trailer)中包含了交叉引用表的起始地址和其中的對象總數(shù)、文檔中Catalog(目錄)對象的對象號以及加密等安全信息,根據(jù)文件尾提供的信息,PDF的應(yīng)用程序可以找到交叉引用表和整個PDF文件的目錄對象,從而控制整個PDF文檔。
2PDF的特點
目前國內(nèi)文獻數(shù)字技術(shù)飛速發(fā)展,已有多家文獻數(shù)字化處理系統(tǒng),據(jù)筆者所知,DIPS數(shù)字文獻處理系統(tǒng)、TRS系統(tǒng)等都是性能出色的系統(tǒng),而價廉物美的AdobeAcrobatReader制作利用PDF文檔確實是最好選擇。用PDF制作電子文獻只需安裝:(1)中文操作系統(tǒng);(2)任何字處理軟件,排版軟件,圖形軟件;(3)中文4.0版本以上的AdobeAcrobat。ActivePDF公司還發(fā)布了以ActivePDFServer為中心PDF工具包。ActivePDFServer是一個服務(wù)器軟件,可以讀取幾乎所有Windows應(yīng)用文檔,并把它們轉(zhuǎn)換成PDF格式。該服務(wù)器軟件有標準版和專業(yè)版兩個版本,專業(yè)版支持PDF加密解密。軟件包的其他工具還有DocConverter(能將280多種文檔轉(zhuǎn)換成PDF)、Web Grabber(能將HTML轉(zhuǎn)換成PDF)、Spooler(打印服務(wù)器的PDF文檔)等。
PDF是從頁面描述語言PS(PostScript)發(fā)展而來,具有與PS幾乎相同的頁面描述能力和相似的描述方法。但與PS不同的是,PDF除了能描述復(fù)雜版面外,還具有交互功能(如超鏈接、交互表單等)、頁面隨機存取及圖形字體仿真描述等特性。因此,PDF不僅適合印刷出版,而且也適合電子出版,是全世界電子版文檔分發(fā)的公開實用標準。
PDF與在電子出版中占統(tǒng)治地位的HTML語言相比也有自己明顯的優(yōu)勢,實現(xiàn)了紙張印刷和電子出版的統(tǒng)一。排版后的內(nèi)容生成PDF文件,則能在交付印刷的同時,進行網(wǎng)絡(luò)數(shù)字化發(fā)行。此外,PDF還有下列優(yōu)點:
(1) 容易制作和利用---大眾化
制作PDF格式的多媒體電子圖書目前主要有三種途徑:第一是應(yīng)用專門的PDF制作工具軟件進行制作;第二是將包含有Postscript頁面描述語言的文件轉(zhuǎn)換成PDF文檔;第三是利用轉(zhuǎn)換工具把其他格式文件(如DOC、HTML等)轉(zhuǎn)換成PDF文檔。
(2)跨平臺應(yīng)用---通用性
集約的PDF文件比原來的源文件小很多,以致在Web上下載文件的同時可以快速地顯示頁面。PDF獨立于軟件、硬件和創(chuàng)建的操作系統(tǒng)平臺,任何人都可以使用免費的AdobeAcrobatReader在任何電腦、任何系統(tǒng)平臺上共享、查看、瀏覽和打印,并具有強大的全文檢索功能。
(3)高效的瀏覽和打印---所見即所得
壓縮的AdobePDF文件比源文件小,每次下載一頁,可以在網(wǎng)頁上快速顯示,而且不會降低網(wǎng)絡(luò)速度。創(chuàng)建PDF者可以加入書簽,Web鏈接來使PDF文件容易瀏覽,讀者可以直接使用電子化的便箋、高亮度顯示、下劃線等來對PDF文件進行標注。不管你的顯示器是何種類型,PDF文件精確的顏色匹配保證忠實再現(xiàn)原文。讀者可以放大或縮小一個文件以適應(yīng)屏幕和自己的視覺,PDF文件可以放大到800%而絲毫不損失清晰。由于PDF文件是以PostScript語言圖像模型為基礎(chǔ),它將忠實地再現(xiàn)原稿的每一個字符、顏色以及圖像,正適合特色文獻載體種類繁多、形式各異的數(shù)字化要求。PDF文檔無論在哪種打印機上都可保證圖形精確、顏色準確的打印效果。
(4)高安全加密特性---版權(quán)保護
使用Acrobat5.0軟件,可以輕松添加書簽,設(shè)置安全選項以及生成微型AdobePDF預(yù)覽視圖,Acrobat5.0還可以在網(wǎng)頁瀏覽器內(nèi)使用"數(shù)字簽名",從而對AdobePDF文檔加上評語或?qū)ζ溆枰詼屎。對PD?加密"可以控制敏感信息的可訪問性,能夠控制機密文件的訪問權(quán)限,防止PDF被改動或打印。"數(shù)字簽名"更可對審閱過程的每一步進行控制。由于PDF文檔具有的種種優(yōu)點,使它成為出版界的新寵,目前網(wǎng)上的電子出版物大多采用PDF文檔格式發(fā)行。利用PDF格式制作特色文獻全文數(shù)據(jù)庫可以保留發(fā)表出版時的原版原式,圖文并茂,既可以直接打印,也可以下載保存。
3用PDF文檔制作特色文獻全文數(shù)據(jù)庫
鑒于PDF的上述優(yōu)點,我館在建設(shè)"學(xué)院科研成果管理系統(tǒng)"和"粵北地方文獻全數(shù)據(jù)庫"時就選用PDF文檔格式,建設(shè)和運行的效果良好。
3.1PDF文檔制作
安裝了Acrobat之后,在Windows控制面板中的"打印機"中會出現(xiàn)兩種Acrobat的虛擬打印方式---AcrobatDistiller以及AcrobatPDFWriter,通過我們的反復(fù)測試,建議使用PDFWriter來打印中文電子文檔,原因有二:第一,打印出的PDF文檔體積小;第二,比Distiller可以更快速地制作。
特色文獻通常表現(xiàn)為論文、專著、實驗數(shù)據(jù)、統(tǒng)計表格、繪畫圖片、音像制品,多表現(xiàn)為文本文件、HTML文件、DOC文件、JPG或RTF文件等等,這些文檔都可以轉(zhuǎn)換成PDF格式文檔。根據(jù)我們的實踐,建議能轉(zhuǎn)換成DOC文件的盡量使用MSWord來制作PDF文檔。需要注意的是,使用Word排版,正文文字選擇"黑體,五號"或者"宋體加粗,五號"為最佳打印字體,標題及其他文字大小、顏色可以自定義,但是字體最好也要選擇上述兩種字體。圖片建議選擇JPG或者GIF圖像,不推薦使用BMP圖像。Word文檔的頁面大小最好為16開、32開或者B5,因為對于A4這樣的大小,一行上的文字會容納很多,這樣不利于讀者閱讀。
如上所述,AcrobatPDFwriter可將任何格式的文檔轉(zhuǎn)換成PDF文檔,它是一個模擬的"打印"驅(qū)動程序,即在客戶應(yīng)用程序中調(diào)用打印命令,以"打印"文件的方式創(chuàng)建PDF格式的文檔。PDFwriter的使用方法是:首先安裝該軟件,安裝完成后在Windows打印機設(shè)置的列標上將增加PDFwriter;然后啟動應(yīng)用程序并打開用于轉(zhuǎn)換的文件,在菜單或工具欄中選擇"打印";在打印機名稱菜單上選擇PDFwriter;接著選擇目標目錄并為PDF文檔取名;在填寫完相應(yīng)的信息后,PDFwriter?qū)詣由桑校模莆臋n。AcrobatDistiller是一個可以用來制作和編輯PDF格式文件的高端PDF文檔生成器,利用它可以將Postscript文件轉(zhuǎn)換成PDF文檔。AcrobatPDFmaker則是一個系列工具,例如AcrobatPDFmakerForWord97可在Word97中直接將編輯好的DOC文件轉(zhuǎn)換成PDF文檔,轉(zhuǎn)換過程中PDFmaker會將Word文件中的一些信息和結(jié)構(gòu)相應(yīng)地轉(zhuǎn)換成PDF文檔中的信息和結(jié)構(gòu),比如將Word中的頭部轉(zhuǎn)換成PDF書簽,將Word中的URL轉(zhuǎn)換成PDF的網(wǎng)頁鏈接等等。對于掃描輸出或其他圖片格式則可通過Adobe公司推出的Photoshop6.0保存為JPG或者GIF圖像后轉(zhuǎn)換成PDF文檔,以確保文檔最小化。
單擊"打印"按鈕開始打印,PDFWriter進行簡單的文字預(yù)處理以后會要求選擇輸出PDF文件的保存路徑,之后等著PDFWriter打印文檔就行了。這里要注意保存路徑選項,我們的經(jīng)驗是建立專項目錄樹。
3.2PDF文檔組織管理
對制作好的PDF文檔腳本,必須進行一些必要的處理,包括超級鏈接、書簽、注釋、文檔初始化、電子信息加密等屬性設(shè)置,提取目錄索引標識。然后對眾多的PDF文檔分類組織。運行Acrobat,打開PDF文檔腳本。
首先是加入超級鏈接,對需要加入超鏈接的文字設(shè)置超鏈接的外觀、位置和讀者點擊超鏈接時的顯示方式、效果和將發(fā)生的事件;其次是加入書簽,書簽的作用旨在快速的定位文章中特定的部分,某種情況下可以起到目錄作用,因為Acrobat支持書簽的拖拽操作,即您可以將一個書簽"拖動"到另一書簽上,建立書簽的邏輯關(guān)系;第三是加入注釋,注釋的作用很多,最主要是對文檔或者文檔的某個部分的說明;第四是對文檔初始化屬性的設(shè)置,選擇"BookmarksandPage"單選項,其他選項使用默認值;第五是文檔加密設(shè)置,如果希望用戶需要密碼才能閱讀,請選擇"PasswordRequiredtoOpenDocument",輸入用戶打開文檔時需要的密碼。建議選擇"PasswordRequiredtoChangePermissionsandPasswords"選項,即只有制作者才可以修改文檔信息及文檔安全性密碼。雖然現(xiàn)在有很多軟件是用來破解PDF文檔密碼的,但是想輕易地破解也并非易事。在EncryptionLevel(加密級別)中可以選擇使用的加密級別:包括40-bit和128-bit兩種方式,其中128-bit只能針對5.0版本,所以建議選擇40-bit即可,以確保文檔的向下兼容。應(yīng)選擇"NoChangingtheDocument",即不允許用戶修改文檔中的任何部分。如果需要禁止用戶打印和復(fù)制文檔中的文字和圖片可以選"NoPrinting"、"NoContentCopyingorExtraction,DisableAccessibility"選項。最后要做的是保存所做的修改。
如果想對PDF文檔內(nèi)容進行編輯和修改,可使用AdobeExchange,利用它可以在文檔中添加超文本鏈接、書簽、小書頁圖標、表格等,也可以在文檔中插入、刪除、復(fù)制或者移動一個或多個頁面。
3.3PDF文檔的閱讀與管理
PDF支持任意字符檢索,與TRS、TBS檢索系統(tǒng)配套更是完美的數(shù)字化文獻集合。AcrobatReader是我們閱讀PDF格式文檔的較好選擇,這是一個免費軟件,可直接從網(wǎng)上下載。AcrobatReader既可以獨立運行,也可以作為瀏覽器的插件(plug-in)對PDF文檔進行在線閱讀。如果計算機中已經(jīng)安裝了Netscape瀏覽器,則在安裝AcrobatReader時安裝程序會自動將其作為插件插到Netscape中;如果使用IE瀏覽器,則要在程序安裝完成后,將目錄"\Adobe\AcrobatX.0\Reader\browser"中的nppdf32.dll文件拷貝到IE的插件目錄"\InternetExplorer\Plugins\"中,并重新啟動計算機,這樣就可以在瀏覽器中像瀏覽HTML網(wǎng)頁一樣方便地瀏覽PDF文檔了。
AcrobatReader為用戶提供了多種形式的瀏覽窗口,有"單頁面"、"頁面 書簽?zāi)夸?和"頁面 書頁圖標"等顯示方式,既可以全屏瀏覽,也可以單頁瀏覽。它還提供了翻頁功能,可利用菜單、滾動條,右鍵菜單、方向鍵等進行翻頁,可選擇首尾、前后及指定頁號翻頁。AcrobatReader的頁面多級縮放功能可以按12.5%到1600%的比率進行縮放,使用戶選擇合適的比例閱覽。此外,它還提供了復(fù)制的功能,點擊工具欄中含"T"字樣的"TextSelectTool"按鈕,通過拖拉鼠標選定要復(fù)制的文本范圍,點擊復(fù)制后就可以粘貼到需要的地方了。要注意的是,如果在制作PDF文檔時設(shè)定了"不允許選擇文本和圖形"的安全保護,則不可能復(fù)制,這對需要保護的文檔非常有用。
3.4知識產(chǎn)權(quán)問題
由于PDF文檔易于傳輸,且在獲得了免費閱讀軟件后可進行隨意瀏覽,給PDF格式電子文獻的知識產(chǎn)權(quán)保護帶來了極大的挑戰(zhàn)。針對這一問題,Adobe公司推出了面向出版商和發(fā)行商的安全出版系統(tǒng)。該系統(tǒng)包括AdobePDFMerchant和AcrobatReader的WebBuy插件兩部分。其中PDFMerchant是作為服務(wù)器端的程序,WebBuy插件是客戶端程序,通過兩者配合使用來確保網(wǎng)上出版物免遭盜版。PDFMerchant的功能是為準備傳送的PDF文檔加"鎖",當讀者試圖利用AcrobatReader閱讀上了"鎖"的文件時,會提示無權(quán)閱讀該文件內(nèi)容的信息,并詢問你是否愿意購買文件內(nèi)容,在點擊購買之后,PDFMerchant就會直接將用戶帶到出版商或發(fā)行商的站點上,在完成購買后,網(wǎng)站就會配合AcrobatReader?qū)⑽募䞍?nèi)容和閱讀許可發(fā)送到讀者用戶的計算機上。當然,這個系統(tǒng)只是針對出版商和發(fā)行商的。如何保護自己制作的全文數(shù)據(jù)庫的權(quán)益,堵住盜版的漏洞,目前還沒有現(xiàn)成的解決方案,但是至少我們可以為PDF格式的電子文檔加"鎖",當網(wǎng)絡(luò)用戶將其下載并進行閱讀時,要求用戶輸入相關(guān)使用權(quán)信息(如身份證、閱覽證等號碼),并要求信用承諾不將此書用作商業(yè)用途,然后才將內(nèi)容顯示出來,具有一定的保護作用。
目前,數(shù)字圖書館建設(shè)如日中天,圖書館可以將從網(wǎng)絡(luò)上下載或者購買的電子文獻、館藏的諸如"學(xué)?蒲谐晒"、地方文獻等特色文獻,對其進行著錄和標引之后組織成電子書庫提供給讀者。PDF文檔格式作為全世界電子版文檔分發(fā)的公開實用標準,是建設(shè)特色文獻數(shù)據(jù)庫,為用戶提供內(nèi)容豐富、圖文并茂的電子文獻之首選。
參考文獻:
[1] 什么是PDF〔EB/oL〕.http://www.chinapdf.com/begin.htm
[2] [2]李慧.PDF文檔與多媒體電子圖書[J].晉圖學(xué)刊,2001,(1).
[3] [3]深藍色系統(tǒng).PDF電子書簡要制作方法〔EB/oL〕.http://lib.haiyang.net.cn/ebook/multi/bl.HTM
[4] [4]肖明.PDF文檔的閱讀與生成工具[J].電子與電腦,2000,(1).
[5] [5]官建生.地方文獻數(shù)字化:中國數(shù)字圖書館工程信息基礎(chǔ)[J].大學(xué)圖書情報學(xué)刊.2002,(2).
〔出處〕 大學(xué)圖書情報學(xué)刊2004年3月第22卷第1期
【用PDF文檔制作特色文獻全文數(shù)據(jù)庫的實踐】相關(guān)文章:
基于PDF文檔的網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)08-06
基于PDF文檔的網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)08-06
基于PDF文檔的網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)08-06
區(qū)域文獻特色數(shù)據(jù)庫的建立及其服務(wù)平臺的搭建08-09
淺談區(qū)縣圖書館地方文獻特色數(shù)據(jù)庫的共建策略08-09
高校圖書館建設(shè)地方特色文獻數(shù)據(jù)庫的再思考08-09