《四庫(kù)全書》電子版問(wèn)世的啟迪
朱巖教授 1999/4/19
99年春,《文淵閣四庫(kù)全書》電子版(原文與標(biāo)題檢索版)問(wèn)世,並裝載在國(guó)家圖書館的網(wǎng)上向讀者提供服務(wù)。原文與全文檢索版年內(nèi)也將完成。這不僅是我國(guó)出版界由傳統(tǒng)印刷出版向現(xiàn)代化電子出版方式轉(zhuǎn)變的一件大事,而且是我國(guó)傳統(tǒng)文化信息資源實(shí)現(xiàn)數(shù)字化參與世界範(fàn)圍共享取得突破性 進(jìn)展的重要標(biāo)誌。
電子版不是紙張版翻印
電子版《四庫(kù)全書》以當(dāng)代最先進(jìn)的信息技術(shù),在保持原書真跡的基礎(chǔ)上,將書中一切具有檢索意義的書名、作者、類目、標(biāo)題乃至全文中的字、詞、語(yǔ)全部數(shù)字化,同時(shí)還掛接了擴(kuò)充的《中華古漢語(yǔ)詞典》、《四庫(kù)大辭典》、《四庫(kù)全書簡(jiǎn)明目錄》等電子工具書,從而給讀者提供了手工查閱難以比擬或從未有過(guò)的快捷有效的檢索、統(tǒng)計(jì)、整理和編輯功能,有利於讀者開展更廣泛更深入的研究。
一部《四庫(kù)全書》原書大約需要五百平方米以上的存放空間,影印本也需要百平米空間,而電子版只需手提箱大小的機(jī)箱(百G硬盤)就可存儲(chǔ)。過(guò)去,一部書在一個(gè)時(shí)間裡只能供一個(gè)讀者閱讀,現(xiàn)在電子版《四庫(kù)》通過(guò)網(wǎng)絡(luò)可供多個(gè)讀者同時(shí)看一部書。電子版實(shí)現(xiàn)了書名、著者、類目和全文中的字、詞、語(yǔ)等多途徑檢索。讀者可以進(jìn)行單項(xiàng)檢索,也可以多項(xiàng)信息組配檢索。檢索時(shí),可以輸入檢索的全部信息也可以輸入其中部分信息,即“任意一致”檢索。如果讀者對(duì)輸入漢字的一些方法不熟悉,可以選用電腦提示的拼音、或筆畫、或部首三種不用學(xué)習(xí)就可以掌握的簡(jiǎn)單方法即可確定檢索文字。查詢效率又是過(guò)去無(wú)法比擬的。一般情況下,一次檢索均可在五秒鐘以內(nèi)獲得結(jié)果。閱讀時(shí),可隨意在電腦上作閱讀筆記,可摘錄檢索到的有關(guān)內(nèi)容,或編排下載、打印。多種電子工具書又與《四庫(kù)》掛接,給讀者帶來(lái)更多方便。例如,你對(duì)某些字義不明,可以點(diǎn)擊古漢語(yǔ)字典,對(duì)某個(gè)作者或某部作品不熟悉,可點(diǎn)擊《四庫(kù)大辭典》,或《四庫(kù)簡(jiǎn)明目錄》,有關(guān)的解釋說(shuō)明會(huì)立即顯示其旁。還可從解釋說(shuō)明中的書名、作者再去查檢《四庫(kù)》。
過(guò)去,人們查閱圖書,一般是先通過(guò)目錄找書,查到後再查書中目次,據(jù)目次直接順序的翻閱。而電子版《四庫(kù)》,讀者不僅可以在瞬間查到所要圖書,而且可以直接深入文獻(xiàn)中查到局部。不只如此,還可以把與一個(gè)或與多個(gè)主題相關(guān)的專著、專著中與主題相關(guān)的篇章、段落查到?,F(xiàn)代檢索技術(shù),不僅能在一部文獻(xiàn)的縱深方向搜尋,也可以在多部文獻(xiàn)之間橫向搜尋,並進(jìn)行精確的統(tǒng)計(jì)、整理。這種能力極大地啟發(fā)和擴(kuò)展了學(xué)者研究的廣度與深度,並加快學(xué)者們多出成果。
下表顯示的事例是利用大家熟悉的詞語(yǔ)在《四庫(kù)全書》全文版經(jīng)部查檢的結(jié)果,這些精確的結(jié)果都是在瞬間完成的,是過(guò)去手工查詢辦不到的。
檢索事例(經(jīng)部全文檢索)
檢索詞語(yǔ) 檢索命中處數(shù)
法 治 322
法 制 598
生 態(tài) 0
彈 劾 6
經(jīng) 濟(jì) 137
革 命 561
炎 黃 12
書 同 文 55
車 同 軌 54
李白與杜甫(一卷內(nèi)文中涉及二者) 6
荊軻與高漸離(一卷內(nèi)文中涉及二者) 9
風(fēng)馬牛不相及 32
魚和熊掌不可兼得 91
綜上所述,《四庫(kù)全書》電子版不是紙張版本簡(jiǎn)單的翻版,而是具有豐富研究功能與工具的中華傳統(tǒng)文化信息寶庫(kù)。
有利於對(duì)中華文化的認(rèn)知與研究《四庫(kù)全書》是迄今為止人類歷史上規(guī)模最大的一部百科全書,它對(duì)我國(guó)古代文化主體的儒家學(xué)說(shuō)以及歷史、人文、科技、眾多學(xué)科的歷代典籍進(jìn)行了成功地整理與總結(jié),它是具有重大歷史價(jià)值的中華傳統(tǒng)文化寶庫(kù)。
《四庫(kù)全書》電子版的出版、發(fā)行,使《四庫(kù)》從過(guò)去廣大讀者難以利用的“鎮(zhèn)館之寶”走向百姓的“案頭”,使我國(guó)成系列、大規(guī)模、具有代表性的文獻(xiàn)資源數(shù)字化,並可進(jìn)入因特網(wǎng),參與全球信息資源共享。這不僅有利於更多的國(guó)內(nèi)外研究中國(guó)的學(xué)者、專家開展更深入、系統(tǒng)、有效的研究,也有利於更多的人利用現(xiàn)代化手段學(xué)習(xí)中國(guó)古籍,瞭解中國(guó)傳統(tǒng)文化。
《四庫(kù)全書》成書以來(lái),學(xué)術(shù)界對(duì)清廷的編纂,對(duì)《四庫(kù)》本身,一直有不同的評(píng)價(jià)與爭(zhēng)議,有人稱之為“四庫(kù)學(xué)”。 《四庫(kù)》電子版問(wèn)世,由於可以使更多的人接觸到此書,因而可以使更多的學(xué)者參與研究。而這種研究可以借助電子版進(jìn)行準(zhǔn)確、充分的定量統(tǒng)計(jì)與分析,因而才有可能獲得切合實(shí)際的定性結(jié)論。像清廷在纂修《四庫(kù)》時(shí)對(duì)一些典籍的刪、改、取、捨,以及由此體現(xiàn)的清人文化史觀,讀者利用電子版則可能得到準(zhǔn)確的統(tǒng)計(jì)數(shù)據(jù),予以恰當(dāng)?shù)脑u(píng)價(jià)。
學(xué)者研究的課題也絕不僅限於《四庫(kù)》本身,電子版可以幫助學(xué)者開闢更多更廣的專題開展研究。
中文信息處理技術(shù)的重要突破
《文淵閣四庫(kù)全書》電子版成功出版,標(biāo)誌著中文信息處理技術(shù)實(shí)用化有了重大突破。該電子版是科技含量極高的產(chǎn)品。如:國(guó)際標(biāo)準(zhǔn)大字符集(ISRO/IEC 10646 UCS,亦稱UNICODE,含三萬(wàn)多個(gè)中、日、韓古今漢字)文字平臺(tái)的投入使用,基於超大數(shù)量和種類繁多的多特定人手寫文字光學(xué)識(shí)別、編碼轉(zhuǎn)換、聯(lián)機(jī)無(wú)紙快速準(zhǔn)確的校對(duì)軟件技術(shù)等,均屬於首創(chuàng)??缙脚_(tái)與跨語(yǔ)境(Single Data/ Single Binary)全球版產(chǎn)品製作技術(shù),多途徑模糊與精確以及布爾邏輯組配的全文檢索技術(shù),全文與多種字、詞典工具書掛接以及多種文字關(guān)聯(lián)查詢的規(guī)範(fàn)控制等一系列高新技術(shù),正是該電子版的研究開發(fā)使其完善與實(shí)用,同時(shí)還帶出一批新的研究課題。這些突破意味著不只我國(guó)近代文獻(xiàn)可以實(shí)施計(jì)算機(jī)處理,我國(guó)古代文獻(xiàn)也可以實(shí)施計(jì)算機(jī)處理了,這必將加快我國(guó)中文信息數(shù)字化的進(jìn)程。
推動(dòng)我國(guó)電子圖書館建立與發(fā)展
《四庫(kù)全書》電子版研製成功,將推動(dòng)我國(guó)電子出版物的出版,加速我國(guó)電子圖書館的建立與發(fā)展。
在我國(guó),電子圖書館的建設(shè)與發(fā)展日益引起重視。這件事涉及兩個(gè)方面:一方面是電子圖書館所需的網(wǎng)絡(luò)通信環(huán)境、計(jì)算機(jī)軟硬件手段的發(fā)展與配備。另一方面也是最重要的一個(gè)方面,即信息資源的數(shù)字化,而這也是最費(fèi)時(shí)費(fèi)力的?!端膸?kù)全書》電子版的問(wèn)世恰恰帶來(lái)了一個(gè)好的開頭。因?yàn)樗鼘?shí)現(xiàn)的信息量最大,所處理的文字包括圖形種類多而且複雜,它的OCR技術(shù)具有代表性而且解決問(wèn)題的難度大、水平高,這些技術(shù)難關(guān)的攻破為更多的單位開發(fā)信息資源掃清了障礙。
我以為,更可貴的是《四庫(kù)》電子版研製運(yùn)作過(guò)程積累的經(jīng)驗(yàn):
信息資源擁有者、與資金擁有者、與高新技術(shù)擁有者三者相結(jié)合,走合作之路加快我國(guó)信息資源數(shù)字化開發(fā)。這一經(jīng)驗(yàn)十分重要。因較長(zhǎng)時(shí)間以來(lái),常有一些人總想甚麼都自己幹,甚麼都自己得到,結(jié)果由於資金或技術(shù)不具備,遲遲幹不出來(lái)。事實(shí)說(shuō)明,手工作坊式的思維與方式是建設(shè)不了中國(guó)的數(shù)字圖書館的,走社會(huì)化合作之路,走資源與收益共享之路,這才是成功之路。
朱巖教授簡(jiǎn)歷:
中國(guó)圖書館學(xué)會(huì)學(xué)術(shù)委員,曾長(zhǎng)期任職於中國(guó)國(guó)家圖書館(前北京圖書館)。
在任期間,曾主持國(guó)家館的採(cǎi)、編、檢等綜合管理系統(tǒng)的開發(fā)及ISDS系統(tǒng)、漢字屬性系統(tǒng)的研發(fā)。並主編CN MARC格式和漢字屬性字典,參與ISO/IEC 10646(Unicode)CJK部分的研究及製定。屢獲國(guó)家級(jí)、部級(jí)科技進(jìn)步獎(jiǎng)。
自1998年11月起,於北京書同文電腦技術(shù)開發(fā)有限公司任職,參與電子出版物的開發(fā)等工作。