天宇數(shù)字圖書館實現(xiàn)館藏文獻存儲的數(shù)字化、知識服務(wù)的智能化、館際資源共享的最大化,在全國圖書館有近百家成功應(yīng)用案例。
一、概述
數(shù)字圖書館是以數(shù)據(jù)庫技術(shù)、全文檢索技術(shù)等為支撐,以建設(shè)圖書館資源數(shù)字化加工、信息智能采集與整合、信息內(nèi)容管理、信息發(fā)布與全文檢索、個性化信息服務(wù)等應(yīng)用系統(tǒng)為應(yīng)用目的,構(gòu)建數(shù)字圖書館信息采集、信息管理與信息服務(wù)平臺,實現(xiàn)館藏文獻存儲的數(shù)字化、知識服務(wù)的智能化、館際資源共享的最大化。
浙江天宇信息技術(shù)有限公司憑借多年數(shù)字圖書館建設(shè)經(jīng)驗,及近百家成功應(yīng)用案例,結(jié)合圖書館的實際業(yè)務(wù)需求,推出以下數(shù)字圖書館應(yīng)用解決方案。
二、總體結(jié)構(gòu)
系統(tǒng)體系構(gòu)架
系統(tǒng)功能結(jié)構(gòu)
數(shù)字圖書館解決方案主要是以CGRS全文據(jù)庫為應(yīng)用支撐平臺,圍繞圖書館各種信息資源的采集和數(shù)字化加工整理、信息的存儲和管理、信息的發(fā)布和服務(wù)、信息利用與挖掘等,跨越信息的生命周期,構(gòu)建數(shù)字圖書館數(shù)字資源加工、采集與整合平臺,內(nèi)容管理平臺,信息發(fā)布檢索服務(wù)平臺。
三、系統(tǒng)功能
數(shù)字資源加工、采集與整合
◆ 紙本文獻數(shù)字化加工:
紙本文獻數(shù)字化加工是數(shù)字圖書館資源制作與獲取的重要手段。數(shù)字資源加工與管理系統(tǒng)融合了高速掃描、OCR識別和全文檢索三項技術(shù),可以將數(shù)以萬計的特色紙本館藏文獻快速、自動地轉(zhuǎn)換成標準的PDF格式,便于讀者瀏覽、交換、存檔和全文檢索。整個系統(tǒng)最終經(jīng)由掃描錄入、圖像處理、版面分析、識別、校對、版面還原、文件自動生成、批量數(shù)據(jù)入庫等工序處理最終完成數(shù)字化加工流程。整個加工工序可以設(shè)置自動處理,人工干預(yù)很少,生成的文件既可以實現(xiàn)全文檢索,又能夠?qū)崿F(xiàn)摘抄。
◆ 文獻編輯與格式轉(zhuǎn)換:
文獻編輯與通用文檔轉(zhuǎn)換系統(tǒng)作為信息編輯與標引的有效工具,可以實現(xiàn)對Office、PDF、HTML、ISO2709等格式的電子文檔進行預(yù)處理、編輯、標引和格式轉(zhuǎn)換等標準化處理。系統(tǒng)支持編輯與標引好的信息資源自動上載、入庫,實現(xiàn)數(shù)據(jù)的直接入庫功能。數(shù)據(jù)入庫自動建立索引,實現(xiàn)數(shù)據(jù)實時發(fā)布;系統(tǒng)支持本地、遠程信息采集、提交上載;具有文件批處理功能,可以實現(xiàn)大批量文件的處理操作。
◆ 互聯(lián)網(wǎng)信息采集:
智能互聯(lián)網(wǎng)信息采集系統(tǒng)(CGSEEK5.3)作為互聯(lián)網(wǎng)信息內(nèi)容快速獲取的工具,支持各種標準格式信息資源的采集,如HTML頁面、文本信息、圖片、聲音、視頻等。對于采集下來的頁面內(nèi)容,系統(tǒng)可以進行內(nèi)容分析、智能提取、過濾、分類,自動加載到后臺全文及多媒體數(shù)據(jù)庫中,豐富圖書館特色數(shù)據(jù)庫信息資源。另外,系統(tǒng)支持OAI等標準協(xié)議,可以通過互聯(lián)網(wǎng)采集系統(tǒng),建立重點學科導(dǎo)航庫,方便嵌入到圖書館門戶網(wǎng)站相關(guān)欄目中。
◆ 學位論文提交:
用戶經(jīng)過系統(tǒng)相應(yīng)的身份驗證后,進入學位論文網(wǎng)上提交系統(tǒng),按照規(guī)定的格式對論文進行著錄,對于論文正文,可以分成一個或多個文件進行提交。提交后,用戶可以在網(wǎng)上進行論文檢索與瀏覽,在系統(tǒng)管理員授權(quán)的情況下,作者也可以進行論文修改等操作。內(nèi)容管理圖書館數(shù)字資源絕大部分是以非結(jié)構(gòu)化形式存儲的,如各類電子文檔、圖片、音頻、視頻、WEB頁面等,稱之為內(nèi)容。我們采用CGRS全文數(shù)據(jù)庫進行有效地管理與利用。
◆ 信息管理:
信息資源管理是以CGRS全文數(shù)據(jù)庫作為后臺管理系統(tǒng),全面整合與管理各種標準的信息資源,如OFFICE、PDF、HTML、TXT、XML、ISO2709等。系統(tǒng)具有與RDBMS接口網(wǎng)關(guān),實現(xiàn)以主流關(guān)系型數(shù)據(jù)庫(Sybase、Oracle,SQLServer和DB2)作為后臺數(shù)據(jù)庫的圖書館自動化業(yè)務(wù)集成系統(tǒng)的無縫連接,實現(xiàn)在兩類數(shù)據(jù)庫中一條記錄的自動同步更新記錄級實現(xiàn)自動關(guān)聯(lián)。系統(tǒng)具有強大數(shù)據(jù)庫管理及維護功能,如數(shù)據(jù)庫定義、建立、備份、恢復(fù)、邏輯刪除、物理刪除、重組、增量備份、記錄查重等功能。
◆ 用戶管理用戶權(quán)限管理:
系統(tǒng)提供獨立于操作系統(tǒng)的用戶權(quán)限管理,用戶操作審計、分析與統(tǒng)計,日志分析與統(tǒng)計等功能。系統(tǒng)允許最多管理30000個用戶,用戶根據(jù)實際需要可以自定義用戶數(shù)。用戶計費管理:系統(tǒng)提供與用戶計費系統(tǒng)接口,用戶可以根據(jù)讀者使用信息資源的情況,制定相關(guān)的計費標準,方便地進行統(tǒng)一的信息檢索與瀏覽計費系統(tǒng)開發(fā)。
信息服務(wù)
◆ WEB信息發(fā)布:
系統(tǒng)支持多欄目、多數(shù)據(jù)庫的信息內(nèi)容統(tǒng)一自動發(fā)布;系統(tǒng)提供基于模板技術(shù),發(fā)布的信息和表現(xiàn)形式分離,所見即所得地發(fā)布信息;信息實時發(fā)布,頁面動態(tài)生成與內(nèi)容自動更新功能;系統(tǒng)實時無延時地發(fā)布各種信息;頁面發(fā)布時自動生成頁面鏈接,無需人工操作。
◆ 全文檢索:
系統(tǒng)提供全方位全文檢索手段,支持多種檢索運算符,支持包括外部特征與正文內(nèi)容的各種邏輯組合檢索、多字段復(fù)合檢索、距離檢索、二次檢索、歷史檢索、相關(guān)詞擴展檢索、分類導(dǎo)航檢索、西文(字符)字段支持前方一致檢索、短語與句子檢索功能等;系統(tǒng)提供基于同義詞典的擴展檢索功能,能夠滿足特殊應(yīng)用領(lǐng)域的高查準率和高查全率的要求,詞典可維護;支持對檢索結(jié)果的各種排序:對檢索結(jié)果可按與檢索表達式的相關(guān)性和重要性程度排序;基于字段的排序;后進先出的快速排序。
◆ 異構(gòu)資源統(tǒng)一檢索:
系統(tǒng)實現(xiàn)將圖書館常用的各種異構(gòu)資源,如人大復(fù)印資料、維普、CNKI、書生電子書、超星電子書、方正電子書、萬方數(shù)據(jù)等,組織成一個有機的整體,在WEB方式下為用戶提供統(tǒng)一的信息檢索服務(wù)。系統(tǒng)允許用戶可同時選擇多個資源,從同一個檢索入口對多個資源提交檢索請求,檢索結(jié)果統(tǒng)一顯示。
系統(tǒng)不僅能統(tǒng)一檢索圖書館常用的國內(nèi)、國外商用數(shù)據(jù)庫外,還提供對外部數(shù)據(jù)資源,如對圖書館新增的數(shù)據(jù)庫、門戶網(wǎng)站、搜索引擎及其他網(wǎng)絡(luò)資源進行統(tǒng)一檢索功能,方便用戶獲得全面的信息資源。
◆ 關(guān)聯(lián)檢索:
系統(tǒng)提供圖、文、聲、像多媒體關(guān)聯(lián)檢索功能,滿足用戶快速獲取相關(guān)資源的需要;系統(tǒng)具備多數(shù)據(jù)庫關(guān)聯(lián)檢索和跨服務(wù)器多數(shù)據(jù)庫關(guān)聯(lián)檢索功能,提供自由關(guān)聯(lián)、外部關(guān)聯(lián)、詞典關(guān)聯(lián)和特征關(guān)聯(lián)四種關(guān)聯(lián)方法。
◆ 全文傳送與信息推送:
用戶自定義專題信息內(nèi)容,系統(tǒng)根據(jù)用戶設(shè)置信息要求,定時在圖書館自建數(shù)據(jù)庫中搜索,把符合用戶要求的全文信息自動推送到用戶指定的郵箱中。目前專題信息訂閱推送服務(wù)可以用于圖書館全文傳送服務(wù),構(gòu)建全文信息傳送系統(tǒng)。
◆ 數(shù)字參考咨詢:
用戶通過系統(tǒng)可以快速建立FAQ數(shù)據(jù)庫,將圖書館常見的問題與解答存放在FAQ數(shù)據(jù)庫中,可以方便讀者的進行查詢與瀏覽;另外,系統(tǒng)提供實時在線虛擬參考咨詢平臺,實現(xiàn)交互式的在線數(shù)字化咨詢服務(wù)。
◆ 系統(tǒng)提供自建數(shù)據(jù)庫打包成光盤專題數(shù)據(jù)庫工具:
該工具能夠把整個數(shù)據(jù)庫制作成光盤數(shù)據(jù)庫,也可以在多個數(shù)據(jù)庫選擇部分內(nèi)容制作成專題數(shù)據(jù)光盤,方便館際之間進行特色館藏資源的交流。
四、安全方案
檢索代理:
通過檢索代理服務(wù)器對數(shù)據(jù)進行訪問,檢索用戶只能訪問到檢索代理服務(wù)器,無法進入數(shù)據(jù)庫服務(wù)器,在數(shù)據(jù)庫服務(wù)其(內(nèi)部網(wǎng))前設(shè)置了一個“堡壘型”防火墻,拒絕黑客進入數(shù)據(jù)庫服務(wù)器和局域網(wǎng),增加數(shù)據(jù)庫安全性。
用戶操作統(tǒng)計與分析:
用戶檢索的記錄保存在數(shù)據(jù)庫中,并提供檢索記錄的查詢、瀏覽、打印、統(tǒng)計與分析等功能。通過統(tǒng)計分析記錄查詢數(shù)據(jù)庫中的內(nèi)容被用戶操作(包括瀏覽)的情況,如用戶每次查詢登錄曰期、時間、登錄IP地址、檢索用時、檢索次數(shù)、下載信息的情況分析、統(tǒng)計等。
獨立于操作系統(tǒng)的用戶管理、身份驗證機制:
提供系統(tǒng)、數(shù)據(jù)庫、記錄及字段級的安全控制手段;用戶使用信息資源的授權(quán)機制、用戶文獻存取數(shù)量控制;用戶IP地址限制;數(shù)據(jù)操作審計和日志功能,控制臺運行日志和故障分析工具。
五、圖書情報部分用戶案例
中國人民大學圖書館 華中師范大學圖書館 浙江師范大學圖書館
成都大學圖書館 四川省委黨校圖書館 杭州市委黨校圖書館
全國婦聯(lián)辦公廳檔案處 溫州發(fā)電責任有限公司檔案處 北京大學圖書館
首都師范大學圖書館 蘇州市圖書館 新疆財經(jīng)學院圖書館
浙江省委黨校圖書館 溫州市委黨校圖書館 浙江省水利河口研究院資料中心
中共中央黨校圖書館 首都醫(yī)科大學圖書館 蘇州大學圖書館
中國社會科學院圖書館 福建省委黨校圖書館 海南省委黨校圖書館
東南大學圖書館 北方工業(yè)大學圖書館 中國人民大學報刊復(fù)印資料中心
江蘇省委黨校圖書館 河南省委黨校圖書館 湖州市委黨校圖書館……
cglibrary_solution.pdf