元數(shù)據(jù)探討 @ Metadata, Digital Library and SW
http://www.metadata.com.cn/dataresearch.htm
元數(shù)據(jù)探討(Metadata Research)
什么是元數(shù)據(jù)?DOC文檔下載
"元數(shù)據(jù)"是從英文單詞"metadata"的中文意譯,也有翻譯為"元資料"(常見(jiàn)于東南亞、臺(tái)灣等地的文獻(xiàn)中)。元數(shù)據(jù)的直譯為關(guān)于數(shù)據(jù)的數(shù)據(jù),一般屬于計(jì)算機(jī)領(lǐng)域中的術(shù)語(yǔ)。我們可以用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明;有一本書《政治經(jīng)濟(jì)學(xué)》,我們對(duì)它的書名、作者、出版社等信息做一個(gè)簡(jiǎn)單的摘要,那么這個(gè)摘要信息就可以稱作元數(shù)據(jù)。同樣的,關(guān)于物質(zhì)世界的和初始事物的簡(jiǎn)單(相對(duì)于源)再描述所得到信息都可以稱作元數(shù)據(jù),這就是元數(shù)據(jù)的一般定義。元數(shù)據(jù)最基本的用途就是管理數(shù)據(jù),從而實(shí)現(xiàn)查詢、閱讀、交換和共享。
圖書館元數(shù)據(jù)簡(jiǎn)介
元數(shù)據(jù)的編寫是有標(biāo)準(zhǔn)的,對(duì)于不同領(lǐng)域一般都會(huì)根據(jù)需求來(lái)定義一個(gè)標(biāo)準(zhǔn)或幾個(gè)標(biāo)準(zhǔn)。標(biāo)準(zhǔn)的設(shè)定是為了實(shí)現(xiàn)領(lǐng)域中的數(shù)據(jù)信息交換和共享,為研究和生產(chǎn)服務(wù)。
元數(shù)據(jù)在不同研究領(lǐng)域中有不同提法,因?yàn)槲覀円匝芯坑?jì)算機(jī)、圖書館和情報(bào)信息領(lǐng)域的應(yīng)用為主,所以我們只給出關(guān)于該領(lǐng)域的名稱;書目數(shù)據(jù)、二次文獻(xiàn)等都是元數(shù)據(jù)。簡(jiǎn)單來(lái)說(shuō),相對(duì)于圖書館的原文、原書、原刊的描述性數(shù)據(jù)(一般為人工編目形成)都是元數(shù)據(jù)。
對(duì)于印刷體的圖書和期刊等已經(jīng)采用歷史悠久的機(jī)讀目錄(MARC)來(lái)編目,國(guó)內(nèi)現(xiàn)在一般采用CNMARC和USMARC兩種標(biāo)準(zhǔn)分別針對(duì)中文和西文館藏。在這里,圖書目錄數(shù)據(jù)(MARC數(shù)據(jù))就是元數(shù)據(jù),而MARC就是編目標(biāo)準(zhǔn)。MARC以其詳細(xì)和嚴(yán)謹(jǐn)?shù)娘L(fēng)格可以準(zhǔn)確的描述圖書和期刊,提供管理和檢索。國(guó)內(nèi)通過(guò)10年的發(fā)展,在圖書館領(lǐng)域的MARC建設(shè)已經(jīng)比較完善,可以實(shí)現(xiàn)聯(lián)合編目和目錄共享等區(qū)域合作。MARC數(shù)據(jù)的交換和共享通過(guò)Z39.50協(xié)議實(shí)現(xiàn)。
現(xiàn)在,人類社會(huì)已經(jīng)進(jìn)入計(jì)算機(jī)時(shí)代、網(wǎng)絡(luò)時(shí)代、信息時(shí)代和數(shù)字時(shí)代。圖書館的建設(shè)已經(jīng)不局限于對(duì)紙張載體的管理,更多的是電子資源,電子圖書、電子文獻(xiàn)、數(shù)字圖象、數(shù)字音頻和視頻等資源。圖書館的數(shù)字化任務(wù)成為當(dāng)今的另一個(gè)重點(diǎn),建設(shè)一個(gè)網(wǎng)上的數(shù)字圖書館為讀者服務(wù)。
數(shù)字資源的建設(shè)采用怎樣的元數(shù)據(jù)標(biāo)準(zhǔn)?元數(shù)據(jù)實(shí)現(xiàn)的技術(shù)手段是什么?元數(shù)據(jù)的交換和共享如何實(shí)現(xiàn)?資源的內(nèi)容(泛指電子全文和多媒體內(nèi)容等)采用怎么的數(shù)字格式?這些都是我們必須的解決的問(wèn)題。數(shù)字資源是由元數(shù)據(jù)和電子內(nèi)容構(gòu)成的,根據(jù)本文主題只作元數(shù)據(jù)介紹,電子內(nèi)容暫且不提。因此,一個(gè)完整的元數(shù)據(jù)解決方案是建設(shè)的關(guān)鍵。
首先,我們能繼續(xù)使用MARC來(lái)著錄嗎?MARC元數(shù)據(jù)是否適用于數(shù)字資源呢?
分析一:眾所周知,MARC數(shù)據(jù)是詳細(xì),字段數(shù)定義了上千條,工作量較大;但從實(shí)用的角度來(lái)看,讀者真正可以和習(xí)慣使用的字段只有若干條。
分析二:MARC的編目是嚴(yán)謹(jǐn)?shù)模瑢I(yè)性要求高,所以一般人員無(wú)法參與編目工作。
分析三:圖書館印刷體的館藏中小館在10萬(wàn)冊(cè)以下,大館50萬(wàn)冊(cè)左右;但在今天這個(gè)信息爆炸,數(shù)據(jù)成幾何級(jí)膨脹的社會(huì),數(shù)字資源是一個(gè)海量的集合,上百萬(wàn)個(gè)記錄內(nèi)容只是建設(shè)中很小的一部分。
很明顯的,我們可以給出一個(gè)答案:MARC并不適應(yīng)數(shù)字資源的建設(shè)。
其次,我們需要一個(gè)適合數(shù)字資源的元數(shù)據(jù)標(biāo)準(zhǔn)--都柏林核心集(Dublin Core),縮寫DC。DC的主要特點(diǎn)有:涵蓋范圍大,主體結(jié)構(gòu)下字段數(shù)量可以自由伸縮,標(biāo)引的專業(yè)性要求低等。
幾個(gè)世紀(jì)以來(lái)圖書館員一直用一些很有用但也很復(fù)雜的工具(MARC,AACR2等)在做著這些工作。隨著Internet以及數(shù)字化技術(shù)的來(lái)臨, 我們突然面臨著一種處境, 即要為數(shù)以百萬(wàn)計(jì)的單個(gè)圖象, 文本文件,原稿,聲音文件, 電影或任何能在計(jì)算機(jī)上存儲(chǔ)的其他東西提供結(jié)構(gòu)化的存取。一個(gè)簡(jiǎn)單但可以擴(kuò)展的描述數(shù)字對(duì)象的標(biāo)準(zhǔn), 將容許任何人以能被幾乎其他所有的人理解的方式來(lái)描述他們的文件, 隨后對(duì)一個(gè)巨量的數(shù)字集合提供簡(jiǎn)單的存取。現(xiàn)在這個(gè)草擬的看來(lái)是有了極大進(jìn)展的標(biāo)準(zhǔn)被稱為 "都柏林核心(DC)", 它是以俄亥俄州的一個(gè)小鎮(zhèn)命名的, 因?yàn)榈谝淮蔚淖h程會(huì)議是在這里召開(kāi)的(OCLC的發(fā)源地) 。(MARBI Discussion Paper no. 99, Library of Congress, January 21, 1997)。
DC從1995年創(chuàng)立到現(xiàn)在已近7年,北美、歐洲和東南亞的許多圖書館都采用這個(gè)標(biāo)準(zhǔn)進(jìn)行數(shù)字建設(shè),已經(jīng)成為事實(shí)上的標(biāo)準(zhǔn)。在國(guó)內(nèi),隨著數(shù)字圖書館建設(shè)我們也必將發(fā)展自己的DC,一些大的圖書館已經(jīng)在這方面開(kāi)始了計(jì)劃和實(shí)施,譬如上海圖書館。
同時(shí),學(xué)術(shù)界對(duì)MARC到DC的數(shù)據(jù)轉(zhuǎn)換理論研究已經(jīng)完成,而我們?cè)诩夹g(shù)上已經(jīng)實(shí)現(xiàn)了這一步。在上面我們提到了"標(biāo)引"這個(gè)詞,這是它在計(jì)算機(jī)領(lǐng)域中的術(shù)語(yǔ),我們可以把它稱為"電子著錄",是指制作編輯元數(shù)據(jù)的過(guò)程和活動(dòng)。關(guān)于DC的具體內(nèi)容我們?cè)谄渌奈恼略僮鹘榻B。
再次,談到DC就不能不提到XML和RDF。XML和RDF是元數(shù)據(jù)實(shí)現(xiàn)的技術(shù)手段,一般我們常見(jiàn)到Dubin Core in RDF/XML的提法,可見(jiàn)他們對(duì)于圖書館的數(shù)字建設(shè)是密不可分的。RDF和XML主要是為數(shù)據(jù)交換和表達(dá)提供技術(shù)手段,關(guān)于RDF和XML的具體內(nèi)容我們?cè)谄渌奈恼略僮鹘榻B。
最后,我們來(lái)看一下數(shù)字圖書館的元數(shù)據(jù)交換和共享。
因?yàn)闅v史的原因圖書館較長(zhǎng)時(shí)間以來(lái)采用MARC格式交換書目數(shù)據(jù)。MARC格式僅僅用于圖書館系統(tǒng)間數(shù)據(jù)交換,MARC格式不能取代系統(tǒng)的內(nèi)部格式。這些異構(gòu)系統(tǒng)要想在網(wǎng)絡(luò)環(huán)境下實(shí)現(xiàn)互聯(lián),還必須采用Z39.50協(xié)議。
而DC采用的XML恰恰從數(shù)據(jù)與文檔的底層實(shí)現(xiàn)格式化,這就保證了從里到外、從處理到交換的一致性,因而有利于網(wǎng)絡(luò)環(huán)境下采用通用的檢索引擎等軟件工具。這為實(shí)現(xiàn)廣義的數(shù)字圖書館,例如通過(guò)關(guān)鍵詞即可查到網(wǎng)上最終文獻(xiàn)(無(wú)論文獻(xiàn)存在哪個(gè)系統(tǒng)),展現(xiàn)了良好的前景。元數(shù)據(jù)的交換和共享變得容易,我們可以想象在Internet這個(gè)全球網(wǎng)絡(luò)中建立一個(gè)虛擬圖書館。
圖書館的數(shù)字建設(shè)是一項(xiàng)長(zhǎng)期的工作,在標(biāo)準(zhǔn)和技術(shù)上的選擇是很重要的一步。如果在這方面出現(xiàn)偏差就會(huì)在未來(lái)增加許多重建和轉(zhuǎn)換的工作,造成資源浪費(fèi)。所以,見(jiàn)解國(guó)外的發(fā)展經(jīng)驗(yàn)和了解國(guó)內(nèi)的前沿研究是必須的。同時(shí),我們相信在未來(lái)的一段時(shí)期內(nèi)MARC和DC的并存是必然的趨勢(shì),如何利用好它們的各自優(yōu)勢(shì)為圖書館的傳統(tǒng)業(yè)務(wù)和網(wǎng)上業(yè)務(wù)服務(wù)將是一個(gè)長(zhǎng)期課題。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。