今天參加上海市圖書館學(xué)會舉辦的2014年圖書館前沿技術(shù)論壇(IT4L)“數(shù)字人文與語義技術(shù)”。因為注冊了這個會議,所以對數(shù)字人文就特別關(guān)注起來。其實今年2月OCLC發(fā)布研究報告《每個研究圖書館都需要一個數(shù)字人文中心么?》時就下載了的,但一直沒有看。
Does Every Research Library Need a Digital Humanities Center? / Jennifer Schaffner , Ricky Erway. OCLC Research, February 2014. ISBN 978-1-55653-466-9. 18 p.
直覺“數(shù)字人文”就是用計算方式進行人文科學(xué)研究——比如以前就聽說過的用文學(xué)作品語料庫統(tǒng)計分析寫作風(fēng)格之類,只是那時可能沒有用這個名詞。今日午餐時和幾位說起為什么沒有數(shù)字科學(xué),以為自然科學(xué)是通過實驗做研究的、不似人文科學(xué)更依賴思辨,需要用計算的方式進行定量研究。待回到家中,才發(fā)現(xiàn)我的電腦收藏中不知何時已建有e-sci文件夾。查維基百科,自然科學(xué)和數(shù)字人文對應(yīng)的,或許就是電子科學(xué)吧——當(dāng)然采用的方法肯定不同,就是人文科學(xué)中也不會相同。
維基百科詞條:Digital Humanities vs e-Science
———-“數(shù)字人文與語義技術(shù)”會議報告隨記———-
劉煒《數(shù)字人文與關(guān)聯(lián)數(shù)據(jù)》是入門課,從起源講到“云中上圖”。像上圖這樣的圖書館,還真有很多資源可做。
特別有感覺的是說數(shù)字人文不是學(xué)科,而是研究領(lǐng)域……(待看PPT)。
曾蕾《語義技術(shù)應(yīng)用與知識再發(fā)現(xiàn)》舉例說明如何用圖情一直以來的強項,即基于圖書館資源的半結(jié)構(gòu)數(shù)據(jù),用語義技術(shù)做挖掘。報告中提到無結(jié)構(gòu)的大數(shù)據(jù)、有結(jié)構(gòu)的智慧數(shù)據(jù)(smart data)和半結(jié)構(gòu)的XML文檔(概念來自《數(shù)字人文雜志》:Big? Smart? Clean? Messy? Data in the Humanities / CHRISTOF SCH?C)。
另外,第一次聽說CCO(Cataloging Cultural Objects)圖像標(biāo)引三層次:一描述、二辨識(即主題)、三闡述(即意義)——有一種豁然開朗的感覺。
秦健《從歐美數(shù)字人文獎勵項目說開去》對受資助項目做了歸類。從數(shù)據(jù)類型上說,既包括非結(jié)構(gòu)化的文本,也包括結(jié)構(gòu)化的包括GIS數(shù)據(jù)集,以及數(shù)字和紙質(zhì)地圖、各種檔案、音樂信息、語音文檔、圖像數(shù)據(jù)。
不同的人文科學(xué)肯定會有不同的數(shù)字人文方法,比如前述文學(xué)作品研究,與林海青《用GIS數(shù)據(jù)呈現(xiàn)歷史事件》介紹的空間歷史學(xué),就完全不同。
除此報告外,其他報告所舉例子也有不少地圖應(yīng)用。人文科學(xué)、社會科學(xué)研究中,與時間、地點相關(guān)的內(nèi)容是相當(dāng)重要的。
AHA 2014: Getting Started in Digital History Spatial History & hGIS Breakout Session
復(fù)旦大學(xué)張亮《數(shù)字人文中的IT推動力-以二十世紀中國人物志數(shù)字圖書館原型系統(tǒng)為例》,介紹了名為“數(shù)風(fēng)流人物”的原型系統(tǒng)。數(shù)據(jù)來源是國家社科基金重大課題“中國人物傳記數(shù)據(jù)庫”,原庫有5萬余人,PDF全文檢索。原型系統(tǒng)只取了十多個人(?),從時間、地理、人物關(guān)系等予以揭示。
上圖楊佳《數(shù)字人文中的可視化技術(shù)》將可視化技術(shù)分為五類,舉了不少例子,需慢慢消化。
上圖夏翠娟《以書目框架建模的上圖家譜知識庫系統(tǒng)》介紹上圖已用BIBFRAME構(gòu)建了家譜本體,并對預(yù)期服務(wù)作了十分豐富的設(shè)想。可做的不少,能做到多少自然是另一個問題,夏MM自己提出了在數(shù)據(jù)加工、初始數(shù)據(jù)清洗、實例和規(guī)范數(shù)據(jù)提取、不同時代地理信息差別及糾錯機制上的問題及困境。
雨師提問則是另一個問題:本體要做到何種深度,才能達到把金庸與徐志摩關(guān)聯(lián)起來?答案是BIBFRAME是文獻本體,還需要內(nèi)容本體(要加上譜系本體)——深為受教。
對于夏MM提出的問題,張亮教授對數(shù)據(jù)清洗的看法我還是很同意的:清洗不可能準(zhǔn)確,能做多少是多少?!髷?shù)據(jù)中,信息缺失或錯誤不可避免,未必影響結(jié)果,只是對采用的方法肯定有影響。
最后中科院生命科學(xué)信息中心陳濤、張永娟《關(guān)聯(lián)數(shù)據(jù)在生化學(xué)會會員系統(tǒng)中的應(yīng)用》,基于上海社科基金課題。利用PubMed數(shù)據(jù),采用非關(guān)系型數(shù)據(jù)庫、RDF數(shù)據(jù)進行關(guān)聯(lián),對中國生物化學(xué)與分子生物學(xué)會部分會員的個人發(fā)文信息、人際關(guān)系等進行揭示,還可對會員進行相關(guān)內(nèi)容與會員的推薦。
系統(tǒng)做得相當(dāng)好。比較遺憾的是如張亮教授提問所指出的,生化領(lǐng)域有PubMed的RDF數(shù)據(jù)可用,此法對其他領(lǐng)域未必適用。
注:下午遲到,很遺憾錯過了上圖王曼雋《上海年華的故事》。
P.S. 佩服sogg邊聽報告邊給出提及內(nèi)容鏈接的本事。
———聯(lián)想的分割線———-
各報告介紹的眾多實例、原型系統(tǒng)、設(shè)想,很有啟發(fā)。期待PPT分享,再細細看過。
聯(lián)想到本館,有一個《中國年譜數(shù)據(jù)庫》,一直以來用者了了。而年譜中可挖掘的數(shù)據(jù),包括人物、時間、地點、事件、人物關(guān)系……完全可以比肩家譜。如果有意試水?dāng)?shù)字人文,倒也是個不錯的數(shù)據(jù)源。
秦健教授在問答環(huán)節(jié)中指出:圖書館從提供數(shù)據(jù)資源,到提供數(shù)據(jù)產(chǎn)品。這大概就是圖書館要有一個數(shù)字人文中心的理由吧?