萬維網(wǎng)的未來——語義網(wǎng)
在萬維網(wǎng)日益普及的今天,人們充分體會到網(wǎng)絡(luò)的巨大魅力。現(xiàn)在,我們可以與處于地球上遙遠(yuǎn)地方的人進(jìn)行交流,瀏覽世界各地的信息,享受網(wǎng)上沖浪的樂趣。但是上過網(wǎng)的人都知道,現(xiàn)在所使用的萬維網(wǎng)的功能并不盡如人意,如網(wǎng)頁單調(diào)枯燥、搜索引擎智能化程度低等。但不管怎樣,我們還是可以說,萬維網(wǎng)是空前而不絕后的。那么,您是否想過萬維網(wǎng)的未來又是什么樣的呢?
目前的萬維網(wǎng)其進(jìn)化、擴(kuò)大和完善的空間還很大,可以說萬維網(wǎng)還沒有走出嬰兒期。為使萬維網(wǎng)邁上一個新的臺階,從此擺脫幼稚,走向成熟和真正的智能化,10年前為我們發(fā)明因特網(wǎng)超文本系統(tǒng)的麻省理工學(xué)院萬維網(wǎng)協(xié)會主席蒂姆·伯納斯·李,現(xiàn)在又在致力于開發(fā)新一代的萬維網(wǎng)(互聯(lián)網(wǎng)),他為之取了一個直觀的名稱——“語義網(wǎng)”(the SemanticWeb)。
1、什么是“語義網(wǎng)”?
所謂“語義”就是文本的含義。語義需要理解文本的意思和結(jié)構(gòu),而與顯示方式無關(guān)。語義網(wǎng)就是能夠根據(jù)語義進(jìn)行判斷的網(wǎng)絡(luò)。
目前在萬維網(wǎng)中,網(wǎng)頁僅僅是一個單調(diào)的內(nèi)容顯示,電腦只負(fù)責(zé)將一個網(wǎng)頁鏈接到另一個網(wǎng)頁,網(wǎng)絡(luò)不能按照用戶的要求自動搜尋和檢索網(wǎng)頁,直至找到所需要的內(nèi)容。而語義網(wǎng)則是希望計算機(jī)能“看懂”網(wǎng)頁的內(nèi)容,使計算機(jī)成為“智能”的導(dǎo)航工具。當(dāng)然語義網(wǎng)還并不僅僅能完成這個功能,它比這還要“聰明”得多。
簡單地說,語義網(wǎng)是一種能理解人類語言的智能網(wǎng)絡(luò),它不但能夠理解人類的語言,而且還可以使人與電腦之間的交流變得像人與人之間交流一樣輕松。
語義網(wǎng)就好比一個巨型的大腦,它由數(shù)據(jù)庫智能化程度極高,協(xié)調(diào)能力非常強(qiáng)大的各個部分組成,可以解決各種難題。在語義網(wǎng)上連接的每一部電腦,都能分享人類歷史上所有科學(xué)、商業(yè)和藝術(shù)等知識。它不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關(guān)系。
在語義網(wǎng)中,網(wǎng)絡(luò)不僅能夠連接各個文件,而且還能夠識別文件里所傳遞的信息,也就是說,它是一種聰明的網(wǎng)絡(luò),可以干人所從事的工作。例如:它可以讓計算機(jī)辨認(rèn)和識別“head”這個單詞的意思是“頭腦”還是“領(lǐng)導(dǎo)”;在讀者看新聞時,它能輕松地分辨出哪句是標(biāo)題、哪句是導(dǎo)語。
2、語義網(wǎng)與萬維網(wǎng)的區(qū)別
目前我們所使用的萬維網(wǎng),實際上是一個存儲和共享圖象、文本的媒介,電腦所能看到的只是一堆文字或圖象,對其內(nèi)容無法進(jìn)行識別。萬維網(wǎng)中的信息,如果要讓電腦進(jìn)行處理的話,就必須首先將這些信息加工成計算機(jī)可以理解的原始信息后才能進(jìn)行處理,這是相當(dāng)麻煩的事情。而語義網(wǎng)的建立則將事情變得簡單得多。
語義網(wǎng)是對萬維網(wǎng)本質(zhì)的變革,它的主要開發(fā)任務(wù)是使數(shù)據(jù)更加便于電腦進(jìn)行處理和查找。其最終目標(biāo)是讓用戶變成全能的上帝,對因特網(wǎng)上的海量資源達(dá)到幾乎無所不知的程度,計算機(jī)可以在這些資源中找到你所需要的信息,從而將萬維網(wǎng)中一個個現(xiàn)存的信息孤島,發(fā)展成一個巨大的數(shù)據(jù)庫。
語義網(wǎng)將使人類從搜索相關(guān)網(wǎng)頁的繁重勞動中解放出來。因為網(wǎng)中的計算機(jī)能利用自己的智能軟件,在搜索數(shù)以萬計的網(wǎng)頁時,通過“智能代理”從中篩選出相關(guān)的有用信息。而不像現(xiàn)在的萬維網(wǎng),只給你羅列出數(shù)以萬計的無用搜索結(jié)果。
例如,在進(jìn)行在線登記參加會議時,會議主辦方在網(wǎng)站上列出了時間、地點,以及附近賓館的打折信息。如果使用萬維網(wǎng)的話,此時你必須上網(wǎng)查看時間表,并進(jìn)行拷貝和粘貼,然后打電話或在線預(yù)訂機(jī)票和賓館等。但假如使用的是語義網(wǎng),那么一切都變得很簡單了,此時安裝在你計算機(jī)上的軟件會自動替你完成上述步驟,你所做的僅僅是用鼠標(biāo)按幾個按鈕而已。
在瀏覽新聞時,語義網(wǎng)將給每一篇新聞報道貼上標(biāo)簽,分門別類的詳細(xì)描述哪句是作者、哪句是導(dǎo)語、哪句是標(biāo)題。這樣,如果你在搜索引擎里輸入“老舍的作品”,你就可以輕松找到老舍的作品,而不是關(guān)于他的文章。
總之,語義網(wǎng)是一種更豐富多彩、更個性化的網(wǎng)絡(luò),你可以給予其高度信任,讓它幫助你濾掉你所不喜歡的內(nèi)容,使得網(wǎng)絡(luò)更像是你自己的網(wǎng)絡(luò)。
3、語義網(wǎng)的實現(xiàn)
語義網(wǎng)雖然是一種更加美好的網(wǎng)絡(luò),但實現(xiàn)起來卻是一項復(fù)雜而浩大的工程。
要使語義網(wǎng)搜索更精確徹底,更容易判斷信息的真假,從而達(dá)到實用的目標(biāo),首先需要制訂標(biāo)準(zhǔn),該標(biāo)準(zhǔn)允許用戶給網(wǎng)絡(luò)內(nèi)容添加元數(shù)據(jù)(即解釋詳盡的標(biāo)記),并能讓用戶精確地指出他們正在尋找什么;然后,還需要找到一種方法,以確保不同的程序都能分享不同網(wǎng)站的內(nèi)容;最后,要求用戶可以增加其他功能,如添加應(yīng)用軟件等。
語義網(wǎng)的實現(xiàn)是基于XML(可擴(kuò)展標(biāo)記語言eXtensible MarkupLangauge)語言和資源描述框架(RDF)來完成的。XML是一種用于定義標(biāo)記語言的工具,其內(nèi)容包括XML聲明、用以定義語言語法的DTD(document typedeclaration文檔類型定義)、描述標(biāo)記的詳細(xì)說明以及文檔本身。而文檔本身又包含有標(biāo)記和內(nèi)容。RDF則用以表達(dá)網(wǎng)頁的內(nèi)容。
當(dāng)然,要實現(xiàn)語義網(wǎng)并非僅有XML和RDF就行了。更主要的技術(shù)難題還在于要讓電腦可以進(jìn)行過多的“思考”和“推斷”,而面對紛繁復(fù)雜的問題,尤其是社會問題,人尚且難以決斷,更何況計算機(jī)呢。因此,要真正實現(xiàn)實用的語義網(wǎng)還有很多工作要做。
4、XML和語義
XML的最突出的特點就是功能強(qiáng)大又易于使用,它使網(wǎng)頁能夠容納更豐富的信息資源。其中元數(shù)據(jù)管理、語義透明性和自主主體都是XML所獨有的概念,而XML對統(tǒng)一結(jié)構(gòu)化語法和半結(jié)構(gòu)化語法的承諾,將有助于把幾乎不可能完成的事變成切實可行的。
那么在XML的基礎(chǔ)上所講的語義又是什么呢?雖然語義這個單詞每個人對其定義的觀點各有不同,但一般來說,我們可以將語義解釋為構(gòu)建在公用語法之上的系統(tǒng)中XML數(shù)據(jù)的一層規(guī)范。這就引出了下面標(biāo)記了XML語義的概念(在下面三概念之間有一些重疊):
元素類型名稱、屬性名稱和某些情況下內(nèi)容術(shù)語的解釋;
用于使用有效文檔引導(dǎo)事務(wù)的處理規(guī)則(也稱作商業(yè)規(guī)則);
一個文檔中的結(jié)構(gòu)化元素與另一個文檔中的結(jié)構(gòu)化元素之間的關(guān)系。
5、語義網(wǎng)的優(yōu)點
建立語義網(wǎng)的重要性在于,對信息含義的理解不再是只有依靠人才能完成的事情,計算機(jī)同樣也可以完成這樣的工作。
例如,我們看到網(wǎng)頁上的天氣預(yù)報,自然就會知道其中的含義,但計算機(jī)并不知道在那么多的數(shù)字中,哪一個數(shù)字代表溫度,哪一個數(shù)字代表濕度。而語義網(wǎng)的意義就要在隱藏的編碼中,指明哪個數(shù)字代表溫度,哪個數(shù)字代表濕度,并且說明“溫度”和“濕度”的含義。
語義網(wǎng)最大的好處是可以讓計算機(jī)具有對網(wǎng)絡(luò)空間所儲存的數(shù)據(jù),進(jìn)行智能評估的能力。這樣,計算機(jī)就可以像人腦一樣“理解”信息的含義,完成“智能代理”的功能。使用語義網(wǎng)搜索引擎搜索的結(jié)果也將比萬維網(wǎng)更為精確。
另外,由于大部分科技創(chuàng)新和突破,都是對已有知識的重新組合和更新,因此語義網(wǎng)也為新的科技創(chuàng)新提供了無盡的資源,它可以在很短的時間內(nèi),完成一個人甚至需要一輩子才能做出的組合結(jié)果。
蒂姆·伯納斯·李曾說過:“完全可以想象,一旦這種技術(shù)被運用于世界上所有的數(shù)據(jù)表格,它將產(chǎn)生極大的社會效益。”
6、語義網(wǎng)的研究進(jìn)展
從互聯(lián)網(wǎng)剛剛誕生開始,人工智能專家就密切關(guān)注著它的發(fā)展。現(xiàn)在,發(fā)展語義網(wǎng)的兩種主要技術(shù):可擴(kuò)展標(biāo)記語言(XML)和資源描述框架(RDF)已經(jīng)誕生。XML用來制定隱藏的標(biāo)記,并將其作為標(biāo)注放置在網(wǎng)頁中,以便引導(dǎo)計算機(jī)程序處理網(wǎng)頁內(nèi)容。這里XML不涉及網(wǎng)頁的具體內(nèi)容,而網(wǎng)頁的內(nèi)容則由RDF來表達(dá)。
為了解決計算機(jī)理解“人的語言”的問題,目前人們已經(jīng)建立了“目的”和“對象”兩個數(shù)據(jù)庫,在這兩個數(shù)據(jù)庫中,應(yīng)用分類學(xué)和分級學(xué),按照人的思維習(xí)慣建立一個樹形“邏輯庫”,由計算機(jī)查詢出它們的區(qū)別,從而得出正確的結(jié)論。當(dāng)然,人的語言系統(tǒng)是非常復(fù)雜的系統(tǒng),僅僅建立這些還不夠,還有許多問題需要解決。不過現(xiàn)在將“語義網(wǎng)”嵌入互聯(lián)網(wǎng)的第一步工作已經(jīng)展開,在不久的將來,計算機(jī)一定能看懂并處理網(wǎng)頁中的內(nèi)容。
目前,有消息稱美國將于2005年推出語義網(wǎng)。我們有理由相信,語義網(wǎng)一定會給我們帶來互聯(lián)網(wǎng)的新時代。(摘自計算機(jī)世界)