現(xiàn)有互聯(lián)網(wǎng)的飛速發(fā)展使它的缺陷逐漸暴露了出來,如網(wǎng)頁功能單調(diào)、搜索引擎智能化程度低等,這是因為大部分Web上的內(nèi)容是設計給人閱讀的,而不是讓計算機程序按其意義進行操作的。計算機能熟練地解析網(wǎng)頁的版面,知道哪里是標題,哪里有與其他頁面的鏈接。但是,它分辨不出個人主頁和天氣預報的區(qū)別,因為沒有可靠的方法來處理其中的語義,沒有辦法智能地理解網(wǎng)頁內(nèi)容和進行操作。
語義Web就是想彌補這方面的不足,為網(wǎng)頁擴展了計算機可處理的語義信息。語義Web中,各種資源被人為地賦予了各種明確的語義信息,計算機可以分辨和識別這些語義信息,并對其自動進行解釋、交換和處理。但是語義Web與人工智能中的語義網(wǎng)絡是兩個不同的概念,它的研究對象和所采用的方法與傳統(tǒng)自然語言處理也是不同的,它對現(xiàn)有的Web進行了語義擴展,從而使其能被計算機做一定的理解和處理,從功能上看它將是一個能夠“理解”人類信息的智能網(wǎng)絡。將語義Web融入現(xiàn)在Web結(jié)構的初步努力已經(jīng)在進行中了。不久的將來,當機器有更強的能力去處理和“理解”數(shù)據(jù)時,我們將看到很多重要的新功能。例如,某人想報名參加一個研討會,計算機就可自動地為其制定最佳日程和路線以及預定酒店等。
互聯(lián)網(wǎng)的創(chuàng)始人Tim Berners-Lee在2000年提出了語義Web的概念和體系結(jié)構。
在其體系結(jié)構中,第一層是Unicode和URI,它是整個語義Web的基礎,Unicode(統(tǒng)一編碼)處理資源的編碼,URI(統(tǒng)一資源定位器)負責標識資源;第二層是XML+名空間+XML模式,用于表示數(shù)據(jù)的內(nèi)容和結(jié)構;第三層是RDF+RDF模式,用于描述資源及其類型;第四層是本體詞匯,用于描述各種資源之間的聯(lián)系;第五層是邏輯,在下面四層的基礎上進行邏輯推理操作;第六層是驗證,根據(jù)邏輯陳述進行驗證以得出結(jié)論;第七層是信任,在用戶間建立信任關系。
第二、三、四層是語義Web的關鍵層,用于表示W(wǎng)eb信息的語義,也是現(xiàn)在語義Web研究的熱點所在??蓴U展標記語言XML (eXtensible Markup Language)讓每個人都能創(chuàng)建自己的標簽,來對網(wǎng)頁或頁面的部分文字進行注釋。 腳本,或者說是程序,可以將這些標簽運用到復雜的應用中,不過程序編寫者必須知道網(wǎng)頁作者是如何使用每一個標簽的。簡而言之,XML允許用戶在文檔中加入任意的結(jié)構。資源描述框架RDF (Resource Description Framework )的基本結(jié)構是對象-屬性-值三元組,也就相當于句子中的主語、動詞和賓語。這些三元組可以用XML語法來表示。用這種結(jié)構描述由機器處理的大量數(shù)據(jù),是非常自然的方法。RDF模式是一個描述RDF資源的屬性(Property)和類(Class)的詞匯表,提供了關于這些屬性和類的層次結(jié)構的語義。
因為兩個系統(tǒng)可能采用不同的標識符表示同一概念,也可能用一個標識符表示不同的含義,程序若要在兩個數(shù)據(jù)庫之間進行信息的比較和合并,就必須了解某些標識符表示的是否是同一事物。對該問題的一個解決方法就是本體論(Ontology)。本體是概念化的顯式說明,包括分類和一套推理規(guī)則。分類定義對象的類別及其之間的關系,使我們能夠表達實體之間的大量關系,而根據(jù)推理規(guī)則,程序可以進行自動推理。簡單地說,就是在不同的系統(tǒng)間定義一本字典或者度量表,使它們對實體及其之間的關系達成共識,以便交流和共享。
語義Web需要能夠?qū)eb文檔中的術語含義進行形式化描述。DAML+OIL(即DARPA代理標記語言+本體推論語言),OWL(Web本體語言),它們是W3C規(guī)范的重要擴充和改進,都是建立在人工智能知識表示基礎之上的本體語言,提供了一種自然方式來描述在Web詞間的類與子類之間的關系,以及在類與類之間(或子類與子類之間)關系上的限制。它們比RDF模式添加了更多的用于描述屬性和類的詞匯,例如類之間的不相交性(Disjointness)、等價性、更豐富的屬性類型、屬性特征等。
當然,要實現(xiàn)語義Web是遠遠不夠的,更主要的技術難題還在于要讓電腦可以進行更多的“思考”和“推斷”。為使語義Web工作,計算機必須能訪問結(jié)構化的信息集合以及一套推理規(guī)則,據(jù)此進行自動推理。增加邏輯性——使用規(guī)則去推理,選擇行動的方式以及回答問題的方法——是語義Web組織面臨的一個任務。
有了大量富含語義信息的網(wǎng)頁,就好像有了一個巨大的全球互聯(lián)的數(shù)據(jù)庫。有了語義信息的幫助,人們開發(fā)出的軟件代理Agent程序的智能和自動化將大大提高,它們從不同的資源中收集網(wǎng)頁內(nèi)容,搜索和處理信息并和其他程序交換信息,真正發(fā)揮語義Web的力量。當出現(xiàn)更多的機器可處理的網(wǎng)頁內(nèi)容和服務(包括更多的代理)時,通過代理之間的信息交換和協(xié)同工作,信息處理的效率將呈指數(shù)級增長,能更好地滿足用戶的需求。
網(wǎng) 格
網(wǎng)格是一種新興的技術,正處在不斷發(fā)展和變化當中。簡單地說,網(wǎng)格是一種信息社會的網(wǎng)絡基礎設施,是利用互聯(lián)網(wǎng)把分散在不同地理位置上的多個資源,包括計算資源、存儲資源、通信資源、軟件資源、信息資源、知識資源等全面連通和統(tǒng)一分配、管理及協(xié)調(diào)起來,通過邏輯關系組成一臺“虛擬的超級計算機”。這臺機器把每一臺參與其中的、包括個人電腦在內(nèi)的計算機都作為自己的一個“節(jié)點”,成千上萬個這樣的“節(jié)點”并聯(lián)起來,就組成了“一張有超級計算能力的網(wǎng)格”。而每一位將自己的計算機連接到網(wǎng)格上的用戶,也就“擁有了”這架超級計算機,可以隨時隨地調(diào)用其中的計算和信息資源,在獲得一體化信息服務的同時,最大程度地實現(xiàn)資源共享。網(wǎng)格計算模式首先把要計算的數(shù)據(jù)分割,然后不同節(jié)點的計算機可以根據(jù)自己的處理能力下載一個或多個數(shù)據(jù)片斷。只要位于某個節(jié)點的計算機的用戶不使用計算機時,就會調(diào)動閑置的計算能力。網(wǎng)格的優(yōu)勢在于不但數(shù)據(jù)處理能力超強,而且能充分利用網(wǎng)上的閑置處理能力來節(jié)約計算成本,實現(xiàn)資源的共享,消除資源孤島。
網(wǎng)格計算技術首先出現(xiàn)在科研領域的大型科學計算和項目研究中,醫(yī)藥、制造、氣象、勘探等需要大型計算機功能的行業(yè)將首批成為這一技術的受益者,隨著連接到網(wǎng)格系統(tǒng)上的計算資源的增加,網(wǎng)格計算技術也會造福于小企業(yè)和消費者,家庭PC用戶也將能夠用上公、私機構提供的更快、更廉價的服務,到那時任何設備可以在任何地方接入以享用某種層次的資源,而不必關心這些資源是從那里來的, 就像用現(xiàn)在的電網(wǎng)一樣。
美國自然科學基金于1997年啟動了高級計算框架計劃(PACI),歐盟于2000年和2001年分別啟動了EuroGrid和DataGrid。2001年全球網(wǎng)格論壇(Global Grid Forum)成立, 這是一個規(guī)范網(wǎng)格研究,制定網(wǎng)格標準的國際組織。就像TCP/IP協(xié)議是Internet的核心一樣,構建網(wǎng)格也需要對標準協(xié)議和服務進行定義。迄今為止,網(wǎng)格還沒有正式的標準,但在核心技術上,相關機構與企業(yè)已達成一致:由美國Argonne國家實驗室與南加州大學信息科學學院(ISI)合作開發(fā)的Globus Toolkit已成為網(wǎng)格計算事實上的標準。企業(yè)界的網(wǎng)格相關研究開發(fā)工作中,最重要的就是Web服務。目前,一些業(yè)界巨頭已經(jīng)就幾個底層標準協(xié)議達成了共識,包括XML、SOAP、WSDL、UDDI等。
語義網(wǎng)格
結(jié)合語義Web、網(wǎng)格和Web服務的優(yōu)點和彌補各自的不足,研究人員提出了語義網(wǎng)格的概念。附圖表明了Web、網(wǎng)格、語義Web和語義網(wǎng)格的關系,網(wǎng)格是Web在計算能力上的提升,而語義網(wǎng)格是網(wǎng)格在語義能力上的擴展;從另一個角度說,語義Web是在現(xiàn)有Web上增強了語義能力,而語義網(wǎng)格是語義Web對計算能力的擴展。
在英國的e-Science計劃研究中,人們發(fā)現(xiàn),網(wǎng)格的現(xiàn)有努力和e-Science設想之間存在差距,要達到e-Science的易用性和無縫自動化要求,必須實現(xiàn)盡量多的機器可處理性和盡量少的人類介入,這卻和語義Web的目標有一些相似,于是在2001年最先提出了語義網(wǎng)格的構想,并且于2002年在全球網(wǎng)格論壇GGF成立了語義網(wǎng)格研究組SEM-GRD。他們的語義網(wǎng)格構想的關鍵之處就是把所有的資源,包括服務,都用一種機器可處理的方式來描述,其目標是實現(xiàn)語義的互操作性。達到這個目標的一種實現(xiàn)方法是把語義Web的技術應用到網(wǎng)格計算的開發(fā)中,下至基礎設施上至網(wǎng)格應用。值得注意的是“語義”是從下到上彌漫在整個網(wǎng)格中而不是僅僅在其上增加了一個語義(知識)層。
中國科學院計算技術研究所知識網(wǎng)格研究組在諸葛海研究員的帶領下正在開展語義網(wǎng)格方面的研究,通過采用新的計算模式和新的資源組織和管理的模型,可有效地輔助用戶進行資源獲取、共享、管理、協(xié)同工作和決策等,為人們提供更深層、更全面、更智能的服務。重點解決三個科學問題:資源的規(guī)范組織、語義互聯(lián)和智能聚合。
·規(guī)范組織。提出資源空間模型和資源的規(guī)范化組織和管理的理論、方法、技術和工具,使各種無序資源(信息、知識和服務)規(guī)范組織,使用戶和服務能夠有效、正確地根據(jù)語義操作各種資源,以提高資源的使用效率。
·語義互聯(lián)。通過多層語義互聯(lián)和單一語義映像,使分布在全球的各種網(wǎng)絡資源在語義層上互聯(lián),消除資源孤島,主要通過類型化的語義鏈網(wǎng)絡來使資源的語義能被機器所理解。
·智能聚合。解決如何使資源能夠互相理解,根據(jù)用戶的需求有效、動態(tài)、智能地聚合各種資源,這主要通過軟設備來實現(xiàn)。