通用搜索引擎在某些方面的表現(xiàn)越來越差強人意,一種全新的基于對象的垂直搜索技術(shù)更加一目了然。
本刊記者 李洋
小李要買一部智能手機,想了解幾款產(chǎn)品的介紹、價位和評價等信息。但是當他用通用搜索引擎查找信息時,卻得到了五花八門的結(jié)果。令人頭疼的是,他必須挨個點進鏈接,注冊一堆論壇賬號,還要自己把各種看到的信息綜合起來,才能獲得關(guān)于這部手機的完整資料。
是的,通用搜索引擎在某些方面的表現(xiàn)越來越差強人意。那么,如何讓搜索結(jié)果變得更加一目了然?微軟亞洲研究院的聶再清和文繼榮研究員,向《互聯(lián)網(wǎng)周刊》介紹了一種由他們研究成功的“對象級別的垂直搜索技術(shù)”(Object-level Vertical Search)。
一目了然的結(jié)果
這個聽起來有點學術(shù)化的技術(shù)其實并不難理解。當你使用這種搜索引擎時,它列出的結(jié)果將是最終對象的集合,而不是雜亂的網(wǎng)頁列表。一切的一切都圍繞著你所搜索的那個對象。
比如,當你搜索“多普達”時,系統(tǒng)列出的不是包含此信息的各種頁面標題、內(nèi)容檢索,而是一個個多普達手機—除型號、圖片等直觀信息外,每個產(chǎn)品下還列出介紹、價格、用戶評價等相關(guān)信息,就像我們在購物網(wǎng)站中看到的陳列頁面一樣,但內(nèi)容要遠比某個網(wǎng)站所陳列的豐富,因為是來自整個互聯(lián)網(wǎng)。搜索引擎所列出的對象內(nèi)容并不是通過人工來整理的,而是計算機通過自動抓取、自動分類而形成的“虛擬”頁面。
這項技術(shù)目前已經(jīng)獲得初步應用。在微軟亞洲研究院作為實驗的學術(shù)搜索(libra.msra.cn/)中,當你輸入“Data Mining”(數(shù)據(jù)挖掘)這一關(guān)鍵詞,便可獲得相關(guān)論文的排名列表。結(jié)果以論文為對象進行排列,每篇論文下都可列出被引用次數(shù)和作者;點進每篇論文的鏈接,可以看到該論文的介紹、可供瀏覽和下載的原始鏈接,以及相關(guān)的參考論文。
與此同時,在論文的結(jié)果列表左側(cè),還有相關(guān)作者、會議、期刊的排名。如果再按“作者”(Author)搜索,系統(tǒng)會自動排列出“數(shù)據(jù)挖掘”領域內(nèi)最權(quán)威的科學家名單,與此類似的,你還可以進行相關(guān)的會議、期刊和學術(shù)社區(qū)等方面的搜索。目前,微軟的該學術(shù)搜索還僅限于計算機領域。
與基于文字的搜索結(jié)果相比,基于對象的搜索結(jié)果顯然更加一目了然,實現(xiàn)更加垂直而專業(yè)的搜索效果。目前,這項來自微軟亞洲研究院的技術(shù),正在應用到Windows Live產(chǎn)品搜索引擎(Http://products.live.com)的測試版開發(fā)中。以產(chǎn)品作為對象的搜索結(jié)果中,用戶還可以按照相關(guān)度、價格進行排名,或按照一些熱點針對某家網(wǎng)站進行搜索。
核心技術(shù)
那么,這項技術(shù)是如何實現(xiàn)的?細心的讀者可能從前面的介紹中看出端倪,這是區(qū)別于傳統(tǒng)搜索引擎思路的一個新的體系結(jié)構(gòu)。
首先,它要依靠網(wǎng)頁爬蟲技術(shù),抓取某一個特定領域(比如一個照相機產(chǎn)品)中的所有相關(guān)網(wǎng)頁。在獲得這些頁面后,系統(tǒng)要對這些網(wǎng)頁中所包含的對象信息類型進行分類,也就是說,它要分辨某個網(wǎng)頁究竟是一篇論文、一個博客頁面,還是一個商品信息頁面。
在完成了這項工作后,系統(tǒng)就可以分門別類地將內(nèi)容集成到對象信息倉庫中。而這項工作需要事前進行大量的訓練和模型組建。比如,在一個商品頁面的訓練中,要告訴系統(tǒng)什么情況下是商品名稱、商品圖片、價格;通過此類學習之后,系統(tǒng)就可以自動找到它所要的關(guān)鍵內(nèi)容。
在這一領域的研究中,曾有人在HTML代碼上做過嘗試,卻都不太成功,因為代碼的編寫總是千差萬別的,但最后它們所實現(xiàn)的頁面顯示卻幾乎大同小異。在發(fā)現(xiàn)了這一點后,微軟亞洲研究院的研究員們在這一過程中巧妙地結(jié)合了視覺分析技術(shù),設計一些算法讓計算機能夠像人類一樣,看到一個頁面的“興趣中心”,并智能地做出判斷。
在進行了抓取、分類、抽取之后,垂直搜索引擎就可以利用這些結(jié)構(gòu)化的對象信息,來應對用戶的提問,進行各種智能分析和挖掘工作。
推翻現(xiàn)有架構(gòu)
這樣一種技術(shù)是具有革命性的。用戶可以利用它進行各種垂直類的深度搜索。它在推翻即有架構(gòu)之后,無疑要比傳統(tǒng)搜索引擎經(jīng)受更多的考驗。
比如,要保證結(jié)構(gòu)化信息的高質(zhì)量、全面性、準確度。并且,由于這一搜索引擎的數(shù)據(jù)庫,要存儲互聯(lián)網(wǎng)上以及各地離線數(shù)據(jù)庫中的相關(guān)對象信息,對存儲和運行規(guī)模的可伸縮性也提出了挑戰(zhàn),這一技術(shù)必須擁有一個能夠存儲數(shù)以十萬計的“超級數(shù)據(jù)庫”,并且保證其算法能夠足夠快速地進行檢索。
在給用戶帶來便利的同時,新的搜索引擎帶來了一系列圍繞技術(shù)規(guī)則改變而衍生的商業(yè)模式潛在變化。比如,在基于對象的搜索引擎中,傳統(tǒng)的網(wǎng)頁排名方法(PageRank)已不適用。微軟亞洲研究院的研究員們提出了流行度排級(PopRank)。
這項所搜即所得的技術(shù)具有很強的通用性,除了產(chǎn)品搜索、學術(shù)搜索外,還可以應用到黃頁、博客、人物、工作職位、飯館、機票搜索等多種垂直搜索領域,而其與電子商務的結(jié)合、新廣告形式的衍生,將是一個嶄新的話題。