例如,當(dāng)我們問,
法國的首都是哪里?兩種搜索技術(shù)都返回正確答案,
巴黎。同樣,我們在 Google 中搜索的時候,不管使用自然語言還是縮寫式搜索語言,返回的結(jié)果都差不多。我們都知道語意搜索技術(shù)很強(qiáng)大,但強(qiáng)大在哪里?本文中我們會看到問題出在我們的搜索提問方式不對。
自然語言搜索引擎為我們提供了一個和 Google 一樣的搜索框,我們在這個搜索框中輸入搜索問題的時候,不自覺地使用了那些最原始的提問方式,如,法國的首都是哪里,我們很少問,
同時在 Pulp Fiction 和 Saturday Night Fever 中主演的是哪個演員?,或者,
那兩個接收國外政治獻(xiàn)金的美國議員是誰?我們輸入的問題太簡單,這無法體現(xiàn)語意搜索的強(qiáng)大,我們下面會談到 Google, SearchMonkey, Powerset 以及 Freebase 等搜索技術(shù)在語意技術(shù)上的對比。
我們要解決的問題第一個困惑來自這樣的事實(shí),就是,語意搜索已經(jīng)被推向可以解決一切問題的位置,從以 Google 為代表的現(xiàn)代搜索問題,到一些計算機(jī)根本無法解決的問題,更嚴(yán)重的是,目前語意搜索只能在一個狹小的范圍內(nèi)做得比較好,就是那些牽扯到對復(fù)雜數(shù)據(jù)進(jìn)行推理的查詢。
象上圖中顯示的那樣,基礎(chǔ)查詢,Google 很容易處理,不幸的是,自然語言在這里幾乎沒有優(yōu)勢,Google 可以準(zhǔn)確的回答達(dá)芬奇的生日,但它沒有辦法理解用戶輸入的名詞和動詞,也沒有辦法因此提高搜索質(zhì)量。
我們在觀察語意搜索能完美解決的問題之前,先讓我們看看最困難的部分。在理解語意之外,有一些計算上的挑戰(zhàn),有一個延續(xù)了很久的對語意 Web 的誤解是,既然我們可以注解 Web,那我們就能夠解決那些超級復(fù)雜的問題,這是不對的。我們在計算上有一些本質(zhì)的限制,那些可能有很多解決方法的問題未必會因?yàn)槲覀円?RDF 表現(xiàn)數(shù)據(jù)就能得到解決。
一個好消息是,有一些問題對語意搜索來說是得心應(yīng)手的,就是那些我們已經(jīng)通過關(guān)系數(shù)據(jù)庫完美解決了的問題。我們經(jīng)常忘記了語意技術(shù)是來幫助我們在整個 Web 世界表現(xiàn)關(guān)系數(shù)據(jù)的,所以,就不奇怪語意搜索將超越關(guān)系搜索。
當(dāng)前的語意搜索商
但語意搜索并不是我們問問題,因?yàn)?Web 事實(shí)上是一堆非結(jié)構(gòu)化 HTML 頁,語意搜索與這些 HTML 頁背后的數(shù)據(jù)有關(guān)。這其中最極端的例子是
Freebase 。 Freebase 可以通過文字搜索進(jìn)行訪問,但更主要通過 MQL (Metaweb 查詢語言)訪問。使用 MQL,你可以從 Freebase 查詢?nèi)魏螙|西。
Powerset 從某個方面來說,僅僅是關(guān)系數(shù)據(jù)庫,它基于特定的結(jié)構(gòu)信息。
Google 則全然是統(tǒng)計意義上的頻度問題,幾乎沒有語意思在內(nèi)。Yahoo! 最近發(fā)布的
SearchMonkey 是對二者有趣的結(jié)合,它并不在結(jié)果集中加入任何東西,而是使用語意注解,來表現(xiàn)更豐富,更交互,更有用的用戶界面。
Hakia 和
Powerset 是在這些技術(shù)上最努力的公司,他們企圖建立一個類似 Freebase 的結(jié)構(gòu),然后使用自然語言進(jìn)行查詢。不同的是,Hakia 面向整個 Web,而 Powerset 只面向
Wikipedia。
Hakia, Powerset 和 Freebase 到底有多大區(qū)別
現(xiàn)在有一個問題,上面提到這幾種技術(shù)中哪些是不同的,哪些從本質(zhì)上是一樣的?我們先從簡單的入手,從搜索的核心技術(shù)來說,Yahoo 的 SearchMonkey 和 Google 以及其它搜索沒有什么不同,不同的是展示層。SearchMonkey 通過將搜索結(jié)果以最好的方式展示給用戶,而為用戶創(chuàng)建一個更好的使用體驗(yàn)。
但 Hakia, Powerset 和 Freebase 的情形卻復(fù)雜的多,從表面看,這些技術(shù)都不一樣,Hakia 讓你搜索整個網(wǎng)絡(luò),Powerset 只限于 Wikipedia (和 Freebase),F(xiàn)reebase 自己擁有兩種界面,搜索框式界面和查詢語言式界面,這就是問題所在,自然語言界面與其背后的數(shù)據(jù)展示沒有任何關(guān)系。
事實(shí)上,所有這些語意搜索技術(shù)允許用戶輸入復(fù)雜的問題,然后將這些查詢問題進(jìn)行分析并向數(shù)據(jù)庫進(jìn)行查詢。本質(zhì)上,Hakia, Powerset 和 Freebase 是數(shù)據(jù)庫,他們都是一種自然語言處理引擎,將用戶的問題翻譯成對數(shù)據(jù)庫的查詢。
要徹底看清這些技術(shù)的內(nèi)部,不妨想一想 Freebase 和它的查詢語言 MQL。和自然語言不同,MQL 允許各種查詢結(jié)構(gòu),MQL 不會產(chǎn)生歧義,這種類似 JSON 的語言允許用戶構(gòu)造精確的查詢語句。我們說 Powerset 允許自然語言查詢并不是說 Powerset 的內(nèi)部有一個數(shù)據(jù)庫,當(dāng)然,它的內(nèi)部有一個和 Freebase 搜索框后面的數(shù)據(jù)庫類似的東西,真正不同的是他們搜集集合數(shù)據(jù)的方式以及用戶的體驗(yàn)。
搜索的未來:用戶界面是一切也許語意搜索最大的革命是用戶界面,首先,Powerset 正確地認(rèn)識到語意是用戶界面最上面的一層,用戶在 Powerset 搜索的時候,一個可以進(jìn)行上下文關(guān)聯(lián)的工具會意識到結(jié)果的語意,并提供一些有用的信息來幫助用戶完成搜索體驗(yàn)。
但我認(rèn)為 Powerset 犯的最大錯誤也是用戶界面,那個和傳統(tǒng)搜索一模一樣的搜索框應(yīng)當(dāng)去掉,提供一個簡化的搜索界面會傷害 Powerset,Hakia 以及 Freebase。
聯(lián)想到 Powerset ,它使用了一種總體上更好的方式同網(wǎng)絡(luò)中最好的資源 Wikipedia 進(jìn)行交互,但批評著是怎么說的,Powerset 是 Google 殺手嗎,不是。
但,如果 Powerset 縮小自己的搜索范圍會呢?如果 Powerset 用另一種界面替換那個搜索框,或者告訴用戶在 Powerset 找那些 Google 無法簡單找到的東西會怎么樣呢?這些新公司為什么要改進(jìn)那些已經(jīng)存在了10年的技術(shù),而不是為那些 Google 解決不了的問題提供方案?
結(jié)論語意搜索是一種過分抬高了人們的期望值的技術(shù),我們都誤以為這些技術(shù)是 Google 的替代品,會帶來更好的搜索結(jié)果。事實(shí)上不是,這些技術(shù)的出現(xiàn),是為了解決目前 Google 等傳統(tǒng)搜索引擎所無法解決的問題,那些復(fù)雜的,牽扯到推理的,將整個 Web 當(dāng)作數(shù)據(jù)庫進(jìn)行查詢的問題。