Powerset首頁
Powerset基于自然語言,某些搜索性能超過Google,為微軟提供了一次超越Google的機會
【《財經(jīng)網(wǎng)》專稿/記者 何華峰】微軟收購從事自然語言搜索引擎公司Powerset的消息,既讓人看到了微軟發(fā)展搜索引擎的決心,也令自然語言搜索迅速成為行業(yè)的熱點。
6月26日,美國知名IT博客VentureBeat首次披露,微軟將斥資1億美元,收購美國舊金山的搜索引擎公司Powerset。7月1日,Powerset在博客上發(fā)布聲明,證實微軟已與其簽約。
微軟剛剛放棄了對雅虎的收購,公司首席執(zhí)行官斯蒂夫·鮑爾默(Steve Balmer)同時表示,要堅定不移地獨立投資互聯(lián)網(wǎng),縮小與Google在搜索引擎方面的差距。收購Powerset進一步佐證了這一思路。
同時,Powerset的搜索是基于自然語言,某些搜索效果好于Google,這一消息也讓業(yè)內(nèi)不禁聯(lián)想:這會不會是微軟超越Google搜索引擎的一次絕佳機會?
Powerset與自然語言
Powerset公司位于舊金山。2005年9月,Powerset的首席執(zhí)行官巴尼·佩爾(Barney Pell)找到了PARC實驗室的羅恩·卡普蘭(Ron Kaplan),后者領導著一個負責自然語言搜索的團隊。佩爾說服卡普蘭做一款自然語言搜索引擎。
PARC實驗室(Palo Alto ResearchCenter)隸屬于施樂公司(Xerox),是硅谷地區(qū)鼎鼎有名的高科技產(chǎn)品研究機構(gòu)。20世紀80年代初,蘋果公司創(chuàng)始人斯蒂夫·喬布斯(SteveJobs)正是從這個實驗室得到了鼠標技術,并將其用在自己研發(fā)的蘋果電腦上。
2007年2月,Powerset從PARC實驗室獲得了自然語言搜索引擎技術的排他性授權(quán)。
從理念上說,自然語言搜索是更先進的搜索技術,搜索引擎會先理解文章的意思,在此基礎上進行搜索。與Google相比最大的區(qū)別是,Google的搜索以關鍵詞為基礎,根據(jù)關鍵詞把搜索的頁面進行排序,而并非以理解文章意思為先。
理論上,自然語言搜索更為先進,但這項技術的概念出現(xiàn)幾十年,一直沒能做到可應用水平。Google也曾表示要推出自然語言搜索,卻始終未果。而PARC實驗室的技術被認為達到了應用的水平。
這項技術很被看好,2006年,就在Powerset與PARC實驗室還在談判的過程中,已經(jīng)有兩個風險投資商FoundationCapital和the FoundersFund表示看好,計劃以相當高的價格進行投資。最終,兩家風險投資商以1250萬美元的價格,獲得了Powerset不到三分之一的股權(quán)。
2007年初,Powerset終于完成了與PARC實驗室的談判,前者獲得排他性授權(quán),后者除收取授權(quán)費外,還獲得前者的部分股權(quán)。
2007年9月,Powerset的搜索引擎上線。比較Powerset與Google,在某些地方,前者的功能更優(yōu)。比如,搜索“誰收購了IBM”,Google只識別“收購”與“IBM”兩個關鍵詞,顯示結(jié)果,會是大量IBM收購的公司。Powerset則能理解,要查找的是收購IBM的公司,給出的結(jié)果主要是“聯(lián)想”和“AT&T”。
如果輸入更復雜的問題,如“IBM在1996年收購了誰?”,Google便會束手無策,而Powerset的搜索結(jié)果則好很多。
Powerset還有較強的學習能力,比如,掃描網(wǎng)頁,它會發(fā)現(xiàn)希拉里·克林頓與“自由”“民主”“領導人”相關,當你搜索“自由民主黨人對醫(yī)療政策的態(tài)度?”,就會搜到希拉里和其他自由民主黨人關于這方面的言論。
微軟的機會
目前,Powerset的搜索范圍還只限于維基百科,未來會逐漸擴大范圍。運用自然語言搜索技術,必須把網(wǎng)頁掃描及標識一遍。只限于做維基百科的搜索,是又經(jīng)濟又實惠的做法。
如果有一天,Powerset真的想和Google抗衡,就必須把互聯(lián)網(wǎng)上的所有網(wǎng)頁掃描并標識一遍。Powerset在聲明中說,“這很貴,要求的技術和計算資源,是一個新企業(yè)無法承擔的。與微軟合作,是讓技術應用大規(guī)?;淖羁焱緩健?#8221;此話點明了Powerset鐘意微軟的真正原因。
對Google來說,要做自然語言搜索并不容易。Google早已掃描并標識了上百億頁網(wǎng)頁,但這些都是以關鍵詞搜索為基礎的。如果采用自然語言搜索技術,將不得不重新掃描和標識這些網(wǎng)頁,且所需的時間會比關鍵詞搜索來的更長。
微軟收購Powerset后,同樣必須掃描及標識所有的頁面,但其顯然有更強的動力。首先,這是一次超越Google的好機會;其次,相對于460億美元的收購雅虎的預算,這點花費變得微不足道。
今年5月,美國互聯(lián)網(wǎng)調(diào)查機構(gòu)尼爾森在線(NielsenOnline)公布的數(shù)據(jù)顯示,4月份,Google在美國搜索市場市場占有率為62%,與雅虎和微軟的差距進一步拉大。雅虎以17.5%的份額位居第二,同比減少3.4%。微軟的MSN/Windows Live Search占9.7%,同比增長30%。
微軟還有一個優(yōu)勢,是它有一些細分領域的搜索引擎,如購物比較搜索Microsoft LiveCashback,旅行搜索Farecast,健康專業(yè)搜索health.live.com,自然語言搜索技術應用在這些細分領域,目前效果最好。Google則是面向全體用戶的通用搜索引擎。
被微軟收購后,Powerset還將保持相對獨立的運作。在聲明中,Powerset表示,公司將如常運作——辦公地點不變,公司架構(gòu)不變,團隊不變。
在未來幾個月,Powerset將整合進微軟的Live搜索。Powerset說,“我們將提高搜索,通過標注網(wǎng)頁基于意思,而不是關鍵詞。”
Google終結(jié)者?
Powerset在技術上有一定優(yōu)勢,但要成為Google的終結(jié)者則相當困難。
首先,Powerset的技術優(yōu)勢也許不一定能維持很久。
事實上,Google研究總監(jiān)彼得·諾維格(Peter Norvig)在接受VentureBeat采訪時透露,Google內(nèi)部已有幾個做自然語言的小組,且許多人擁有這一專業(yè)的博士學位,而他本人就是其中之一。
同時,基于自然語言的搜索引擎并非獨Powerset一家。另一家同類公司Hakia剛剛籌得2100萬美元的風險投資,其有意掃描并標識整個互聯(lián)網(wǎng)的網(wǎng)頁。意大利Expert System公司做的Cogito Focus也是一款基于自然語言的搜索引擎。
這些同類者中,不乏“傾心”于Google者。Expert System的首席執(zhí)行官布洛克·艾克(Brooke Aker)說,與業(yè)內(nèi)強者聯(lián)合,是擴展自然語言技術的最快途徑。
其次,自然語言搜索沒有提供視頻和圖片的識別技術,這是其很大的技術弱點。
再次,Google現(xiàn)在已是搜索的代名詞,人們習慣了用Google搜索,而要改變用戶的這一習慣顯然并不容易。
不過,在Google關鍵詞搜索獨步天下的今天,Powerset的出現(xiàn)至少顯示了搜索引擎未來可能有突破的可能。
“五年后,搜索行業(yè)會有巨大的變化。”Hakia首席執(zhí)行官力佐·伯肯(Rizzo Berkan)說?!?/p>