類似Hadoop、Lucene、Nutch,等開源搜索項目穩(wěn)定而緩慢的成熟,以及通過Amazon網(wǎng)絡服務的按需計算的實現(xiàn),表明在大部分創(chuàng)業(yè)企業(yè)中的搜索基礎構建并非不可企及。
Hadoop是一個復制了Google文件系統(tǒng)分類功能和對于大數(shù)據(jù)量計算的Google MapReduce 演算系統(tǒng)的應用程序構架。Lucene 是一個基于Java的搜索和索引系統(tǒng)。Nutch是在Lucene基礎上的進一步擴展,增加了基于Web的爬蟲和其他附屬搜索功能。
這些開源搜索項目已經(jīng)在 Krugle、Powerset、Wikipedia 和Zimbra等公司和組織內(nèi)得到了應用。
Krugle是一個建立在Nutch和 Lucene.基礎上的,專門為程序員設計的搜索引擎幫助用戶發(fā)現(xiàn)在線代碼和技術信息。Krugle 的CEO Steve Larsen說:“沒有 Nutch 和Lucene,我們不可能創(chuàng)建我們現(xiàn)在的搜索功能,也不可能擁有現(xiàn)在的速度……它們對于我們在短時間內(nèi)解決技術問題極其重要。”
Krugle 的CTO Ken Krugler認為調(diào)用代碼也是很重要的,“從Nutch 和Lucene中,我們有了我們需要的一種垂直解決方案的靈活性,商業(yè)解決方案的要求更為嚴格,更難弄。”
Krugle 在一家主機托管服務(collocation facility)公司內(nèi)運行著大約100臺服務器。Krugler 說Amazon的Elastic Compute Cloud(EC2)服務看起來大有前途,但Krugler認為對于公司來說這還僅僅是個開始。EC2是一種簡單卻比按需付費更強大的虛擬程序。它讓開發(fā)人員利用Amazon數(shù)據(jù)中心的處理能力,能夠與Amazon的Simple Storage Service,以及即時通訊、搜索、電子商務等其它服務“協(xié)作”。
新興搜索公司Powerset 正在毫無保留地使用EC2 建設其即將面世的自然語言搜索網(wǎng)站。在Web 2.0峰會上Powerset 創(chuàng)始人兼CEO Barney Pell宣布這一點時,說他的公司使用Amazon的技術“代表了搜索產(chǎn)業(yè)內(nèi)競爭力量的一個重大轉變”,因為Powerset不必花巨額資本就可以“做出一個功能足夠強大搜索引擎搜索整個網(wǎng)絡為千百萬用戶展開服務,并與Google和Yahoo展開競爭.”
Barney Pell并沒有提到他的公司也正在使用Hadoop在將之儲存到本地網(wǎng)絡之前來儲存搜索結果。在一封發(fā)給 Hadoop 開發(fā)者的 e-mail中,Powerset 的CTO Lorenzo Thione描述了,如何將Hadoop 和EC2 應用于容錯搜索系統(tǒng)(fault-tolerant search system)。
“ Hadoop作為以EC2應用為基礎的方法,有一個很好的特征是,可以靈活流暢地改變集群系統(tǒng)部分請求數(shù)量”
當然,對于 Google來說有許多搜索基礎設施,即使對手獲得某些類似的技術手段, Google 也仍然具有難以對付的用戶基礎和強大的品牌實力。也就是沒有什么基礎使這些工作成為一項生意。現(xiàn)在還沒有一個開源廣告平臺來與 Google,、Microsoft和Yahoo的廣告平臺相抗衡,更惶論Amazon 和eBay。
但開源項目目前已經(jīng)在成功的商業(yè)項目中廣泛應用,這些公司使用開源軟件推動其項目開發(fā)。 Krugle和Powerset是典型案例。值得注意的是Yahoo在推動Hadoop向前發(fā)展。
盡管開源項目目前尚不能實現(xiàn)完全商業(yè)化,但畢竟給予新興技術公司一種可能,推動更多的新興力量加入新一輪技術競爭。
在Krugle和Powerset等公司向Google 發(fā)起挑戰(zhàn)的時候,我們是否也要自問“為什么我們不能做一個Google?”。