国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
揭秘Microsoft Bing與Google搜索背后的故事

連線:揭秘Microsoft Bing與Google搜索背后的故事

2012-03-23 09:29 | 5757次閱讀 | 【已有10條評論】發(fā)表評論

來源:wired | 作者:Cade Metz | 收藏到我的網(wǎng)摘

導(dǎo)讀:Google搜索引擎已經(jīng)贏得全球范圍的贊譽,而這一切都要歸功于Google開創(chuàng)性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后臺支持Google算法的基礎(chǔ)設(shè)施才是真正的幕后英雄,其基礎(chǔ)設(shè)施可快速的索引鏈接成千上萬臺普通服務(wù)器。MapReduce的成功也直接推動了Hadoop的發(fā)展?,F(xiàn)今從Facebook、Twitter、eBay、LinkedIn以及eBay都受其影響,而為了適應(yīng)大數(shù)據(jù)時代的浪潮他們必須有進一步的舉措。

Harry Shum已經(jīng)在Microsoft研究院工作了11年,現(xiàn)在他負責(zé)研發(fā)Microsoft Bing搜索引擎,以對抗Google 搜索。(圖片來自Microsoft)

在2010年,Google搜索引擎發(fā)生了重大變革。Google將其搜索遷移到新的軟件平臺,他們稱之為“Caffeine”。Caffeine是Google出自自身的設(shè)計,Caffeine使Google能夠更迅速的添加新的鏈接(包括新聞報道以及博客文章等)到自身大規(guī)模的網(wǎng)站索引系統(tǒng)中,相比于以往的系統(tǒng),新系統(tǒng)可提供“50%新生”的搜索結(jié)果。

而這一切都要歸功于Google開創(chuàng)性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后臺支持Google算法的基礎(chǔ)設(shè)施才是真正的幕后英雄,其基礎(chǔ)設(shè)施可快速的索引鏈接成千上萬臺普通服務(wù)器。MapReduce的成功也直接推動了Hadoop的發(fā)展?,F(xiàn)今從Facebook、Twitter、eBay、LinkedIn以及eBay都受其影響,而為了適應(yīng)大數(shù)據(jù)時代的浪潮他們必須有進一步的舉措。

Google在基于Web的分布式計算系統(tǒng)領(lǐng)域已經(jīng)贏得了贊譽。而Microsoft Bing搜索引擎的負責(zé)人Harry Shum認為Microsoft雖然沒有“Caffeine”的支持,但Bing搜索(利用數(shù)以萬計的服務(wù)器軟件平臺處理數(shù)據(jù))的能力絲毫不輸給Google。Google Caffeine的優(yōu)勢在于快速抓取、編制索引和服務(wù)器文檔。而Bing在這方面也是非常出色的。但這一切都需要基礎(chǔ)設(shè)施的支持。

Harry Shum于2007年加入Bing團隊,Harry Shum已經(jīng)在Microsoft研究院工作了11年。Harry Shum的目標就是讓Bing在搜索引擎領(lǐng)域技術(shù)趕上Google。在過去五年中,Google仍舊是全球最出色的搜索引擎,有人預(yù)計其市場占有率可能高達85%或90%。但Harry Shum深信Bing終將在技術(shù)水平上趕超Google。多年來,我們一直在努力完善,在經(jīng)過持之以恒的努力后,Bing的搜索質(zhì)量已經(jīng)接近Google的水平。Harry Shum說到。

毫無疑問,Google不會贊同Harry Shum的說法,Google的工程師認為Caffeine是非常重要的。Caffeine索引覆蓋1億GB數(shù)據(jù)。Caffeine可在幾秒或幾分鐘的時間從新聞網(wǎng)站或博客中添加內(nèi)容。

Harry Shum認為Bing索引系統(tǒng)與Caffeine不同。他表示雖然Google聲稱他們一些重大的技術(shù)是最新的。但Caffeine的一些功能Bing已經(jīng)在內(nèi)部運行了。但同時我們也要構(gòu)建新的技術(shù),以完善我們的系統(tǒng),我們也在這樣做著。

當討論軟件時,無論是Google還是Microsoft都避而不談支撐他們搜索引擎和其他Web服務(wù)的技術(shù)。但Harry Shum表示驅(qū)動Bing的專有軟件平臺被稱之為Cosmos。這在Microsoft研究院發(fā)布研究論文有所提及。Cosmos類似于Google構(gòu)建與MapReduce之上的GFS(Google File System)。Harry Shum同時表示Microsoft正在設(shè)法完善并擴大Cosmos平臺,以便使之能夠幫助Bing搜索引擎達到實時收錄的地步。

在Google采用Caffeine之前,Google使用MapReduce和分布式文件系統(tǒng)(如GFS)來構(gòu)建搜索索引(從已知的Web頁面索引中)。MapReduce是一種處理大型及超大型數(shù)據(jù)集并生成相關(guān)的執(zhí)行的編程模型。其主要思想是從函數(shù)式編程語言里借來的,同時也包含了從矢量編程語言里借來的特性。MapReduce將整個任務(wù)分解成成百甚至上千塊小任務(wù),然后發(fā)送到計算機集群中。

Google的網(wǎng)絡(luò)爬蟲會從整個網(wǎng)絡(luò)中抓取相關(guān)的文件信息。然后將信息分發(fā)到Google全球配置了GFS的網(wǎng)絡(luò)服務(wù)器中。而MapReduce負責(zé)在服務(wù)器協(xié)調(diào)數(shù)據(jù)處理的任務(wù),以便可以將處理好的所有數(shù)據(jù)分配到人們實際搜索的頁面索引中。在Google剛剛推出搜索引擎時,MapReduce每個月都會建立新的索引。后來,Google改善了系統(tǒng),并逐步減少re-crunch索引所需的時間。但當需求達到新的高度時,就需要動態(tài)的方式來更新索引。于是Google進入了Caffeine時代。

Goolge的技術(shù)使得系統(tǒng)可以很快的抓取頁面并添加到索引之中。在過去,因為在每次更新索引要分析整個Web,這導(dǎo)致Google需要處理大量的索引頁(數(shù)十億的文檔)。但自從Google采用Caffeine后,Google只需從Web中分析其中的一小部分,所以Google可以持續(xù)不斷的更新索引。

在本質(zhì)上Caffeine丟棄MapReduce轉(zhuǎn)而將索引放置在由Google開發(fā)的分布式數(shù)據(jù)庫BigTable上。作為Google繼GFS和MapReduce兩項創(chuàng)新后的又一項創(chuàng)新,其在設(shè)計用來針對海量數(shù)據(jù)處理情形下的管理結(jié)構(gòu)型數(shù)據(jù)方面具有巨大的優(yōu)勢。這種海量數(shù)據(jù)可以定義為在云計算平臺中數(shù)千臺普通服務(wù)器上PB級的數(shù)據(jù)。Bigtable的出現(xiàn)也徹底改變了Google的索引機制。Google正在構(gòu)建新版本的GFS,其被稱為GFS2,但在Google內(nèi)部GFS2被稱為Colossus。

Hortonworks CEO Baldeschwieler認為Google將Caffeine用于搜索中是非常令人信服的創(chuàng)意。當Baldeschwieler還在Yahoo工作時,公司曾考慮過這樣的平臺,但因為昂貴的成本最終決心走Hadoop路線。

Microsoft的Harry Shum表示相對于Google Caffeine,Microsoft選擇了不同的道路和發(fā)展方向。雖然他并沒有透露過多的細節(jié),但Harry Shum表示Microsoft目前基于Cosmos平臺是更多并行的數(shù)據(jù)庫。

Dryad在微軟軟體系結(jié)構(gòu)中的位置

去年,微軟曾公布了建立與Cosmos之上的Dryad框架,這個類似MapReduce的框架一直驅(qū)動著Bing。但目前無法得知Dryad在Bing搜索引擎中占據(jù)怎樣的角色。其實Dryad也并非微軟的新產(chǎn)品,Dryad和DryadLINQ早在微軟收購Powerset之前就已經(jīng)存在。微軟于2007年首度揭曉了關(guān)于技術(shù)的研究成果,并于2009年向?qū)W術(shù)界推出了非商業(yè)版Dryad和DryadLINQ。但與MapReduce不同的是,Dryad是針對運行Windows HPC Server的集群計算設(shè)計的,而非Linux。

Mike Olsen表示Dryad在許多方面都優(yōu)于Hadoop,Dryad是經(jīng)過精心設(shè)計的。但Microsoft已經(jīng)在去年決定Hortonworks合作提供Windows平臺之上的Hadoop,目前還不清楚Microsoft是否還會繼續(xù)研究Dryad。然而Harry Shum表示Microsoft將繼續(xù)經(jīng)營Cosmos以及其周邊的平臺和基礎(chǔ)設(shè)施項目。

Hortonworks CEO Eric Baldeschwieler表示不會使用Cosmos和其他的Microsoft搜索平臺的基礎(chǔ)設(shè)施工具。在大多數(shù)情況下,那些技術(shù)僅用于Microsoft內(nèi)部。同時Baldeschwieler也證實了Cosmos和Dryad確實類似GFS和MapReduce,但他表示他并不了解Cosmos上并行數(shù)據(jù)庫的訊息。

Mike Olsen表示”當MapReduce剛剛出現(xiàn)時,世界領(lǐng)先的數(shù)據(jù)庫設(shè)計人員都對它嗤之以鼻,在數(shù)據(jù)庫領(lǐng)域的所有人(包括我自己)都認為這是一個笑話。但Mike Olsen最終意識到MapReduce不應(yīng)該只是一個數(shù)據(jù)庫,它的目的與眾不同,他們從未打算將它作為數(shù)據(jù)庫使用。大數(shù)據(jù)時代數(shù)據(jù)呈現(xiàn)不同的類型并需要不同的分析方法,而MapReduce正是為了解決這一問題的方案。

對MapReduce的全新認識也改變了Mike Olsen的想法,后來Mike Olsen創(chuàng)建名稱為Cloudera的公司,公司業(yè)務(wù)全部圍繞Hadoop展開。Cloudera提供的服務(wù)不僅提供給網(wǎng)絡(luò)公司,還跨越了眾多的行業(yè)。

Google與Microsoft在搜索領(lǐng)域的游戲還會繼續(xù)下去,雙方都意識到快速的更新索引已經(jīng)變得非常重要。Google與Microsoft都在想一個新的方向發(fā)展(分布式數(shù)據(jù)庫)。存儲數(shù)據(jù)的設(shè)備分布在全球的服務(wù)器之中將成為未來趨勢,但這同時需要更有效的組織方式。但這絕不是終點,搜索引擎技術(shù)的演進還會繼續(xù)下去。(李智/編譯)

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大數(shù)據(jù)八卦大全(2)|Yahoo風(fēng)飛的豬與沉沒寡言的微軟以及Dryad
Microsoft eyes China's search market
那些必讀的數(shù)據(jù)庫領(lǐng)域論文
大數(shù)據(jù)技術(shù)概覽
Google 官方宣布新的網(wǎng)頁索引系統(tǒng)
Google推新索引技術(shù)Caffeine 搜索結(jié)果提高50%-搜狐IT
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服