今天在wired看到了這篇文章,覺(jué)得google的發(fā)家比微軟要有意思,兩個(gè)人也挺有意思的,他們當(dāng)時(shí)肯定沒(méi)有想到今天的風(fēng)光,所以翻譯了一下,推薦一下,好看??!
The Birth of Google ★★★★★
By John Battelle
Larry認(rèn)為Sergey太自大,而Sergey認(rèn)為L(zhǎng)arry太討厭,但是他們又相互被對(duì)方所吸引,這可能預(yù)示著某件偉大的事業(yè)的開(kāi)始。
事情是從一場(chǎng)爭(zhēng)論開(kāi)始的。他們的第一次相遇是在1995年的夏天,那時(shí)Sergey Brin還是斯坦福大學(xué)計(jì)算機(jī)系的二年級(jí)研究生。由于天生喜愛(ài)社交,Brin志愿擔(dān)當(dāng)了未來(lái)的一年級(jí)學(xué)生的校園向?qū)?。這些“未來(lái)”的學(xué)生已經(jīng)被斯坦福錄取,但是他們自己還沒(méi)有決定是否來(lái)這個(gè)學(xué)校讀書(shū)。Brin的任務(wù)就是帶領(lǐng)他們參觀校園并且游覽一下附近的舊金山。Page,他是一個(gè)剛剛從密歇根工程專(zhuān)業(yè)畢業(yè)的學(xué)生,正好就在Brin帶領(lǐng)的那個(gè)小組里。
這次見(jiàn)面絕對(duì)不是所謂的一見(jiàn)鐘情。那天在舊金山的山路上,他們之間的爭(zhēng)論就沒(méi)有停息,爭(zhēng)論的是諸如哪條去城里的路線更好之類(lèi)的話題。“Sergey真是個(gè)愛(ài)交際的家伙;他喜歡與各種人相識(shí)。”Page回憶道,認(rèn)為自己與他相比確實(shí)很沉默寡言。“我認(rèn)為他實(shí)在是太討厭了。他在很多問(wèn)題上都有很強(qiáng)的主見(jiàn),不過(guò),我想我也是這樣的。”
“我們都很討厭對(duì)方,”當(dāng)我告訴他Page的反應(yīng)的時(shí)候,Brin反擊道。“但那只是戲謔的說(shuō)法。我們彼此交談得很多,這能說(shuō)明某些事情。我們都喜歡開(kāi)這種善意的玩笑。”Page和Brin可能發(fā)生過(guò)沖突,有過(guò)爭(zhēng)論,但是毫無(wú)疑問(wèn)的是,他們都彼此相互吸引。@
幾個(gè)月以后Page在斯坦福大學(xué)出現(xiàn)的時(shí)候,他選擇了人機(jī)交互先鋒Terry Winograd作為他的導(dǎo)師。不久他就開(kāi)始尋找他的博士論文題目。Page的爸爸是密歇根大學(xué)的計(jì)算機(jī)科學(xué)的教授。他告訴Page,博士論文是如此的重要,以至于可以決定將來(lái)的學(xué)術(shù)生涯。所以博士論文題目的選擇對(duì)于Page來(lái)說(shuō)是一個(gè)非常重要的決定。在剔除了十個(gè)左右都很有趣的想法之后,最終他發(fā)現(xiàn)真正吸引他的就是正在飛速發(fā)展的互聯(lián)網(wǎng)。
Page一開(kāi)始并沒(méi)有想到要去以一種更好的方法搜索整個(gè)互聯(lián)網(wǎng)。盡管斯坦福的畢業(yè)生都因?yàn)榫W(wǎng)絡(luò)公司而變得越來(lái)越富有,但是網(wǎng)絡(luò)真正吸引Page的還是它的數(shù)學(xué)特性。每個(gè)電腦都是一個(gè)節(jié)點(diǎn),而網(wǎng)頁(yè)上的鏈接是就是節(jié)點(diǎn)的聯(lián)系--這是經(jīng)典的圖(graph)結(jié)構(gòu)。“計(jì)算機(jī)科學(xué)喜愛(ài)圖,”Page告訴我。在Page的理論里,整個(gè)互聯(lián)網(wǎng)就是有史以來(lái)人們創(chuàng)造的最大的圖,并且還在以驚人的速度在繼續(xù)成長(zhǎng)。在這張大圖的頂點(diǎn)上隱藏著許多有用的知識(shí),等待著這個(gè)好奇的研究生去發(fā)現(xiàn)他們。在導(dǎo)師Winograd的同意下,Page開(kāi)始考慮互聯(lián)網(wǎng)的鏈接結(jié)構(gòu)的問(wèn)題。
引用和BackRub
Page的思考是很有成效的。他觀察到一個(gè)事實(shí):從頁(yè)面的一個(gè)鏈接點(diǎn)到另外一個(gè)頁(yè)面確實(shí)是很平常的事情,但是如果找出某個(gè)頁(yè)面被哪些頁(yè)面反向鏈接就不平常了。換種說(shuō)法,當(dāng)你瀏覽一個(gè)頁(yè)面的時(shí)候,你并不知道哪些別的頁(yè)面可以鏈接到這個(gè)你正在瀏覽的頁(yè)面。這個(gè)問(wèn)題讓Page很困擾。他認(rèn)為如果知道頁(yè)面被誰(shuí)反向鏈接的話,將會(huì)是非常有用的。
為什么呢?為了更好的理解這個(gè)問(wèn)題的答案,我們先要首先看看學(xué)術(shù)出版的世界。對(duì)于教授來(lái)說(shuō),尤其是那些搞像化學(xué)和數(shù)學(xué)這種精確科學(xué)(hard science)的教授來(lái)說(shuō),沒(méi)有什么事情比能讓自己的論文發(fā)表更重要了。也許只有一件事情例外,那就是引用。
科學(xué)家們撰寫(xiě)的論文都是基于引用的基礎(chǔ)來(lái)構(gòu)造的:每個(gè)論文都要以先前發(fā)表的論文作為論據(jù),來(lái)支持作者的論點(diǎn),最后得到一個(gè)作者自己的結(jié)論。我們?nèi)绻u(píng)判一個(gè)論文的好壞,也不是看論文本身的思想,而是要參考這篇論文引用的論文的數(shù)量,和反向引用這篇論文的別的論文的數(shù)量,以及每個(gè)引用的重要程度。引用是如此的重要,以至于這個(gè)世界上有一個(gè)專(zhuān)門(mén)研究他們的學(xué)科:文獻(xiàn)計(jì)量學(xué) 。
很好,但是這和互聯(lián)網(wǎng)有什么關(guān)系呢?是的,就是Tim Berners-Lee對(duì)這個(gè)系統(tǒng)的正向的改進(jìn),使得互聯(lián)網(wǎng)誕生了。同樣的,由于Larry Page和Sergey Brin對(duì)Berners-Lee的互聯(lián)網(wǎng)的反向改進(jìn),使得google誕生了。講這些努力串連起來(lái)的那個(gè)繩索就是引用--指向別人的研究成果以便得到你自己的研究成果的行為。
Page的第一個(gè)關(guān)于反向鏈接的研究是一個(gè)叫BackRub的工程。
他推理整個(gè)互聯(lián)網(wǎng)是松散的建立在引用的基礎(chǔ)上的--畢竟,鏈接就是某種意義上的引用吧?如果他可以發(fā)明一種方法找出網(wǎng)絡(luò)上反向鏈接的數(shù)量,并且評(píng)估他們的質(zhì)量,就像Page指出的那樣“網(wǎng)絡(luò)將會(huì)變得更有價(jià)值。”
在Page構(gòu)想他的BackRub工程的時(shí)候,整個(gè)互聯(lián)網(wǎng)由大概一千萬(wàn)個(gè)文件,以及他們之間無(wú)法計(jì)數(shù)的鏈接組成。爬行如此巨大的互聯(lián)網(wǎng)所需要的計(jì)算資源,遠(yuǎn)遠(yuǎn)的超出了一個(gè)學(xué)生項(xiàng)目力所能及的范圍。那時(shí)Page也許并沒(méi)有準(zhǔn)確地意識(shí)到他投身的工作究竟是什么,但是他已經(jīng)開(kāi)始去設(shè)計(jì)他自己的網(wǎng)絡(luò)爬蟲(chóng)。
那個(gè)想法地復(fù)雜度和規(guī)模將Brin吸引到了這個(gè)工程。這個(gè)從未在一個(gè)論文題目上鉆研的博學(xué)者總是從一個(gè)項(xiàng)目跳到另外一個(gè)項(xiàng)目,他發(fā)現(xiàn)這個(gè)BackRub工程背后的假定十分的有趣。“我和學(xué)校中的許多的研究小組都有過(guò)接觸”Brin回憶到,“但是這個(gè)卻是最激動(dòng)人心的項(xiàng)目,因?yàn)樗芯苛司W(wǎng)絡(luò)--象征人類(lèi)知識(shí)的網(wǎng)絡(luò),還有一個(gè)原因就是我喜歡Larry。”
大膽的評(píng)估
在1996年的三月,Page將他的網(wǎng)絡(luò)爬蟲(chóng)指向了他在斯坦福的個(gè)人主頁(yè),并且放開(kāi)了這只爬蟲(chóng)的韁繩。于是它從那個(gè)頁(yè)面開(kāi)始了在整個(gè)互聯(lián)網(wǎng)上的旅行。
爬行整個(gè)網(wǎng)絡(luò),發(fā)現(xiàn)全部的鏈接是這個(gè)工程的主要工作,但是簡(jiǎn)單的爬行并不是BackRub真正創(chuàng)新的地方。Page對(duì)學(xué)術(shù)出版物的的排行有一種天生的敏銳。他指出網(wǎng)絡(luò)的圖結(jié)構(gòu)不僅僅是要發(fā)現(xiàn)誰(shuí)鏈接到了誰(shuí),并且是要評(píng)估鏈接過(guò)去的“誰(shuí)”的重要性。這個(gè)重要性的評(píng)估是基于這個(gè)做這個(gè)鏈接的站點(diǎn)的各種不同的屬性的。他發(fā)現(xiàn)每個(gè)鏈接需要他們自己的評(píng)估和排行。他從引用分析中看到,鏈接到這個(gè)頁(yè)面的鏈接的數(shù)量會(huì)是這個(gè)頁(yè)面評(píng)估的一個(gè)有用的標(biāo)準(zhǔn)。但是這種方法會(huì)有一個(gè)機(jī)器困難的數(shù)學(xué)上的挑戰(zhàn)--你不僅僅要計(jì)算一個(gè)單獨(dú)的頁(yè)面的鏈接,還需要去計(jì)算從別處鏈接到這個(gè)鏈接的鏈接。這樣的話,工作就會(huì)變得十分的困難。
幸運(yùn)的是,Page現(xiàn)在和數(shù)學(xué)天才Brin一起工作。Brin出生在俄羅斯,他的爸爸是NASA的科學(xué)家,并且是馬里蘭大學(xué)的數(shù)學(xué)教授。他在六歲的時(shí)候就和全家一起移民到了美國(guó)。在他上中學(xué)之前,他的數(shù)學(xué)天分就被人發(fā)現(xiàn)了。高中還剩下一年,他就直接進(jìn)入了馬里蘭大學(xué)。當(dāng)他畢業(yè)的時(shí)候,立即就被斯坦福大學(xué)招入。而他的天才可以讓他在那里輕松地混日子。他告訴我,天氣真是好,他上的課程都是那些非學(xué)術(shù)性的課程--帆船,游泳,潛水。他將他的智力能量主要花在有趣的項(xiàng)目上而不是實(shí)際的課程工作上。
Page和Brin一起創(chuàng)立了一個(gè)評(píng)估的系統(tǒng)。這個(gè)系統(tǒng)獎(jiǎng)勵(lì)那些來(lái)自重要源頭的鏈接,并且懲罰那些不是來(lái)自重要源頭的鏈接。例如,許多站點(diǎn)都有IBM.com的鏈接。這些鏈接范圍從技術(shù)工業(yè)領(lǐng)域的商業(yè)伙伴,到伊利諾州郊區(qū)剛剛得到了ThinkPad作為圣誕禮物的小孩。從一個(gè)觀察者的角度,商業(yè)伙伴鏈接的重要性要大一些。但是一個(gè)算法要怎么樣才能理解這個(gè)事實(shí)呢。
Page和Brin的突破之處就是創(chuàng)造了一種叫做PageRank的算法。這種算法會(huì)考慮鏈接到某個(gè)站點(diǎn)的鏈接,并且同時(shí)會(huì)考慮那些反向鏈接所在的站點(diǎn)--也就是也考察鏈接到那些站點(diǎn)的鏈接。這其實(shí)就是學(xué)術(shù)引用計(jì)數(shù)的一個(gè)翻版。這種算法成功了。在上面的例子中,我們假設(shè)只有很少的站點(diǎn)鏈接到了找個(gè)小孩的站點(diǎn)。讓我們?cè)俅渭僭O(shè),鏈接到這個(gè)小孩的站點(diǎn)同樣也只得到了很少的外部鏈接。但是相對(duì)的,平均會(huì)有數(shù)千個(gè)鏈接會(huì)連向Intel,或者類(lèi)似Intel的站點(diǎn)。PageRank就會(huì)認(rèn)為小孩的鏈接沒(méi)有Intel的鏈接那么重要,至少是對(duì)IBM來(lái)說(shuō)。
這僅僅是一個(gè)過(guò)于簡(jiǎn)化的例子,事實(shí)上,Page和Brin需要去改正任何數(shù)學(xué)上的死胡同難題。但是不管怎么樣,他們做到了這樣:受歡迎的站點(diǎn)會(huì)在他們注釋列表的頂端,而不那么受歡迎的將會(huì)沉到底部。
當(dāng)他們拿著這些結(jié)果瞎玩的時(shí)候,他們發(fā)現(xiàn)他們的數(shù)據(jù)可能會(huì)在互聯(lián)網(wǎng)的搜索上有所應(yīng)用。事實(shí)上,這個(gè)將BackRub的排列好的頁(yè)面結(jié)果用于搜索的想法是如此的自然,甚至在他們發(fā)現(xiàn)這一點(diǎn)之前就是這樣了。BackRub已經(jīng)像一個(gè)搜索引擎那樣的工作,你給它一個(gè)URL,它就會(huì)給你一個(gè)按重要性排列的反向鏈接的列表。“我們意識(shí)到我們擁有了一個(gè)查詢(xún)的好工具,”Page回憶道,“它會(huì)給你一個(gè)總體上的頁(yè)面排名,并且會(huì)按順序排列它們。”
Page和Brin發(fā)現(xiàn)他們的BackRub的搜索結(jié)果要好于那些已經(jīng)存在的搜索引擎,比如說(shuō) AltaVista 和 Excite,這些搜索引擎總是返回不相關(guān)的列表。“他們總是只留意頁(yè)面上的文本,但是忽略了其他的重要的信號(hào),”Page回憶。這個(gè)信號(hào)就是現(xiàn)在為世人所熟知的PageRank。為了測(cè)試它在實(shí)際的搜索應(yīng)用中是否會(huì)工作良好,Brin和Page一起開(kāi)發(fā)出了一個(gè)BackRub的搜索工具。它只搜索頁(yè)面的標(biāo)題中的文本,并且運(yùn)用PageRank來(lái)將搜索結(jié)果按相關(guān)性排列。僅僅這樣,它的結(jié)果就要比那時(shí)候常用的搜索引擎返回的結(jié)果好上許多。而那些搜索引擎主要是以關(guān)鍵字來(lái)排列搜索結(jié)果。這樣,Page和Brin知道他們已經(jīng)開(kāi)始了某項(xiàng)偉大的事業(yè)。
不僅引擎本身很好,他們還意識(shí)到引擎的規(guī)模會(huì)隨著互聯(lián)網(wǎng)的規(guī)模的擴(kuò)大而擴(kuò)大。因?yàn)镻ageRank是以分析鏈接來(lái)工作的,網(wǎng)絡(luò)越大,引擎就會(huì)越好。這個(gè)事實(shí)使得引擎的發(fā)明者講引擎命名為google。其實(shí)最早是googol,就是1后面跟了100個(gè)零的那個(gè)數(shù)字。他們?cè)谙嘤龅囊荒曛螅谒固垢5木W(wǎng)站上發(fā)布了google的第一個(gè)版本。
Google讓斯坦福的一小部分知情者眼前一亮。被激勵(lì)的Page和Brin開(kāi)始改進(jìn)他們的服務(wù),加入全文的搜索,并且將越來(lái)越多的頁(yè)面加入到索引中。他們很快的意識(shí)到搜索引擎需要巨大的計(jì)算資源。他們沒(méi)有錢(qián)去買(mǎi)新的電腦,他們到處祈求別人的幫助并且借錢(qián),終于讓Google出世了。他們的努力包括從網(wǎng)絡(luò)實(shí)驗(yàn)室搞到的硬盤(pán),還有系里面閑置的CPU。Page的宿舍成了他們的實(shí)驗(yàn)室,他們像現(xiàn)代電腦版的Frankenstein (英國(guó)女作家 Mary Wollstonecraft Shelley所著小說(shuō)中主人公, 系一生理學(xué)家, 手創(chuàng)一怪物, 但結(jié)果自己被怪物所毀。)那樣用閑置的零件拼起來(lái)服務(wù)器,并且將它連到斯坦福的寬帶校園網(wǎng)上。在將Page的宿舍填滿之后,他們開(kāi)始將Brin的宿舍變成一件辦公室和編程中心。
在計(jì)算機(jī)系和校園網(wǎng)管理辦公室,他們的項(xiàng)目已經(jīng)成了某種傳奇。那時(shí),BackRub的爬蟲(chóng)幾乎占用了斯坦福大學(xué)整個(gè)網(wǎng)絡(luò)帶寬的一半。你得知道,斯坦福大學(xué)是這個(gè)星球上擁有最棒的校園網(wǎng)的學(xué)校之一。在1998年的秋天,這個(gè)項(xiàng)目幾乎就要?dú)Я苏麄€(gè)斯坦福的網(wǎng)絡(luò)連接。
“我們很幸運(yùn),在斯坦福又很多有遠(yuǎn)見(jiàn)的人,”Page回憶道。“他們并沒(méi)有因?yàn)槲覀冋加眠^(guò)多的網(wǎng)絡(luò)資源而與我們爭(zhēng)吵。”
公司的創(chuàng)立
當(dāng)Brin和Page繼續(xù)他們的BackRub工程和Google應(yīng)用的實(shí)驗(yàn)的時(shí)候,他們?cè)谒固垢5男@內(nèi)和網(wǎng)絡(luò)搜索的學(xué)術(shù)界都引起了注意。
其中一個(gè)聽(tīng)說(shuō)Page和Brin工作的是康乃爾大學(xué)的Jon Kleinberg教授,他當(dāng)時(shí)正San Jose的IBM的Almaden中心在研究文獻(xiàn)計(jì)量學(xué)和搜索技術(shù)。他的hubs-and-authorities 搜索技術(shù)也許是PageRank之后第二著名的搜索技術(shù)。在1997年的夏天,Kleingerg來(lái)到斯坦福并且與Page見(jiàn)面。Kleinberg那時(shí)已經(jīng)完成了他的論文“可信的源”的初稿。Page向他展示了Google的早期版本。Kleingerg鼓勵(lì)Page發(fā)表關(guān)于PageRank的學(xué)術(shù)論文。
Page告訴Kleinberg他對(duì)于發(fā)表論文十分的擔(dān)心。原因?“他十分擔(dān)心別人會(huì)偷走他的想法,Page覺(jué)得PangeRank就是他的秘密配方。”Kleinberg告訴我。(Page和Brin最終還是發(fā)表了論文。)
另一方面,開(kāi)創(chuàng)公司并且運(yùn)營(yíng)畢竟是十分艱辛的事情,他們還沒(méi)有決定是否要去真正的創(chuàng)立自己的公司。Page在斯坦福的第一年,他的父親去世了,Page的朋友回憶當(dāng)時(shí)Page在某種程度上將他的博士學(xué)位看作對(duì)他父親的祭品。同樣生長(zhǎng)在學(xué)術(shù)家庭的Brin也不愿意放棄自己的學(xué)業(yè)。
Brin記得他的導(dǎo)師在和他談話的時(shí)候,告訴他,“試試看吧,如果google成功了,那自然很好。如果沒(méi)有成功,你可以回到我們的研究生院繼續(xù)完成你的學(xué)位的。”他輕聲的笑了起來(lái),然后說(shuō):“我當(dāng)時(shí)說(shuō)道,‘好吧,為什么不呢?我會(huì)試試看的。’”
聯(lián)系客服