国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
馬志明:從佩奇排名到瀏覽排名 數(shù)學(xué)為因特網(wǎng)建立秩序

[轉(zhuǎn)載] 馬志明:從佩奇排名到瀏覽排名 數(shù)學(xué)為因特網(wǎng)建立秩序

從谷歌的“佩奇排名”到最新提出的“瀏覽排名”,中國(guó)科學(xué)院院士馬志明講述了數(shù)學(xué)為網(wǎng)絡(luò)建立新秩序的真實(shí)故事



5月16日上午,中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)院公眾科學(xué)日院士論壇現(xiàn)場(chǎng),中國(guó)數(shù)學(xué)會(huì)理事長(zhǎng)、中國(guó)科學(xué)院院士馬志明發(fā)表了演講。

大屏幕上出現(xiàn)了谷歌的網(wǎng)頁(yè),搜索框中的關(guān)鍵詞是:數(shù)學(xué)與系統(tǒng)科學(xué)院。在排列著含有這個(gè)關(guān)鍵詞的各種網(wǎng)頁(yè)中,中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院的網(wǎng)頁(yè)位居第一……

在搜索框下,馬志明用紅筆圈了兩句話:一句是“約有1860000項(xiàng)符合……的查詢結(jié)果”,另一句是“搜索時(shí)間0.2秒”。然后他問聽眾:“我們每天都在上網(wǎng),但什么是互聯(lián)網(wǎng)信息檢索呢?大家看,這里的關(guān)鍵詞是‘?dāng)?shù)學(xué)與系統(tǒng)科學(xué)院’,谷歌只用0.2秒就查出186萬(wàn)多項(xiàng)相關(guān)網(wǎng)頁(yè)。我的問題是:如果將這186萬(wàn)項(xiàng)信息平鋪在你面前,你會(huì)得到什么信息呢?”

短暫的停頓后,他自己回答:“你什么都得不到,但對(duì)這些網(wǎng)頁(yè)進(jìn)行排序后,你知道了什么是最重要的或人們最感興趣的網(wǎng)頁(yè)。那么,計(jì)算機(jī)如何在0.2秒的時(shí)間里就查出這些網(wǎng)頁(yè)并將它們按序列排出來(lái),而且排得這么好呢?”

用這樣的開場(chǎng)白,馬志明牽出了自己的演講題目——數(shù)學(xué)在互聯(lián)網(wǎng)信息檢索中的應(yīng)用。

“希望能給大家講懂?!瘪R志明說。

在整個(gè)演講中,從谷歌的“佩奇排名”到最新提出的“瀏覽排名”概念,馬志明向聽眾講述了十多年間數(shù)學(xué)為網(wǎng)絡(luò)建立新秩序的真實(shí)故事。

數(shù)學(xué)博士生和計(jì)算機(jī)教授

世界上第一個(gè)網(wǎng)站是英國(guó)計(jì)算機(jī)專家蒂姆·伯納斯-李于1991年8月6日創(chuàng)立的,它解釋互聯(lián)網(wǎng)是什么,如何使用網(wǎng)頁(yè)瀏覽器和如何建立一個(gè)網(wǎng)頁(yè)服務(wù)器。

到1995年,網(wǎng)絡(luò)文件總數(shù)據(jù)估計(jì)已達(dá)1000萬(wàn)張,但對(duì)互聯(lián)網(wǎng)上網(wǎng)頁(yè)的排名,人們幾乎沒有什么辦法?!爱?dāng)時(shí),也有一些搜索引擎公司希望為用戶服務(wù),輸入關(guān)鍵詞后,就會(huì)有相關(guān)網(wǎng)頁(yè)排出來(lái)。但是,人們的做法是將頁(yè)面讀懂,再根據(jù)頁(yè)面內(nèi)容來(lái)決定它的重要性和排序?!瘪R志明說。

“但大家想想,這么多的頁(yè)面,怎么能在很短的時(shí)間內(nèi)讀出來(lái)呢?而且,頁(yè)面的內(nèi)容重要還是不重要,也是見仁見智的事,沒有統(tǒng)一標(biāo)準(zhǔn)。所以在那段時(shí)期,這個(gè)問題很混亂,不知道該怎么辦,直至1998‘鏈接分析法’的出現(xiàn)。其中,最著名的算法就是佩奇排名和HITS算法,才革命性地改變了網(wǎng)絡(luò)世界。”

實(shí)際上,網(wǎng)絡(luò)研究的學(xué)術(shù)革命開始于1995年。這一年春天,在斯坦福大學(xué)校園,計(jì)算機(jī)科學(xué)院的新博士生拉里·佩奇遇見了博士二年級(jí)的謝爾蓋·布林。

佩奇大學(xué)畢業(yè)于密歇根大學(xué)安娜堡分校,他的父親是密歇根州立大學(xué)的計(jì)算機(jī)專業(yè)教授。

佩奇從父親那里了解到,博士論文可以成為一個(gè)人學(xué)術(shù)生涯的基礎(chǔ)。在斯坦福大學(xué)的第一年,他選擇用戶界面研究先驅(qū)特里·威諾格做他的導(dǎo)師,開始尋找一個(gè)有研究?jī)r(jià)值的博士論文題目。

最初,佩奇只是因網(wǎng)絡(luò)的數(shù)學(xué)特征而對(duì)網(wǎng)絡(luò)產(chǎn)生了興趣。他發(fā)現(xiàn)每臺(tái)計(jì)算機(jī)都是一個(gè)節(jié)點(diǎn),網(wǎng)頁(yè)上的每一條鏈接就是這些節(jié)點(diǎn)間的聯(lián)系,這樣就構(gòu)成了一個(gè)經(jīng)典的圖結(jié)構(gòu)。“計(jì)算機(jī)科學(xué)家最喜歡圖”,他認(rèn)為互聯(lián)網(wǎng)很可能是有史以來(lái)人類創(chuàng)造出的最大的圖,這張圖的節(jié)點(diǎn)中隱藏著很多啟示,他決定探索互聯(lián)網(wǎng)中的數(shù)學(xué)特征。而導(dǎo)師威諾格鼓勵(lì)他這樣做。

佩奇后來(lái)回憶說:“這是我得到的最好的建議。”

佩奇開始思索網(wǎng)絡(luò)中鏈接結(jié)構(gòu)的奧妙,他發(fā)現(xiàn)盡管跟著鏈接可以從一張網(wǎng)頁(yè)轉(zhuǎn)到另一張網(wǎng)頁(yè),但沿著這些鏈接往回走就不行了。他想找到一種方法,可以讓各個(gè)網(wǎng)頁(yè)能輕松找出并說明指向它們的鏈接。

美國(guó)文獻(xiàn)引用分析之父加菲爾德的學(xué)術(shù)思想給了他啟發(fā)。

加菲爾德認(rèn)為,發(fā)表論文是研究人員最重要的工作之一,基本上每篇論文的結(jié)論都建立在謹(jǐn)慎構(gòu)建的引文基礎(chǔ)上,而每篇新論文也可能成為新的文獻(xiàn)被他人引用,因此,文獻(xiàn)的引用和被引用體現(xiàn)了學(xué)術(shù)發(fā)展的邏輯性結(jié)構(gòu);一篇論文的重要性可以根據(jù)有多少篇論文通過引用而同它建立聯(lián)系來(lái)確定,這個(gè)體系為已出版的論文提供了一種等級(jí)評(píng)定的方法。

正是基于這種引用和被引用的思想,蒂姆·伯納斯-李在計(jì)算機(jī)上通過技術(shù)和超文本鏈接發(fā)明了萬(wàn)維網(wǎng)。佩奇則發(fā)現(xiàn),鏈接就是萬(wàn)維網(wǎng)上的引用和被引用,整個(gè)網(wǎng)絡(luò)就是由引用和注評(píng)構(gòu)成的松散體系,而早期的網(wǎng)絡(luò)超鏈接文本有一個(gè)缺陷:不能反向追蹤鏈接。佩奇想,如果能找到一種方法來(lái)計(jì)算反向鏈接的數(shù)量并衡量它的質(zhì)量,那么,“網(wǎng)絡(luò)就會(huì)成為一個(gè)更有價(jià)值的地方”。

佩奇將自己的研究項(xiàng)目命名為“反向鏈接”(BackRub),這個(gè)項(xiàng)目的宗旨是追蹤并發(fā)現(xiàn)網(wǎng)絡(luò)中的鏈接,存儲(chǔ)它們并進(jìn)行分析,然后在網(wǎng)絡(luò)上重新發(fā)布它們。佩奇估計(jì),當(dāng)時(shí)網(wǎng)絡(luò)文件的數(shù)量大約為10000萬(wàn)張,而它們的鏈接數(shù)量則可能達(dá)1億。這個(gè)項(xiàng)目的復(fù)雜性和規(guī)模吸引了還在確定論文選題的布林,于是他加入這個(gè)項(xiàng)目,從此,兩人開始合作。

在完成網(wǎng)絡(luò)搜索并存儲(chǔ)了鏈接圖之后,還需要找到評(píng)定等級(jí)的方法。這時(shí),佩奇發(fā)現(xiàn),對(duì)所有指向某網(wǎng)頁(yè)的鏈接數(shù)量的計(jì)算對(duì)于確定該網(wǎng)頁(yè)的等級(jí)具有指導(dǎo)意義,這種方法帶來(lái)了新的挑戰(zhàn)——困難而復(fù)雜的遞歸性數(shù)學(xué)運(yùn)算。布林的數(shù)學(xué)天賦提供了幫助。他們發(fā)明了一種新算法,基于重要的來(lái)源鏈接來(lái)評(píng)價(jià)網(wǎng)頁(yè)的重要性,這種算法以佩奇的姓(Page)命名,因此叫佩奇排名(PageRank)。

當(dāng)佩奇和布林在斯坦福的校園埋頭研究網(wǎng)頁(yè)排名的算法時(shí),在IBM位于圣何塞市的阿爾馬登研究中心,來(lái)自康奈爾大學(xué)的計(jì)算機(jī)教授喬恩·克萊因伯格正在這里做訪問科學(xué)家,他也在研究網(wǎng)絡(luò)評(píng)級(jí)方法,他提出了中心網(wǎng)頁(yè)和權(quán)威網(wǎng)頁(yè)的評(píng)級(jí)系統(tǒng),并完成了創(chuàng)造性著作《權(quán)威性來(lái)源》的草稿。

1998年革命性的論文

一本記錄谷歌公司成長(zhǎng)的書《搜》中,作者約翰·巴利特說,“PageRank促成谷歌建立神秘技術(shù)配方……盡管當(dāng)時(shí)佩奇和布林還不知道,但他們?cè)缙诘脑u(píng)級(jí)系統(tǒng)為一個(gè)全新網(wǎng)絡(luò)生態(tài)環(huán)境的形成開辟了道路。”

在佩奇和布林發(fā)明了PageRank算法后,他們編寫了一個(gè)PageRank搜索工具,然后用PageRank來(lái)為結(jié)果的相關(guān)性排序。他們發(fā)現(xiàn),網(wǎng)絡(luò)越大,鏈接越多,這個(gè)引擎提供的結(jié)果就越準(zhǔn)確,于是,他們將新引擎命名為Google,這是Googol的變體,Googol是一個(gè)數(shù)字名詞,表示10的100次方。1996年8月,他們?cè)谒固垢5木W(wǎng)站上發(fā)布了第一個(gè)Google版本。

1997年夏天,克萊因伯格在斯坦福會(huì)見了佩奇,交換了關(guān)于搜索的觀點(diǎn)和各自的工作,克萊因伯格鼓勵(lì)佩奇發(fā)表一篇關(guān)于PageRank的論文,但佩奇“擔(dān)心有人竊取他的思想”,因此對(duì)發(fā)表論文的態(tài)度很謹(jǐn)慎。最后,學(xué)術(shù)名聲戰(zhàn)勝了產(chǎn)權(quán)保護(hù)的沖擊,雙方同意在彼此的論文中相互引用。

克萊因伯格的論文《超鏈接環(huán)境下權(quán)威來(lái)源》發(fā)表在1998年出版的《第九屆ACM-SIAM離散算法會(huì)刊》上。他在這篇文章中提出的中心網(wǎng)頁(yè)和權(quán)威網(wǎng)頁(yè)的評(píng)價(jià)系統(tǒng),被巴利特評(píng)價(jià)為“最著名的網(wǎng)絡(luò)評(píng)級(jí)方式”。巴利特說,“在學(xué)術(shù)性網(wǎng)絡(luò)研究這個(gè)自成一體的世界里,這篇文章的影響僅次于佩奇和布林介紹谷歌的論文?!?br>
1998年初,佩奇將他的第一篇論文,也就是對(duì)PageRank算法的總結(jié)介紹,提交給美國(guó)計(jì)算機(jī)學(xué)會(huì)(ACM)信息提取特別興趣組,但論文被拒絕了。一位評(píng)審專家的意見是:“論文的整體結(jié)構(gòu)缺乏連貫性……文章應(yīng)側(cè)重于信息的提取而不是網(wǎng)絡(luò)分析。”佩奇堅(jiān)持投稿,最后,這篇論文作為斯坦福大學(xué)數(shù)字圖書館項(xiàng)目的一部分被發(fā)表了。

不久后,佩奇和布林聯(lián)合發(fā)表了一篇關(guān)于谷歌的論文——《大規(guī)模超文本網(wǎng)絡(luò)搜索引擎剖析》,如今,這篇論文已經(jīng)成為目前世界上被引用最廣泛的搜索類文獻(xiàn)。

1998年底,佩奇和布林決定要開辦一家公司,當(dāng)?shù)谝晃煌顿Y人準(zhǔn)備為他們開支票時(shí),兩人還沒有想好公司的名字,這位投資人建議他們就用這項(xiàng)搜索服務(wù)的名字Google,兩人同意了。幾分鐘后,他們得到了一張10萬(wàn)美元的支票。

2001年9月,PageRank被授予美國(guó)專利,專利被正式頒發(fā)給斯坦福大學(xué),佩奇作為發(fā)明人列于文件中;2006年,國(guó)際數(shù)學(xué)聯(lián)盟將“奈望林納獎(jiǎng)”授予克萊因伯格,以表彰他在計(jì)算機(jī)科學(xué)的數(shù)學(xué)方面的杰出貢獻(xiàn)。

馬志明說,1998年后,信息檢索領(lǐng)域出現(xiàn)了“鏈接分析法”,PageRank和HITS是其中最著名的算法,實(shí)際上,這兩個(gè)算法就是用數(shù)學(xué)原理在對(duì)網(wǎng)頁(yè)進(jìn)行排序。他說:“一個(gè)看似很困難的實(shí)際問題,用一個(gè)巧妙的數(shù)學(xué)方法就解決了,所以,數(shù)學(xué)的用處有時(shí)真是不可估量?!?br>
讓用戶為頁(yè)面重要性投票

馬志明指出了PageRank在網(wǎng)頁(yè)排序中的局限性。

“從1998年到現(xiàn)在,PageRank經(jīng)過11年運(yùn)轉(zhuǎn),取得了巨大成功,同時(shí)它的缺點(diǎn)也暴露出來(lái)了。因?yàn)樗鼘?duì)網(wǎng)頁(yè)的排序是靜態(tài)的,只考慮頁(yè)面在整個(gè)互聯(lián)網(wǎng)中的拓?fù)浣Y(jié)構(gòu),所以,有人可以作弊,通過多做一些超級(jí)鏈接來(lái)顯示頁(yè)面的重要性,因此有這樣的公司,自己搞個(gè)服務(wù)器,讓許多頁(yè)面互相鏈接,如果對(duì)方給錢,公司就將你的頁(yè)面鏈接上去,從而惡意提高頁(yè)面排序。誰(shuí)能控制超級(jí)鏈,誰(shuí)就能控制頁(yè)面的重要性。但這不符合實(shí)際情況?!?br>
“實(shí)際情況是,我們?cè)谏暇W(wǎng)時(shí)會(huì)有自己的感情,當(dāng)我們觀察一個(gè)頁(yè)面時(shí),如果這個(gè)頁(yè)面重要,我們會(huì)靜下心來(lái)仔細(xì)閱讀它;如果這個(gè)頁(yè)面不重要,我們很快就會(huì)離開它,所以,用戶才是判斷頁(yè)面重要性真正的標(biāo)準(zhǔn)。但用戶的感情、上網(wǎng)時(shí)間因素在PageRank中是沒有的,這是它的缺點(diǎn),許多搜索引擎公司也都在想辦法克服這個(gè)缺點(diǎn)?!?br>
2008年7月,在新加坡召開的第31屆國(guó)際信息檢索大會(huì)上,一位年輕人報(bào)告了他們的論文——《瀏覽排序:讓因特網(wǎng)用戶為頁(yè)面重要性投票》,論文獲得了會(huì)議設(shè)立的唯一最佳學(xué)生論文獎(jiǎng)。

這位年輕人就是馬志明的博士生劉玉婷,那時(shí)她正在微軟亞洲研究院做實(shí)習(xí)生。

論文的基本思想是,利用大量用戶訪問網(wǎng)頁(yè)的信息來(lái)估計(jì)網(wǎng)頁(yè)的重要性。每個(gè)搜索引擎公司都有大量的不含隱私的用戶上網(wǎng)記錄?!安煌娜藢?duì)于用戶上網(wǎng)記錄有不同的解讀”,馬志明說。

據(jù)馬志明介紹,他本人是研究隨機(jī)過程的,他從用戶上網(wǎng)記錄中看到了一個(gè)真實(shí)的過程。這個(gè)過程是一個(gè)隨機(jī)過程,可以稱為瀏覽過程(Browsing Process)。這個(gè)過程在不同的網(wǎng)頁(yè)之間跳來(lái)跳去,從數(shù)學(xué)上可以將其歸類為跳過程,或者隨機(jī)點(diǎn)過程(把網(wǎng)頁(yè)看作點(diǎn))。數(shù)學(xué)家對(duì)于隨機(jī)點(diǎn)過程有許多研究,已經(jīng)有豐富的研究成果。

馬志明分析:當(dāng)用戶瀏覽一個(gè)網(wǎng)頁(yè)時(shí),他下一步跳轉(zhuǎn)到哪一個(gè)網(wǎng)頁(yè),停留多長(zhǎng)時(shí)間跳轉(zhuǎn),大概只依賴于當(dāng)前的狀態(tài),而與他瀏覽網(wǎng)頁(yè)的過去歷史無(wú)關(guān)。因此從數(shù)學(xué)上,這應(yīng)該是一個(gè)馬氏過程(給定現(xiàn)在,將來(lái)與過去無(wú)關(guān))。

再有,用戶在一個(gè)網(wǎng)頁(yè)的停留時(shí)間,以及他下一步跳轉(zhuǎn)到哪一個(gè)網(wǎng)頁(yè),都只與他正在瀏覽的網(wǎng)頁(yè)內(nèi)容以及網(wǎng)頁(yè)的超級(jí)鏈接有關(guān),大概與他在什么時(shí)間點(diǎn)(8點(diǎn)或9點(diǎn),上午或下午)瀏覽此網(wǎng)頁(yè)無(wú)關(guān)。因此,這個(gè)馬氏過程應(yīng)該是時(shí)間可推移的,或者說是時(shí)間齊次的。再加上瀏覽過程的狀態(tài)是有限的(網(wǎng)頁(yè)的總數(shù)是有限),因此,瀏覽過程很可能是一個(gè)有限狀態(tài)時(shí)間齊次馬氏過程,即Q過程。

對(duì)于中國(guó)的概率學(xué)家而言,Q過程是一個(gè)熟悉的數(shù)學(xué)對(duì)象,中國(guó)學(xué)者在這個(gè)方向有世界領(lǐng)先的研究成果。當(dāng)然,實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),瀏覽過程是否時(shí)間齊次馬氏過程,還需要用實(shí)際數(shù)據(jù)作統(tǒng)計(jì)檢驗(yàn)。一個(gè)可行的檢驗(yàn)方法,是驗(yàn)證用戶在網(wǎng)頁(yè)上的停留時(shí)間是否服從負(fù)指數(shù)分布。因?yàn)楦鶕?jù)數(shù)學(xué)理論,Q過程在每個(gè)狀態(tài)的停留時(shí)間必然服從負(fù)指數(shù)分布。

由劉玉婷設(shè)計(jì)算法,微軟亞洲研究院的相關(guān)研究組用真實(shí)數(shù)據(jù)作了大量實(shí)驗(yàn)?zāi)M,發(fā)現(xiàn)用戶在網(wǎng)頁(yè)的停留時(shí)間基本服從負(fù)指數(shù)分布。通過反復(fù)論證,確信隨機(jī)過程中的Q過程理論可以很好地對(duì)這個(gè)問題進(jìn)行建模。Q過程的平穩(wěn)分布,也就是在時(shí)間趨于無(wú)窮時(shí)的極限分布,在理論上正好是用戶在某頁(yè)面平均停留時(shí)間與再次回訪此頁(yè)面平均間隔時(shí)間之比。網(wǎng)頁(yè)越重要,平均停留時(shí)間就越長(zhǎng),該網(wǎng)頁(yè)的平穩(wěn)分布值就越大;網(wǎng)頁(yè)越重要,再次回訪此網(wǎng)頁(yè)的平均間隔時(shí)間就越短,該網(wǎng)頁(yè)的平穩(wěn)分布值就越大。因此,瀏覽過程的平穩(wěn)分布可以作為衡量網(wǎng)頁(yè)重要性的指標(biāo)。這個(gè)瀏覽過程的平穩(wěn)分布,就是我們所說的瀏覽排序(Browse Rank)。

當(dāng)然,要設(shè)計(jì)一套可行的算法真正計(jì)算出瀏覽排序,并非易事。微軟亞洲研究院的相關(guān)課題組克服了重重困難,每一步都在課題組內(nèi)反復(fù)論證,深入探討,反復(fù)模擬實(shí)驗(yàn)。這里含有許多奇思構(gòu)想和巧妙的數(shù)學(xué)。微軟亞洲研究院從產(chǎn)品部門調(diào)來(lái)大量數(shù)據(jù),做了大規(guī)模模擬實(shí)驗(yàn)。

據(jù)馬志明介紹,在新加坡獲獎(jiǎng)的這篇論文,從第一版寫出來(lái)以后,在微軟的課題組內(nèi)反復(fù)修改了81次才成為最終稿。

新加坡會(huì)議后,“瀏覽排序”成了業(yè)內(nèi)熱門話題,在互聯(lián)網(wǎng)搜索工業(yè)界引起廣泛關(guān)注和討論。

馬志明強(qiáng)調(diào),“作為一個(gè)數(shù)學(xué)工作者,我認(rèn)為Browsing Process(瀏覽過程)的重要性應(yīng)該不亞于Browse Rank。這是第一個(gè)刻畫真實(shí)的用戶上網(wǎng)行為的數(shù)學(xué)框架。我相信今后人們?cè)谘芯坑脩羯暇W(wǎng)行為時(shí),一定會(huì)想到Browsing Process,應(yīng)用并發(fā)展Browsing Process的理論和實(shí)踐。在這一方向還有許多課題需要進(jìn)一步研究?!?br>
最后,馬志明希望學(xué)生們能把這個(gè)網(wǎng)頁(yè)排序的故事講給自己的親朋好友,讓他們知道“數(shù)學(xué)非常好用”。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
PageRank算法
概率統(tǒng)計(jì)魅力無(wú)限:從Alphago,DNA分析到搜索引擎
Page Rank和它的數(shù)學(xué)模型
數(shù)學(xué)建模:創(chuàng)新之道
從沒人要到身價(jià)百億 聚焦Google的背后[上]
Google的誕生
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服