無(wú)論是互聯(lián)網(wǎng),還是手機(jī)、電視,現(xiàn)代通信都遵循信息論的規(guī)律,整個(gè)信息論的基礎(chǔ)都是數(shù)學(xué)。搜索引擎、語(yǔ)音識(shí)別、機(jī)器翻譯也都是我們生活中離不開(kāi)的技術(shù),數(shù)學(xué)也是解決這些問(wèn)題的最好工具。在《浪潮之巔》出版后,吳軍將蘊(yùn)含在這些技術(shù)中原本深?yuàn)W難懂的數(shù)學(xué)知識(shí)和背后的故事, 通過(guò)深入淺出的筆端,在《數(shù)學(xué)之美》中向讀者娓娓道來(lái)。
《程序員》:《數(shù)學(xué)之美》集中闡述了對(duì)數(shù)學(xué)和信息處理這些專業(yè)學(xué)科的理解,可否再舉一個(gè)數(shù)學(xué)方法徹底改變了計(jì)算機(jī)領(lǐng)域的例子?
吳軍:在通信編碼方面,有個(gè)稱為Turbo Code的方法。以往電話傳輸語(yǔ)音時(shí)只能使用64Kbps帶寬(PCM標(biāo)準(zhǔn))。如果希望在其基礎(chǔ)之上傳輸數(shù)據(jù),也無(wú)法超越64Kbps的瓶頸,因此通過(guò)調(diào) 制解調(diào)器上網(wǎng)最快只能到56Kbps。而利用Turbo Code則能將電話線擴(kuò)展到很多頻帶。頻帶拓寬以后,再利用它提供的一套編碼方法,能夠?qū)崿F(xiàn)容錯(cuò)、校驗(yàn),保證數(shù)據(jù)平滑地傳輸。我們今天使用的DSL就得益 于這項(xiàng)數(shù)學(xué)編碼技術(shù)。
DSL技術(shù)在20世紀(jì)80年代前后就已經(jīng)被提出,但直到90年代互聯(lián)網(wǎng)興起之后才真正得到普及和推廣。因?yàn)樵诖酥埃?公司內(nèi)部計(jì)算機(jī)往往使用同軸電纜相連,不需要考慮使用電話線傳輸大量數(shù)據(jù)?;ヂ?lián)網(wǎng)興起以后,家庭用戶對(duì)電話線路傳輸數(shù)據(jù)有了迫切需要,為這項(xiàng)技術(shù)的實(shí)踐提供了契機(jī)。Turbo Code還被用于計(jì)算機(jī)內(nèi)部的通信,比如硬盤的控制器,它的應(yīng)用使得硬盤的傳輸率大大提高,這樣通信不會(huì)成為硬盤數(shù)據(jù)讀寫(xiě)的瓶頸。今天的硬盤控制器都用到 了這項(xiàng)技術(shù)。在Turbo Code的解碼中,最重要的算法是BCJR算法,一個(gè)典型的應(yīng)用數(shù)學(xué)的成果。這個(gè)算法,在《數(shù)學(xué)之美》書(shū)中也提及過(guò)。
《程序員》:統(tǒng)計(jì)學(xué)對(duì)提高自然語(yǔ)言處理效率發(fā)揮了重要的作用,是否還有其他一些數(shù)學(xué)知識(shí)對(duì)未來(lái)的計(jì)算機(jī)領(lǐng)域也將發(fā)揮重要的作用,值得程序員關(guān)注?
吳軍:云計(jì)算興起以后,大數(shù)據(jù)處理日益重要。大數(shù)據(jù)處理在很大程度上依賴于機(jī)器學(xué)習(xí),因?yàn)閷?duì)數(shù)據(jù)進(jìn)行挖掘不可能由人完成。機(jī)器學(xué)習(xí)對(duì)各種數(shù)學(xué)工具的需求非常 多。過(guò)去一些數(shù)學(xué)工具我們沒(méi)有看到特別的用處,比如線性代數(shù),但今天很多分析都仰仗于此。比如PageRank、社交網(wǎng)絡(luò)關(guān)系鏈分析都基于線性代數(shù)。
從前我們講到機(jī)器智能,往往是針對(duì)一個(gè)小問(wèn)題、小專家系統(tǒng),這已經(jīng)是公認(rèn)的很難繼續(xù)發(fā)展的領(lǐng)域了。然而在有了大數(shù)據(jù)之后,機(jī)器智能的問(wèn)題被集中到了如何最快 地從大量的、看似沒(méi)有太多聯(lián)系的數(shù)據(jù)中獲取知識(shí),這不僅是當(dāng)今的熱門話題,也是一個(gè)很有意義的事情。在這個(gè)過(guò)程中,以往研究人員覺(jué)得派不上大用場(chǎng)的數(shù)學(xué)工 具又開(kāi)始重新發(fā)揮重要作用。另外,最大熵模型中最優(yōu)化理論的很多基礎(chǔ)也是以往大家所忽視的,其中泛函分析就是一個(gè)比較純粹的數(shù)學(xué)理論,但如今它也有很多實(shí) 際應(yīng)用。
《程序員》:對(duì)于大學(xué)生,以及工作后的程序員,如果他們希望進(jìn)一步學(xué)習(xí)數(shù)學(xué)和算法的知識(shí),你有哪些建議?
吳軍:對(duì)于已經(jīng)工作的人,在知道某個(gè)好方法之后,還要在做事的過(guò)程中有意識(shí)地使用這些好方法,這一點(diǎn)非常重要。
以 中文分析為例,通常我們遇到的問(wèn)題,可以使用常規(guī)語(yǔ)言模型得到比較好地解決,但某些特殊情況,比如詩(shī)詞就涉及很多特定分詞,而無(wú)法通過(guò)常規(guī)語(yǔ)言模型處理。 此時(shí)有兩個(gè)辦法:可以通過(guò)編寫(xiě)一些特別的規(guī)則拼湊——這樣寫(xiě)出的程序必然混亂;但假如你相信這樣的問(wèn)題不只會(huì)出現(xiàn)一次,也可以為此建立一個(gè)特定的語(yǔ)言模 型,并結(jié)合常規(guī)模型一起解決。編程過(guò)程中涉及數(shù)學(xué)的情況非常多,關(guān)鍵看你用不用它——是相信存在一個(gè)數(shù)學(xué)模型能夠解決,還是只圖省事將問(wèn)題繞過(guò)去,差別很 大。
對(duì)于在校生,建議多在實(shí)驗(yàn)室參與項(xiàng)目實(shí)踐,畢業(yè)以后在實(shí)驗(yàn)室之外也繼續(xù)實(shí)踐。我覺(jué)得國(guó)內(nèi)學(xué)生學(xué)習(xí)課程時(shí),課程設(shè)計(jì)做得太少,很多計(jì)算機(jī) 系課程的編程量,可能連美國(guó)同類課程的1/10都不到。此外,如果閱讀與數(shù)學(xué)相關(guān)的工程書(shū)籍,我建議選擇從國(guó)外引進(jìn)的譯作,系統(tǒng)性和嚴(yán)謹(jǐn)性都好些。關(guān)于具 體選擇哪本,還需要看是解決哪個(gè)領(lǐng)域的問(wèn)題。
關(guān)于算法,一直有“道”和“術(shù)”的說(shuō)法,大部分專業(yè)書(shū)籍介紹的往往是具體算法,屬于“術(shù)”的范疇,讀者在閱讀之后并不容易舉一反三。與此類似,如果僅是了解一個(gè)數(shù)學(xué)工具或?qū)W會(huì)解決一個(gè)問(wèn)題,也存在這樣的弊端。我希望讀者在閱讀書(shū)籍之后能夠進(jìn)一步做 深入的思考,真正掌握算法的精髓,在遇到需要使用的場(chǎng)合,才可能做到自如運(yùn)用,這樣才算從本質(zhì)層面真正學(xué)會(huì)。否則就算了解再多算法,問(wèn)題稍微變化,就會(huì)覺(jué) 得無(wú)所適從。
《程序員》:在你的學(xué)習(xí)經(jīng)歷中,有沒(méi)有希望與讀者分享的經(jīng)驗(yàn)?
吳軍:我的學(xué)習(xí)過(guò)程應(yīng)該與大家沒(méi)有很大差別,但作 為工程人員,我學(xué)習(xí)的內(nèi)容可能相對(duì)多一些、廣泛一些。我所幸的是,在成長(zhǎng)的過(guò)程中,在學(xué)習(xí)和工作經(jīng)歷中,總能和很多各個(gè)方面一流的人共事,比如我在清華時(shí) 遇到王作英教授、李星教授,在約翰·霍普金斯遇到賈里尼克院士、運(yùn)籌學(xué)大師阿蘭·高德曼院士,在Google遇見(jiàn)搜索名師阿米特·辛格院士、計(jì)算機(jī)系統(tǒng)專 家R·凱茨院士等。我覺(jué)得一個(gè)人周圍是什么朋友,是什么樣的同事與自己能否取得進(jìn)步的關(guān)系很大。在年輕的時(shí)候,選擇工作時(shí),寧可少掙些錢,也要尋找最好的 成長(zhǎng)機(jī)會(huì)。我所從事的計(jì)算機(jī)領(lǐng)域是一個(gè)應(yīng)用廣泛、機(jī)會(huì)很多的領(lǐng)域。但在這個(gè)領(lǐng)域中我也見(jiàn)到過(guò)許多年輕人,過(guò)早地考慮經(jīng)濟(jì)利益,放棄了很多學(xué)習(xí)的機(jī)會(huì),以至 于長(zhǎng)期發(fā)展缺乏基礎(chǔ),運(yùn)用所學(xué)知識(shí)也難以自如。因此,對(duì)自己是否有高要求,追求高的境界,好的方法,對(duì)能否取得進(jìn)步的影響也很大。
《程序員》:你提到寫(xiě)作這本書(shū)也是希望IT公司的工程主管們能夠帶領(lǐng)自己的部門提高工程水平,對(duì)于工程主管,你有哪些經(jīng)驗(yàn)希望與他們分享?
吳軍:對(duì)于做工程來(lái)說(shuō),如果使用一個(gè)正確的好方法,未必一定能夠取得成功,因?yàn)樵谡麄€(gè)過(guò)程中還有很多非技術(shù)因素會(huì)發(fā)揮作用。但從長(zhǎng)遠(yuǎn)來(lái)看,如果使用一個(gè)不好 的方法和不正確的模型,幾乎可以肯定這個(gè)產(chǎn)品不會(huì)取得成功。即使短期看起來(lái)有效,但做出的產(chǎn)品往往只是山寨的結(jié)果。產(chǎn)品是能夠持續(xù)受到用戶歡迎,還是曇花 一現(xiàn),很多時(shí)候就在于是否能用正確的方法處理問(wèn)題,能否真正把握其中的本質(zhì)規(guī)律。
《程序員》:Princeton大學(xué)出版社出版了一本《Nine Algorithms That Changed the Future》,其中也講到許多關(guān)于搜索引擎、密碼學(xué)方面的知識(shí),可否談?wù)勊惴ê蛿?shù)學(xué)之間的關(guān)系?
吳軍:算法很多時(shí)候是以數(shù)學(xué)為基礎(chǔ)的,比如PageRank,我覺(jué)得影響更大的還有Viterbi算法,它是我們今天通信技術(shù)的基礎(chǔ)。還有應(yīng)用數(shù)學(xué)一些分 支,比如運(yùn)籌學(xué)、博弈論中的方法,在計(jì)算機(jī)科學(xué),以及經(jīng)濟(jì)學(xué)上都有很多直接應(yīng)用,這些方法背后的數(shù)學(xué)是許多計(jì)算機(jī)算法的基礎(chǔ)。
《程序員》:你是國(guó)家核高基項(xiàng)目“新一代搜索引擎與瀏覽器”的總負(fù)責(zé)人,可否介紹一下這個(gè)項(xiàng)目和目前取得的進(jìn)展。
吳軍:這一項(xiàng)目是騰訊公司和清華大學(xué)聯(lián)合申請(qǐng)的,因?yàn)橐笠云髽I(yè)為主,因此就定了我做總負(fù)責(zé)人。這個(gè)項(xiàng)目的目的是構(gòu)造一個(gè)全新的搜索引擎,不僅搜索質(zhì)量要做 到國(guó)內(nèi)最好,此外還要結(jié)合社交網(wǎng)絡(luò),為用戶提供個(gè)性化的體驗(yàn)。在瀏覽器方面,希望打造一個(gè)優(yōu)化搜索體驗(yàn)的瀏覽器。我們知道,在社交網(wǎng)絡(luò)中,可以搜索的內(nèi)容 比一般網(wǎng)頁(yè)搜索要多很多。除了外網(wǎng)的內(nèi)容,還包括用戶自己的內(nèi)容,用戶好友的內(nèi)容,社交網(wǎng)絡(luò)中一般性,卻是非登錄態(tài)用戶(包括網(wǎng)絡(luò)爬蟲(chóng))看不到的內(nèi)容。如 何將這些內(nèi)容組織好,很具有挑戰(zhàn)性。同時(shí),在社交網(wǎng)絡(luò)中的用戶在登錄時(shí),我們可以通過(guò)他過(guò)去的習(xí)慣以及好友關(guān)系鏈等個(gè)性化的信息,提供比非登錄態(tài)用戶更加 精準(zhǔn)的結(jié)果。為了做到這些,需要打造適合搜索的云計(jì)算平臺(tái)。此外無(wú)線搜索也會(huì)進(jìn)一步完善個(gè)性化和本地化,因?yàn)闊o(wú)線終端是與個(gè)人綁定的,同時(shí)具有豐富的地理 位置信息,這些信息不僅可以幫助把無(wú)線搜索做好,而且可以幫助商家的無(wú)線搜索上投放廣告。在瀏覽器方法,很多搜索的功能都將以插件的形式直接放到瀏覽器 中。
《程序員》:百度的搜索引擎已經(jīng)做得足夠好了,為什么騰訊還要花大力氣,大投入做這件事?是否是眼紅百度的廣告收入?
吳軍:2009年騰訊CTO熊(明華)總來(lái)硅谷請(qǐng)我加盟騰訊、幫助公司做好搜索時(shí),我也問(wèn)過(guò)他同樣的問(wèn)題。我說(shuō),這個(gè)題目對(duì)我來(lái)講沒(méi)有吸引力,因?yàn)椴贿^(guò)是把 這Google的工作重復(fù)一遍。對(duì)我來(lái)講做一個(gè)和Google一樣好的搜索引擎不難,難的是做出來(lái)以后,和百度的差異不足以使得用戶需要切換過(guò)來(lái)。因此需 要給我一個(gè)理由,包括用戶能得到什么新的好處,否則即使做得再好用戶也是不可能從百度切換過(guò)來(lái)的。我一直強(qiáng)調(diào)新的產(chǎn)品只有質(zhì)變,革命性的變革才能戰(zhàn)勝已經(jīng) 統(tǒng)治市場(chǎng)的產(chǎn)品。同時(shí)還需要他告訴我公司有什么特殊的資源推廣,因?yàn)檠呕⒑臀④浲度肓舜罅抠Y源推廣都不成功,國(guó)內(nèi)的新浪、搜狐和網(wǎng)易也不成功。那么騰訊是 否有資源,有決心做這件事,因?yàn)檫@是一件長(zhǎng)期吃力未必討好的事情。他介紹了騰訊的社交網(wǎng)絡(luò)Qzone,這個(gè)和Facebook類似,里面的內(nèi)容是外面沒(méi)有 的,同時(shí)登錄臺(tái)很多信息是可以利用的。有了這些信息就有希望比百度有質(zhì)的提高。在推廣資源上,騰訊在無(wú)線領(lǐng)域有得天獨(dú)厚的優(yōu)勢(shì),而現(xiàn)在恰恰處在無(wú)線搜索的 爆發(fā)期。在決心上,騰訊將它看作五年后收入主要的成長(zhǎng)點(diǎn),放在戰(zhàn)略高度。
雖然熊總第一次沒(méi)有說(shuō)服了我,但我們談得還是很投緣,之后他帶我和 朱會(huì)燦到深圳見(jiàn)了公司的幾位主要負(fù)責(zé)人,我們也對(duì)騰訊的業(yè)務(wù)和優(yōu)勢(shì)有了些了解,最終他們一起說(shuō)服了我們。在我看來(lái),搜索這件事,要么做成通吃市場(chǎng),要么失 敗一無(wú)所獲,幾乎沒(méi)有中間狀態(tài)。當(dāng)然,這些事情要做到,需要花很大的精力、很長(zhǎng)的時(shí)間,不是照著Google做一個(gè)搜索引擎往QQ上一扔就完事這么簡(jiǎn)單。
聯(lián)系客服