大家好,非常開(kāi)心能夠在架構(gòu)師峰會(huì)上和大家交流分享,謝謝大家聽(tīng)我分享。
我叫趙曉萌,現(xiàn)在是小紅書(shū)算法的架構(gòu)師,在小紅書(shū)之前,我在微軟 Bing 搜索引擎,是排序組 Core Ranking 的產(chǎn)品經(jīng)理,負(fù)責(zé)點(diǎn)擊模型,后面到 Twitter 的廣告組做移動(dòng)廣告的精準(zhǔn)投放。
今天要為大家分享四點(diǎn)內(nèi)容:
首先介紹下小紅書(shū)、小紅書(shū)的人工智能團(tuán)隊(duì)、以及小紅書(shū)在機(jī)器學(xué)習(xí)上的應(yīng)用。
第二點(diǎn),舉一個(gè)深入的例子介紹我們?cè)趺蠢斫庥脩粼谛〖t書(shū)上產(chǎn)生的內(nèi)容。
第三點(diǎn)介紹下人工智能在推薦搜索中的應(yīng)用以及在小紅書(shū)的應(yīng)用。
第四點(diǎn)是結(jié)合我的經(jīng)驗(yàn)介紹下如何在像小紅書(shū)這樣一個(gè)比較初期的人工智能團(tuán)隊(duì),這樣比較小的公司里更好地應(yīng)用人工智能。
我早上聽(tīng)了幾位講師的分享,特別留意到他們公司有自己的機(jī)器學(xué)習(xí)訓(xùn)練框架和訓(xùn)練平臺(tái),他們?cè)谒惴ㄉ献隽朔浅6嗟膬?yōu)化,我們作為一個(gè)小公司并沒(méi)有這些,我很羨慕,希望有一天我們也會(huì)有。去年我們的算法團(tuán)隊(duì)大約從 6 個(gè)人發(fā)展到了 10 個(gè)人,以下介紹的是去年一年的時(shí)間內(nèi),尤其在后半年完成的一些工作,希望我們的經(jīng)驗(yàn)?zāi)軌蚪o人員和資源都比較早期的公司一些借鑒。
我先從介紹小紅書(shū)開(kāi)始,介紹下我們算法團(tuán)隊(duì)需要解決的問(wèn)題。小紅書(shū)是一個(gè)分享社區(qū)加電商的 APP。
首先看下分享社區(qū),分享社區(qū)以女性為主,是一個(gè)有少量話題引導(dǎo)的,但基本上是自然形成的,關(guān)于分享精致好生活的社區(qū)。這里主要分享的內(nèi)容包括美裝、穿搭,喜歡去的餐館,新發(fā)現(xiàn)的旅行地點(diǎn)、酒店,最新的母嬰和家居生活的內(nèi)容也在增加。小紅書(shū)今天有五千萬(wàn)的注冊(cè)用戶,月活躍用戶超過(guò)千萬(wàn),這些用戶幫助我們?cè)谄脚_(tái)上產(chǎn)生了九百多萬(wàn)篇非常高質(zhì)量的分享。這么多的內(nèi)容,我要如何轉(zhuǎn)發(fā)分發(fā)給用戶,讓他們看到想看的,這是一個(gè)算法組需要解決的問(wèn)題。
小紅書(shū)的另外一面是福利社,就是電商,這個(gè)問(wèn)題很簡(jiǎn)單,就是你在社區(qū)里看到的,在福利社希望能買到。如何提高福利社的商品購(gòu)買轉(zhuǎn)換率,這個(gè)也是算法組需要解決的問(wèn)題。
小紅書(shū)獨(dú)一無(wú)二的地方,就在于它把社區(qū)和電商融合到了一個(gè) APP 里,非常重要的一點(diǎn)是它造就了女生人數(shù)占比最高的互聯(lián)網(wǎng)公司。在我們公司里面女生男生占比是 7:3,其他公司里比例可能最高 3:7,或者 1:10 都是有可能的,這是小紅書(shū)獨(dú)特的地方。更重要的一點(diǎn)是,它造就了 1 加 1 大于二的效應(yīng)。
這是什么意思呢?我們社區(qū)是提供用戶黏性的,它為我們電商引流,電商這部分把流量變現(xiàn),在我們 APP 里形成了一個(gè)閉環(huán),這兩個(gè)是互相推動(dòng)的。對(duì)于算法團(tuán)隊(duì)來(lái)說(shuō),因?yàn)槲覀冇羞@樣獨(dú)特的形式,我們有社區(qū)的用戶數(shù)據(jù),同時(shí)也有用戶在福利社的行為數(shù)據(jù),我們?nèi)绾伟褍蛇叺男袨檫B接起來(lái),更好地理解用戶,這是一個(gè)非常獨(dú)特的挑戰(zhàn)。
我們算法優(yōu)化的目標(biāo)是什么??jī)?yōu)化的核心目標(biāo)也是兩個(gè),分別對(duì)應(yīng)社區(qū)和電商。社區(qū)的目標(biāo)是用戶增長(zhǎng),我們衡量的是在社區(qū)的深度交互,這是一個(gè)間接的,但是離我們更近的一個(gè) metrics(指標(biāo))。對(duì)于電商我們要做到的是驅(qū)動(dòng)盈利,福利社的加車購(gòu)買,是我們關(guān)注的指標(biāo)。機(jī)器學(xué)習(xí)大概是從去年年初開(kāi)始在小紅書(shū)慢慢地發(fā)展起來(lái),截止到去年年底,整體效果還不錯(cuò),我們需要達(dá)到的深度交互,以及電商的購(gòu)買轉(zhuǎn)換,都有非常不錯(cuò)的提高。
剛才介紹了小紅書(shū)和我們算法要解決的問(wèn)題,現(xiàn)在舉個(gè)具體的例子介紹怎么理解小紅書(shū)的內(nèi)容。剛才提到五千萬(wàn)用戶的九百萬(wàn)篇推薦筆記,是我們最重要的內(nèi)容,我們花了非常大的精力來(lái)理解內(nèi)容。
首先我們看一下這些內(nèi)容大概是什么樣子。很簡(jiǎn)單,是圖文并茂的。用戶產(chǎn)生的內(nèi)容圖片多,而且質(zhì)量非常高,同時(shí)是非常詳細(xì)的種草文(推薦物品的文章),這個(gè)文章正常情況下不是橫過(guò)來(lái)的,橫過(guò)來(lái)是為了讓大家看到這個(gè)文章很有長(zhǎng)度,寫(xiě)得非常仔細(xì),吸引眼球,而且有感情有干貨。
因此需要把文本和圖片結(jié)合起來(lái)去理解文章內(nèi)容。我們通過(guò)機(jī)器學(xué)習(xí)把筆記的主題分到人工標(biāo)定的上百個(gè)主題里。我們用 CNN(卷積神經(jīng)網(wǎng)絡(luò))提取圖像特征,用 Doc2Vec(文本到向量模型)提取文本特征,通過(guò)一個(gè)簡(jiǎn)單的分類器就能把用戶筆記分到主題中。接下來(lái)具體介紹下圖像特征的提取。
我們用的是卷積神經(jīng)網(wǎng)絡(luò)。
卷積神經(jīng)是深度神經(jīng)網(wǎng)絡(luò),層次比較多,是 feedforward 神經(jīng)網(wǎng)絡(luò)。簡(jiǎn)單解釋下它的原理,它模擬了我們大腦處理圖像的過(guò)程。什么意思呢?如果我們選一個(gè)稍淺的神經(jīng)網(wǎng)絡(luò),把這個(gè)多層神經(jīng)網(wǎng)絡(luò)每一層的輸出打出來(lái),那我們大概就能夠了解這個(gè)神經(jīng)網(wǎng)絡(luò)在做什么。最下面的輸入層是我們圖像的像素,第一層、第二層的輸出我們可以看到這個(gè)神經(jīng)網(wǎng)絡(luò)能夠提取出一些邊緣的信息,再往上四五層的時(shí)候,它把邊緣的信息組合起來(lái)了,我們會(huì)看到轉(zhuǎn)角、圓圈還有網(wǎng)格這樣一些形狀上局部的信息,再往上到第六第七第八層的時(shí)候,就能看到一些整體的概念被抽象出來(lái)了。經(jīng)過(guò)這個(gè)卷積神經(jīng)網(wǎng)絡(luò)層層的抽取和抽象,在像素之上會(huì)形成概念最有用的一些特征,這個(gè)就是我們拿到的圖像的特征。通過(guò)這個(gè)卷積神經(jīng)網(wǎng)絡(luò)我們把一張圖變成一個(gè) 4096 維的向量,這個(gè)向量是這個(gè)圖在高維空間里的一種表示,它是有空間意義的,這個(gè)意義是指相似的圖片,或者說(shuō)圖片上的相似特征在這個(gè)空間里是距離接近的。
我們這一套神經(jīng)網(wǎng)絡(luò)是在 Caffe Model Zoo 的很多已經(jīng)預(yù)先訓(xùn)練好的模型里選出來(lái)的一個(gè) VGG 的 16 層神經(jīng)網(wǎng)絡(luò),它已經(jīng)在 ImageNet 上訓(xùn)練好了,我們不需要花太多時(shí)間去訓(xùn)練它,我們只是標(biāo)注了少量小紅書(shū)上的圖片,把它的主題標(biāo)上去,然后我們?cè)?fine-tune 這個(gè)神經(jīng)網(wǎng)絡(luò),最后就達(dá)到我們期望的效果。
講完了圖像,我再講一下文本的向量表示,文本的向量表示有非常多種,其中一個(gè)比較有名的向量表示叫做 Word2Vec,是 Google 提出來(lái)的,它的原理非常簡(jiǎn)單,它其實(shí)是一個(gè)非常淺的淺層神經(jīng)網(wǎng)絡(luò),根據(jù)前后的詞來(lái)預(yù)測(cè)中間這個(gè)詞的概率,優(yōu)化預(yù)測(cè)的時(shí)候模型就得到了詞的向量表示。同樣的這個(gè)詞的向量表示在空間里也是有意義的,相似的詞也處在相近的空間里。這個(gè)模型比較有意思的是,把向量拿出來(lái)隨時(shí)可以做向量運(yùn)算,比如圖中,女人到男人之間的那個(gè)指向的向量,和皇后到國(guó)王之間是一樣的,所以你知道其中三個(gè),就能算出另外一個(gè)。
把文字的 Word2Vec Model 往上提一層時(shí)就會(huì)得到文本到向量的 Doc2Vec Model。那么怎么用它呢?其實(shí)就是把小紅薯,就是我們的用戶的筆記上的標(biāo)簽,它提到的商品的品牌品類加上筆記本身的內(nèi)容一起放到這個(gè)模型中,我們就得到了一個(gè)描述筆記的向量,然后再提取。這個(gè)模型也是開(kāi)源的,我們也直接拿來(lái)用就可以了。
當(dāng)我們現(xiàn)在有了圖像和文本的向量表示以后,我們就有監(jiān)督地去訓(xùn)練一個(gè)分類器,把它分布到我們標(biāo)注出來(lái)的主題上,我們用的分類器是一個(gè),有一個(gè)隱層的全連接的神經(jīng)網(wǎng)絡(luò),能達(dá)到我們要的效果。之前我說(shuō)過(guò)小紅書(shū)是一個(gè)非常視覺(jué)的社區(qū),圖像很多,我們只用圖像提取特征就已經(jīng)達(dá)到良好的效果,準(zhǔn)確率大概是 85% 時(shí)覆蓋率能達(dá)到 73% 左右,加上文本以后效果更好,準(zhǔn)確率達(dá)到 90%,覆蓋率達(dá)到 84%。
上面是一個(gè)我們用文本和圖像特征來(lái)理解我們用戶產(chǎn)生內(nèi)容的具體實(shí)例。下面給大家概括介紹下小紅書(shū)機(jī)器學(xué)習(xí)使用的情況。
做這方面的同行應(yīng)該知道人工智能有三個(gè)階段,最早的專家系統(tǒng),到統(tǒng)計(jì)學(xué)習(xí),到深度學(xué)習(xí)現(xiàn)在慢慢流行起來(lái)。對(duì)于我們這樣一個(gè)小的公司來(lái)說(shuō),我們非常注重算法的實(shí)際效果,遠(yuǎn)超過(guò)我們看這個(gè)算法先進(jìn)不先進(jìn),比如剛才我們講的提取圖像特征的模型,并不是 CNN 里效果最好的,而是一個(gè)相對(duì)簡(jiǎn)單的模型,16 層神經(jīng)網(wǎng)絡(luò)對(duì)我們來(lái)說(shuō)相對(duì)簡(jiǎn)單,容易理解,比較能 Hold 住。
人工智能的三個(gè)階段產(chǎn)物,我們都各有各的應(yīng)用。
專家系統(tǒng)是指我們需要依靠人對(duì)問(wèn)題的理解來(lái)設(shè)計(jì)規(guī)則,比如中文搜索中特殊的分詞,在小紅書(shū)早期時(shí),搜索中大約 80% 的問(wèn)題都是因?yàn)橹形姆衷~分得不太準(zhǔn),導(dǎo)致用戶搜不到想要的東西。我們通過(guò)人工的一些工作,從人工加詞、加詞典維護(hù),到我們做了新詞發(fā)現(xiàn)的一套半自動(dòng)的系統(tǒng),這些問(wèn)題就被解決掉了,實(shí)際上分詞有更好的解決方法,現(xiàn)在已經(jīng)有了基于深度學(xué)習(xí)的方法,有可能以后考慮替換這套系統(tǒng)。
有些專家系統(tǒng)確實(shí)不太好替換,比如對(duì)于電商來(lái)說(shuō),它的品類(商品的分類)系統(tǒng)是非常需要行業(yè)知識(shí)的,需要對(duì)商品品類有深刻的理解,而且需要結(jié)合公司電商發(fā)展的階段來(lái)設(shè)計(jì)這套系統(tǒng),系統(tǒng)要隨著公司發(fā)展階段的變化去不斷地迭代。這套系統(tǒng)特別重要,因?yàn)楫?dāng)品類不對(duì)時(shí),在品類下的推薦就不準(zhǔn),搜索的篩選可能會(huì)做得不太好,或者品類的粒度分得不夠細(xì)不夠準(zhǔn)時(shí),推薦和搜索的算法都會(huì)受到非常嚴(yán)重的影響,所以這套專家系統(tǒng)可能會(huì)一直存在下去。這是最左邊的早期的專家系統(tǒng),相當(dāng)于早期第一個(gè)版本的人工智能,最新版本的人工智能就是現(xiàn)在比較火的深度學(xué)習(xí),這點(diǎn)剛才也講了,主要講的是主題分類,同樣我們可以做到圖片相似,以及物體檢測(cè)等。
剩下中間這塊統(tǒng)計(jì)學(xué)習(xí),統(tǒng)計(jì)學(xué)習(xí)是我們使用量最大也是實(shí)踐中最常用的,這一套系統(tǒng)當(dāng)中,最重要的就是統(tǒng)計(jì)的信息,往往需要用到大量的統(tǒng)計(jì)特征。
比如在我們推薦的 GBDT 模型中,模型的產(chǎn)品目的是個(gè)性化,我們希望用戶可以看到想看的筆記,這屬于我之前講的筆記分發(fā)的問(wèn)題。在這張表里,大家可以看到,我們有非常多的用戶行為統(tǒng)計(jì),產(chǎn)生了一些靜態(tài)的信息,用來(lái)描述用戶或者筆記。
我們通過(guò)用戶畫(huà)像和人口統(tǒng)計(jì)信息來(lái)描述用戶,比如性別年齡等常用的靜態(tài)信息。筆記分作者和內(nèi)容兩個(gè)維度,比如作者打分和筆記的質(zhì)量、標(biāo)簽以及剛才介紹的主題等。還有一些我們實(shí)驗(yàn)過(guò)的更復(fù)雜的統(tǒng)計(jì)信息,被我們放棄了,因?yàn)殡m然復(fù)雜但是效果并不顯著。比如我們會(huì)算用戶的行為趨向,是趨向在社區(qū)里花的時(shí)間比較多,還是趨向于在福利社電商花的時(shí)間比較多,我們嘗試過(guò)統(tǒng)計(jì)用戶的生命周期,這個(gè)用戶是新用戶、老用戶、經(jīng)?;貋?lái)的用戶、還是可能快流失的用戶,還有用戶的活躍時(shí)段,用戶是在早上比較活躍還是晚上比較活躍,用戶購(gòu)買力,用戶對(duì)折扣的敏感度,在社區(qū)里的活躍度,這些統(tǒng)計(jì)信息我們都嘗試過(guò),這些都比較靜態(tài)地去描述一個(gè)用戶。
還有一個(gè)非常關(guān)鍵的信息是動(dòng)態(tài)特征,雖然動(dòng)態(tài)特征并不多,但是很重要。動(dòng)態(tài)特征包括用戶在瀏覽和搜索過(guò)程中有沒(méi)有點(diǎn)擊、有沒(méi)有深度行為等類似的用戶反饋,這些交互的數(shù)據(jù)有一個(gè)實(shí)時(shí)的 pipeline 從線下直接放到線上的模型里,在線上會(huì)利用這些數(shù)據(jù)對(duì)交互的質(zhì)量,比如點(diǎn)擊率進(jìn)行預(yù)測(cè),以及通過(guò)協(xié)同過(guò)濾得到用戶和筆記的隱性分類,這在推薦當(dāng)中也是有用的。我想講的是用戶反饋的數(shù)據(jù),即使是簡(jiǎn)單的統(tǒng)計(jì)都是非常有用的。我們?cè)谑褂脧?fù)雜模型之前先用簡(jiǎn)單的統(tǒng)計(jì)方法把用戶的反饋數(shù)據(jù)放到模型預(yù)測(cè)中,可能就能達(dá)到想要的 80% 的效果,這是非常重要的。
還有一點(diǎn)是我們有兩部分的數(shù)據(jù),社區(qū)和電商的行為數(shù)據(jù),用戶在社區(qū)的行為和電商的行為是不太一樣的,而且是有點(diǎn)互補(bǔ)的。比如用戶在社區(qū)的行為是比較高頻的,用戶會(huì)在這里搜、看、點(diǎn)擊、點(diǎn)贊,可能因?yàn)楹闷孢M(jìn)行點(diǎn)贊和點(diǎn)擊,而在電商的數(shù)據(jù)是低頻的,比如產(chǎn)生最后的購(gòu)買。高頻數(shù)據(jù)我覺(jué)得統(tǒng)計(jì)信息是非常有用、非常準(zhǔn)確的,對(duì)于電商,我們認(rèn)為比較昂貴的行為,比如購(gòu)買和加心愿單的行為,是非常可信的,這兩種數(shù)據(jù)是互補(bǔ)的,我們?cè)囍堰@兩邊的數(shù)據(jù)融合起來(lái)用到特征里。
下面再舉一個(gè)比較具體的例子,另外一個(gè)從文本中提取特征的例子。
之前講的提取特征,是為了判別文本的主題,我們用的是 Doc2Vec 文本到向量的方法,向量越接近,文本越接近?,F(xiàn)在這個(gè)場(chǎng)景叫相關(guān)筆記,相關(guān)筆記的要求是什么呢?推薦的筆記和用戶在看的筆記最好講的是同一個(gè)東西,比如說(shuō),同一款口紅,同一個(gè)旅行目的地,同一家酒店,同一家餐館,有可能不是同一家餐館,是類似的餐館,或者說(shuō)同一件衣服,但是也有可能是不同款但是相似的衣服。
相關(guān)筆記的要求的是首先相關(guān)性非常強(qiáng),第二在這個(gè)基礎(chǔ)上稍微有些擴(kuò)展。實(shí)際實(shí)驗(yàn)時(shí)發(fā)現(xiàn),如果用 Doc2Vec(文本向量表示)選出來(lái)的筆記不太能滿足相關(guān)性的要求,比如上圖的例子,講的是世界第一潛點(diǎn)詩(shī)巴丹,Word2Vec 的結(jié)果不太在乎具體地點(diǎn)是哪里,在最右邊的例子里,我們可以看到,它找的是附近的地方,比如越南芽莊,它會(huì)把相似的地方找出來(lái)把它替換掉。在這樣一個(gè)場(chǎng)景當(dāng)中,我們選擇了另外一個(gè)詞向量的方法 TDIDF,一個(gè)簡(jiǎn)單的統(tǒng)計(jì)學(xué)方法。這個(gè)就能比較好地解決相似性的問(wèn)題,因?yàn)樗緛?lái)就是用于信息抽取和信息檢索。
有一點(diǎn)讓我覺(jué)得比較驚喜的是,TFIDF model 雖然基本要求詞是一樣的,但它可以把一類筆記找出來(lái),就是講用戶心理、描述用戶心情的筆記,因?yàn)橛脩裘枋鲂那橛玫脑~匯很接近,所以這個(gè)方法也會(huì)把擴(kuò)展的內(nèi)容找出來(lái)。舉這個(gè)從另外一個(gè)應(yīng)用場(chǎng)景來(lái)選文本向量表示的例子的意思是我們的算法選擇在小公司里需要非常接地氣,需要考慮具體要求,而且是實(shí)驗(yàn)性質(zhì)的,如果不做實(shí)驗(yàn)嘗試就沒(méi)法知道哪個(gè)方法更能滿足具體場(chǎng)景的需求。所以對(duì)于小公司來(lái)說(shuō),團(tuán)隊(duì)能不能快速試錯(cuò)、實(shí)驗(yàn)和迭代,這個(gè)能力可能比某個(gè)模型的質(zhì)量或者模型本身能力的局限更加重要。
之前講的幾個(gè)具體的例子是我們已經(jīng)實(shí)現(xiàn)過(guò)的,接下來(lái)展望下小紅書(shū)未來(lái)機(jī)器學(xué)習(xí)團(tuán)隊(duì)需要做的事情。
之前舉的幾個(gè)都是統(tǒng)計(jì)的例子,主要想說(shuō)明我們?nèi)绾芜x擇算法,如何注重開(kāi)發(fā)的成本、速度和最后的效果。其實(shí)深度學(xué)習(xí)的效果在推薦預(yù)測(cè)上已經(jīng)漸漸超過(guò)了之前講的一些統(tǒng)計(jì)模型,隨著機(jī)器學(xué)習(xí)平臺(tái)的成熟,以及相關(guān)模型的開(kāi)源,我們也會(huì)考慮把之前在推薦里用的 GBDT 模型替換掉。
深度學(xué)習(xí)有什么好處呢?首先講深度學(xué)習(xí)的一個(gè)缺點(diǎn),就是抽取的特征比較沒(méi)有解釋性,人工特征比較好解釋是因?yàn)轭A(yù)先設(shè)計(jì)了特征,然后再去構(gòu)造。機(jī)器學(xué)習(xí)的特征在抽象完之后,仍然保留了很多信息,雖然不好解釋,但是有一個(gè)好處,留給應(yīng)用想象的空間很大,可以實(shí)現(xiàn)一些比較有創(chuàng)意的應(yīng)用。比如去年有一段時(shí)間小紅書(shū)上突然流行分享治痘,就是臉上有很多痘痘,怎么把它治好的這種文章,用戶會(huì)秀很多自拍的、臉上長(zhǎng)很多痘痘的照片,但不是每個(gè)用戶都喜聞樂(lè)見(jiàn)臉上充滿痘痘的照片,所以我們需要識(shí)別出這些照片,把它推薦給合適的目標(biāo)人群,這也可以通過(guò)我剛才講的 CNN model 來(lái)實(shí)現(xiàn)。我們嘗試做這件事,發(fā)現(xiàn)它對(duì)全臉露出的、半臉、1/4 臉甚至臉上只有少量的臉部器官,都能識(shí)別為臉部圖像,而且能夠識(shí)別臉上有沒(méi)有痘痘。CNN 還可以很好地識(shí)別這張圖里是不是文本占了絕大多數(shù),比如是不是一個(gè)截圖,對(duì) AntiSpam(反作弊)會(huì)有幫助。未來(lái) CNN 還可以幫我們做更多,比如我們想做一些風(fēng)格上的嘗試,希望通過(guò)用戶買的東西和經(jīng)??吹臇|西能夠知道用戶穿搭的風(fēng)格。
剛剛講完了小紅書(shū)的故事,現(xiàn)在結(jié)合我的經(jīng)驗(yàn)介紹下如何在類似的初創(chuàng)公司合理地使用人工智能。
我指的小公司是怎樣的小公司?首先是希望人工智能能夠融入公司業(yè)務(wù),是非常實(shí)用主義的小公司。它不是 Google,F(xiàn)acebook,阿里百度這樣的大公司,大公司研究的更多是人工智能的平臺(tái)和框架,提供什么樣的服務(wù),專注在訓(xùn)練和算法效率上的提升。同時(shí)也有區(qū)別于人工智能創(chuàng)業(yè)公司,這些公司人工智能是它的主業(yè),比如視覺(jué)識(shí)別、自動(dòng)駕駛,它們專注于算法的創(chuàng)新突破,算法準(zhǔn)確率需要有比較大的提升。我講的這些小公司,為了將人工智能融入公司業(yè)務(wù),它需要更多的是被驗(yàn)證過(guò)的算法,它關(guān)注的是算法的實(shí)用性和開(kāi)發(fā)維護(hù)的成本,對(duì)于這樣的小公司,我們有經(jīng)驗(yàn),我想從兩個(gè)方面談一下,它應(yīng)該怎么看待在自己的公司應(yīng)用人工智能這件事情。
首先我覺(jué)得第一點(diǎn)非常重要,就是越來(lái)越多的人意識(shí)到機(jī)器學(xué)習(xí)、人工智能的應(yīng)用成本加速降低,小公司要抓住這個(gè)機(jī)會(huì),抓住人工智能發(fā)展提供給自己的紅利。運(yùn)算力、機(jī)器學(xué)習(xí)平臺(tái)的開(kāi)放大家都知道,Tensorflow、Caffe 以及 MXNet 都想擴(kuò)大自己的 Community,希望能夠有更多的公司和更多的開(kāi)發(fā)者用他們的平臺(tái)。
另外一點(diǎn)是模型的成熟和開(kāi)源,這對(duì)于深度學(xué)習(xí)階段尤其重要,因?yàn)樵诮y(tǒng)計(jì)學(xué)習(xí)階段模型也是開(kāi)放的,但是這個(gè)階段算法的核心不在模型,而在模型里使用的特征,特征工程是當(dāng)時(shí)的核心。到了深度學(xué)習(xí),情況發(fā)生了改變,因?yàn)樯疃葘W(xué)習(xí)的核心就是模型,模型能夠抽取特征,能夠很快地在分類、推薦、預(yù)測(cè)得到應(yīng)用。
對(duì)一個(gè)小公司來(lái)說(shuō),我們是非常需要開(kāi)源的,因?yàn)閺念^搭建自己的這套模型非常耗時(shí)、耗力,比如我們剛才用的神經(jīng)網(wǎng)絡(luò),它有多少層,它的層和層之間應(yīng)該怎樣卷積,需不需要使用 dropout,這些都是需要花大量的時(shí)間做實(shí)驗(yàn),對(duì)于小公司來(lái)說(shuō)這樣的投入并不值得,投入太大而產(chǎn)出效果可能并不太好。而且深度學(xué)習(xí)好的模型通用性非常強(qiáng),比如我剛才舉的例子,可以用它處理很多圖像識(shí)別方面的問(wèn)題。
最后一點(diǎn)是理論知識(shí),我認(rèn)為小公司如果有效地利用這點(diǎn)就能夠比較快地享受到人工智能帶來(lái)的利益。理論知識(shí)的相對(duì)重要性在降低,工程學(xué)習(xí)能力的重要性要求在上升,這說(shuō)明個(gè)人力成本在下降。幾年前在推薦預(yù)測(cè)上要做到比較好的結(jié)果還是很難的,大家可以參考 09 年的時(shí)候 Netflix 做了一個(gè)挑戰(zhàn)獎(jiǎng)金是一百萬(wàn)美金,想提高推薦系統(tǒng)的效率,全世界當(dāng)時(shí)有相關(guān)知識(shí)而且能夠把這些理論知識(shí)用到推薦系統(tǒng)里的人非常少,人力成本非常昂貴。那么到了現(xiàn)在呢,我記得 Google IO 上 TensorFlow Team 有個(gè)分享,說(shuō) 2005 年大約一個(gè)研究室 6 個(gè)月想要做到的基于神經(jīng)網(wǎng)絡(luò)分類的效果,在今天一個(gè)優(yōu)秀的 Python 開(kāi)發(fā)者有一些 TensorFlow 的背景知識(shí),大概需要幾天就能遠(yuǎn)遠(yuǎn)超過(guò)當(dāng)時(shí)的效果。
小公司對(duì)理論知識(shí)非常強(qiáng)的深度學(xué)習(xí)大牛的依賴程度大幅度降低了,而且一個(gè)小公司請(qǐng)個(gè)大牛并不劃算,第一大牛特別貴,第二因?yàn)榇笈R话阌凶约旱难芯糠较?,尤其到了今天這個(gè)時(shí)候,他可能有自己的計(jì)劃,并不一定愿意花時(shí)間在小公司這種已經(jīng)成熟的應(yīng)用上面,這就不是每個(gè)小公司都能承擔(dān)的起的,第三招個(gè)大牛并不代表一段時(shí)間內(nèi)業(yè)務(wù)會(huì)有很大的提升,因?yàn)槿斯ぶ悄苄枰罅抗こ處焻f(xié)同完成?,F(xiàn)在學(xué)習(xí)能力和工程能力強(qiáng)的團(tuán)隊(duì),能夠把已經(jīng)驗(yàn)證過(guò)的算法在快速迭代中優(yōu)化,能夠?qū)崿F(xiàn)自己的場(chǎng)景,這樣的公司反而有比較大的優(yōu)勢(shì)。從平臺(tái)到模型開(kāi)發(fā)、到開(kāi)發(fā)人員的成本,這些成本都在降低,由于這些成本降低,更多的人會(huì)進(jìn)來(lái),促使這些成本加速降低,這點(diǎn)是現(xiàn)在的小公司和初創(chuàng)的公司可以很好利用的。
算法應(yīng)用和算法團(tuán)隊(duì)是整個(gè)人工智能應(yīng)用的冰山一角,我們需要?jiǎng)佑谜麄€(gè)公司研發(fā)團(tuán)隊(duì)的力量來(lái)支持人工智能的落地。
首先是核心業(yè)務(wù)數(shù)據(jù)的設(shè)計(jì),對(duì)我們的電商來(lái)說(shuō)剛才說(shuō)的歸類商品的品類系統(tǒng),這是非常重要的,以及這些系統(tǒng)的整理迭代,保證數(shù)據(jù)的清潔。我們內(nèi)部想要做這樣一件事情,因?yàn)槲覀兊乃阉鹘?jīng)常會(huì)被一些不太好的數(shù)據(jù)干擾,我們需要設(shè)計(jì)一套系統(tǒng),讓我們內(nèi)部的人針對(duì)我們的搜索引擎做一些 SEO(搜索引擎的優(yōu)化),幫助我們清理業(yè)務(wù)的核心數(shù)據(jù),并且讓他們負(fù)責(zé)地去輸入新的業(yè)務(wù)數(shù)據(jù)。
第二在前端對(duì)用戶行為打點(diǎn),甚至為了提高效率,要做到自動(dòng)埋點(diǎn),比如用戶反饋行為,這個(gè)信息在整個(gè)機(jī)器學(xué)習(xí)應(yīng)用中非常重要,信息的收集需要產(chǎn)品前端和我們配合,把打點(diǎn)做好。數(shù)據(jù)收集之后的分析和挖掘是數(shù)據(jù)、算法團(tuán)隊(duì)需要幫我們做的。下一點(diǎn)是訓(xùn)練數(shù)據(jù)的標(biāo)注,這是算法團(tuán)隊(duì)需要做的事情。當(dāng)我們需要大量做實(shí)驗(yàn)時(shí),AB 測(cè)試的框架,實(shí)驗(yàn)上線后所有的指標(biāo)是不是能夠反映到 Dashboard 里,這都是需要非常多的人去投入的。
因?yàn)槌杀镜慕档腿斯ぶ悄苷诩铀購(gòu)膶W(xué)術(shù)走向日常,希望能看到更多的公司和工程師進(jìn)入實(shí)踐機(jī)器學(xué)習(xí)的領(lǐng)域,期待看到更多激動(dòng)人心的智能應(yīng)用。以上就是我的分享,謝謝大家。
趙曉萌,小紅書(shū)算法架構(gòu)師。曾任微軟 Bing 必應(yīng)搜索 Core Ranking Team 的 program manager,分管用戶點(diǎn)擊模型在 dynamic ranking 中的應(yīng)用。曾任 Twitter Performance Ads,Tech Lead,負(fù)責(zé)移動(dòng)相關(guān)的精準(zhǔn)廣告投放。現(xiàn)任小紅書(shū)算法架構(gòu)師,負(fù)責(zé)機(jī)器學(xué)習(xí)應(yīng)用。
聯(lián)系客服