1月11日,今日頭條在總部舉辦了一場推薦算法交流會,因為報名人數(shù)遠(yuǎn)遠(yuǎn)超過了預(yù)期,交流會還臨時換了場地。
據(jù)介紹,阿里、騰訊、百度、美團、新浪、網(wǎng)易等科技公司的算法工程師和產(chǎn)品經(jīng)理都去了??磥泶蠹覍袢疹^條到底用了什么推薦算法,那是相當(dāng)?shù)暮闷妗?br>
在當(dāng)天的交流會上,今日頭條資深算法架構(gòu)師、中國科學(xué)技術(shù)大學(xué)計算機博士曹歡歡帶來了題為《讓算法公開透明》的分享,首次面向行業(yè)公開算法原理。
今日頭條資深算法架構(gòu)師曹歡歡講解今日頭條算法原理
他表示:“算法分發(fā)并非是把所有決策都交給機器,我們會不斷糾偏,設(shè)計、監(jiān)督并管理算法模型。希望這次分享能讓更多的人理解算法,并共同參與到算法模型的制定中來,以改善算法,更好的為用戶服務(wù),讓算法為社會創(chuàng)造更大的價值?!?/p>
據(jù)曹歡歡介紹,今日頭條旗下幾款產(chǎn)品都在沿用同一套大的算法推薦系統(tǒng),但根據(jù)業(yè)務(wù)不同,每套系統(tǒng)的架構(gòu)會有所調(diào)整。
曹歡歡在現(xiàn)場的PPT里公布了頭條使用的五種推薦算法,包括傳統(tǒng)的協(xié)同過濾模型,監(jiān)督學(xué)習(xí)算法Logistic Regression模型,基于深度學(xué)習(xí)的Factorization Machine,以及DNN和GBDT。
曹歡歡介紹說,現(xiàn)在很難有一套通用的架構(gòu)模型適用于所有的推薦場景,所以很多公司會做多個算法的組合,比如現(xiàn)在很流行將LR和DNN結(jié)合,甚至前幾年Facebook也是將LR和GBDT算法做結(jié)合。今日頭條也基本是一套大算法,根據(jù)業(yè)務(wù)不同再具體調(diào)整結(jié)構(gòu)。
在解釋了算法之后,曹歡歡進一步解密了頭條的推薦如何工作。曹歡歡表示,主要有四類最重要的用戶特征,將會輸入給算法,影響到推薦算法的工作。
第一類是相關(guān)性特征,就是評估內(nèi)容的屬性和維度與用戶是否匹配。顯性的匹配包括關(guān)鍵詞匹配、分類匹配、來源匹配、主題匹配等。像FM模型中也有一些隱性匹配,從用戶向量與內(nèi)容向量的核心距離可以得出。
第二類是環(huán)境特征,包括地理位置、時間。這些既是bias(基礎(chǔ))特征,也能以此構(gòu)建一些匹配特征。
第三類是熱度特征。包括全局熱度、分類熱度,主題熱度,以及關(guān)鍵詞熱度等。熱度信息在大的推薦系統(tǒng)特別在冷啟動的時候非常有效。
第四類是協(xié)同特征,它可以在部分程度上幫助解決所謂算法越推越窄的問題。協(xié)同特征并非考慮用戶已有歷史。而是通過用戶行為分析不同用戶間相似性,比如點擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴展模型的探索能力。
分享過后,曹歡歡在還解答了各位對算法的疑問,包括今日頭條如何實現(xiàn)冷啟動,廣告和內(nèi)容該怎樣平衡,怎樣準(zhǔn)確地拓展用戶興趣圖譜等切實的工程性問題。同時,也聽取了大家對今日頭條算法的意見和建議。
更多內(nèi)容36氪還會陸續(xù)放送……