算法分發(fā)原理(上)
1.算法分發(fā)系統(tǒng)概覽
簡化的算法分發(fā)模型
把內(nèi)容推薦給用戶
推薦系統(tǒng)本質(zhì)上要解決用戶,環(huán)境和內(nèi)容的匹配。
2.用戶畫像(user profile):根據(jù)用戶的社會人口屬性,生活習(xí)慣,消費(fèi)行為等信息而抽象出的一個標(biāo)簽化用戶模型。
標(biāo)簽tag/label
構(gòu)建用戶畫像的核心作用是給用戶打標(biāo)簽
標(biāo)簽的類型越精確,我們推薦的效果會越好
標(biāo)簽是對用戶信息分析得來的高度精煉的特征標(biāo)識
標(biāo)簽來源是用戶消費(fèi)習(xí)慣,從而進(jìn)行精準(zhǔn)營銷
許多的標(biāo)簽集合就構(gòu)成了用戶畫像
用戶畫像的作用:
精準(zhǔn)營銷,分析產(chǎn)品潛在用戶,定向特定群體
用戶統(tǒng)計(jì),eg中國大學(xué)購買書籍人數(shù)top10
數(shù)據(jù)挖掘智能推薦,利用關(guān)聯(lián)規(guī)則計(jì)算,喜歡紅酒的人通常喜歡什么運(yùn)動品牌
效果評估,完善產(chǎn)品運(yùn)營,提升服務(wù)質(zhì)量
服務(wù)產(chǎn)品的私人定制,個性化服務(wù)某類群體,甚至每一位用戶
用戶畫像的構(gòu)建流程
基礎(chǔ)數(shù)據(jù)收集,行為建模,構(gòu)建畫像
基礎(chǔ)數(shù)據(jù)包括網(wǎng)絡(luò)行為數(shù)據(jù),服務(wù)內(nèi)行為數(shù)據(jù),用戶內(nèi)容偏好數(shù)據(jù),用戶交易數(shù)據(jù)。
行為建模則是通過文本挖掘,自然語言處理,機(jī)器學(xué)習(xí),預(yù)測算法,聚類算法。
構(gòu)建用戶畫像則是通過用戶的基本屬性,購買能力,行為特征,興趣愛好,心理特征,社交網(wǎng)絡(luò)。
為用戶設(shè)置調(diào)整標(biāo)簽有哪些策略?
過濾噪聲:過濾停留時間短的點(diǎn)擊,打擊標(biāo)題黨。
懲罰熱點(diǎn):用戶在熱門文章上的動作做降權(quán)處理。
時間衰減: 隨著用戶動作的增加,老的特征權(quán)重會隨時間衰減,新動作貢獻(xiàn)的特征權(quán)重會越大。
懲罰展現(xiàn):如果一篇推薦給用戶的文章,沒有被點(diǎn)擊,相關(guān)特征權(quán)重會被懲罰。
下
3.內(nèi)容建模和分析
以文本內(nèi)容為例
文本分析
對文本的表示及其特征項(xiàng)的選取
文本挖掘,信息檢索的一個基本問題,使用從文本中抽取的特征詞進(jìn)行量化,表示文本信息。
非結(jié)構(gòu)化到結(jié)構(gòu)化,可處理的。
基本技術(shù),分詞和詞頻統(tǒng)計(jì)。
分詞的時候必須把一連串的文字結(jié)合在一起,不能拆。eg中國人民大學(xué)
向量空間模型,描述文本向量
向量空間降維,特征(feature)選擇
文本分析算法舉例:實(shí)體詞識別算法
4.推薦算法
推薦算法,召回策略
典型推薦算法
協(xié)同過濾
邏輯回歸
深度神經(jīng)網(wǎng)絡(luò)
因子分解機(jī)
梯度提升樹
協(xié)同過濾算法目前是推薦系統(tǒng)領(lǐng)域最基本、應(yīng)用最為廣泛的算法。
通過分析和利用用戶的歷史行為來給用戶的興趣建模,并根據(jù)用戶的興趣對用戶作出推薦。
協(xié)同過濾分兩種,有基于用戶和基于物品的。
基于用戶的協(xié)同過濾最早應(yīng)用于郵件的過濾和新聞推薦中。
基于物品的協(xié)同過濾,最早由亞馬遜的推薦系統(tǒng)專家提出,在商業(yè)界廣泛應(yīng)用。
基于用戶的協(xié)同過濾的基本假設(shè):一個用戶會喜歡和他有相似興趣、喜好的用戶群喜歡的物品。
為了給目標(biāo)用戶做推薦,首先應(yīng)該找到與該用戶在興趣喜好上最相似的一組,然后做推薦。
兩個用戶相似,是指這兩個用戶喜歡過的物品集合相似。
基于物品的協(xié)同過濾的基本假設(shè)是用戶會喜歡和他以前喜歡過的物品,相似的物品。這種在電商的推薦里非常常見。
推薦的時候,首先從用戶行為歷史數(shù)據(jù)中檢索他之前喜歡過的物品集合,然后從尚未推薦的物品里找到和他喜歡的物品相似的物品,進(jìn)行推薦。
典型召回策略
根據(jù)興趣標(biāo)簽找到相應(yīng)文章,取回排序靠前文章。
推薦系統(tǒng)的數(shù)據(jù)依賴
推薦模型的特征抽取需要用戶和內(nèi)容的各種標(biāo)簽
召回策略需要獲取用戶側(cè)和內(nèi)容側(cè)的各種標(biāo)簽
用戶標(biāo)簽挖掘和內(nèi)容分析是搭建推薦系統(tǒng)的基石