国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決2 - 期刊雜志|免費(fèi)雜志|電子雜志|雜志下載

協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決


□ 吳 顏 沈 潔 顧天竺 陳曉紅 李 慧 張 舒

  基于項目的協(xié)同過濾推薦算法[1,3,4],從產(chǎn)品角度進(jìn)行分析,尋找與目標(biāo)產(chǎn)品相似的產(chǎn)品集合,然后進(jìn)行預(yù)測和推薦。它基于一個假設(shè),即用戶對與其感興趣產(chǎn)品相似的產(chǎn)品也感興趣。由于項目間的相似性相對穩(wěn)定,而通常項目的數(shù)量比用戶數(shù)量少,這樣可以減少計算量,降低數(shù)據(jù)稀疏性。
  算法步驟:
  (1)通過相似性算法,計算列向量的余弦相似性,即產(chǎn)品向量的相似性。
  (2)選擇相似性最高且沒有被目標(biāo)用戶評價過的前M個產(chǎn)品,作為產(chǎn)品的鄰居集合Mp。
  (3)對鄰居集合中產(chǎn)品的評分進(jìn)行加權(quán)求和,得到目標(biāo)用戶對目標(biāo)產(chǎn)品的預(yù)測評分
  2.2 降低矩陣維數(shù)的技術(shù)
  降低矩陣維數(shù)的技術(shù)可對原始稀疏數(shù)據(jù)直接進(jìn)行數(shù)據(jù)處理,降低數(shù)據(jù)稀疏性。主要算法有單值分解、聚類等。
  2.2.1 單值分解
  單值分解算法利用矩陣的單值分解原理,對用戶—產(chǎn)品矩陣進(jìn)行分解,從而降低矩陣的維數(shù),抽取出主要信息[2,5]。
  算法步驟:
  (1)使用每個產(chǎn)品的平均評分——列平均值——填充矩陣中的未評分項。
  (2)利用用戶的平均評分——行平均值——進(jìn)行標(biāo)準(zhǔn)化,產(chǎn)生矩陣R。
  (3)對R進(jìn)行單值分解,得到
  (6)根據(jù)同一產(chǎn)品被鄰居評分的頻繁程度產(chǎn)生推薦。
  從算法步驟可以看出,通過單值分解得到的較低維的UkS1/2k矩陣比原始用戶—產(chǎn)品稠密,并且抽取出了所有用戶信息。在這個矩陣上進(jìn)行相似性計算,可以減少計算量,提高在線推薦速度,并且提高推薦質(zhì)量。實驗表明,該算法在分解矩陣過程中,不可避免數(shù)據(jù)遺失。當(dāng)原始矩陣極度稀疏時,單值分解算法試驗結(jié)果并不理想。算法需要較大的計算量,較少的存儲空間。
  2.2.2 聚類
  單值分解通過矩陣運(yùn)算降低數(shù)據(jù)稀疏性,聚類[6-9]則是通過一些聚類算法將產(chǎn)品或用戶聚成若干具有共同性質(zhì)的類;然后在小的聚類數(shù)據(jù)中產(chǎn)生推薦。
  (1)取前K個用戶作為K個獨(dú)立的聚類質(zhì)心;剩余的每個用戶與其最近質(zhì)心進(jìn)行比較。
  (2)在形成聚類質(zhì)心的基礎(chǔ)上,重新計算聚類的質(zhì)心。
  (3)聚類內(nèi)部的成員關(guān)系被重新估算。重復(fù)(1)-(3),直到產(chǎn)生的K個聚類不再變化。
  (4)在目標(biāo)用戶所在的類中進(jìn)行用戶相似性計算,主要運(yùn)用第一部分中的相關(guān)相似性方法計算,得到最近鄰居集合。
  (5)對最近鄰居的評分?jǐn)?shù)據(jù)進(jìn)行加權(quán)處理:
  (6)預(yù)測產(chǎn)生后,根據(jù)預(yù)測評分的高低對目標(biāo)用戶進(jìn)行推薦。
  2.3 基于內(nèi)容的協(xié)同過濾算法
  2.1、2.2節(jié)中介紹的算法都是建立在用戶對產(chǎn)品評分的基礎(chǔ)上,在一定程度上都緩和了數(shù)據(jù)稀疏帶來的問題。基于產(chǎn)品內(nèi)容的協(xié)同過濾算法[11]與前面介紹的幾種算法的不同之處,是考慮到了產(chǎn)品本身的信息。由于增加了信息量,可以有效提高推薦質(zhì)量。
  
本文原文
  單純的基于產(chǎn)品內(nèi)容的算法,根據(jù)單個用戶已評價產(chǎn)品的內(nèi)容信息,如電影的導(dǎo)演、演員、類型等,建立用戶興趣模型,進(jìn)而產(chǎn)生推薦。這樣的算法存在一些弊端:①由于通常獲得的只是產(chǎn)品的部分信息,其他一些未知信息很有可能影響用戶的行為,這就造成了推薦的不準(zhǔn)確。②用戶的喜好通常是多樣的,而單個用戶評分的產(chǎn)品數(shù)量卻非常少。這樣就使推薦局限于特定類型的產(chǎn)品上。
  基于內(nèi)容的協(xié)同過濾技術(shù)則不同。目前這方面的算法主要有線性結(jié)合型和連續(xù)結(jié)合型兩個類型,如圖2、3所示。
  線性結(jié)合型算法步驟:
  (1)通過歷史評價的產(chǎn)品內(nèi)容信息,建立用戶興趣模型。
  (2)比較用戶模型,得到基于內(nèi)容的用戶相似性。
  (3)根據(jù)用戶—產(chǎn)品評分矩陣,得到基于評分的用戶相似性。
  (4)將兩個相似性進(jìn)行線性組合,得到用戶相似性。
  (5)根據(jù)相似性,得到目標(biāo)用戶的最近鄰居集。
  (6)通過鄰居集對目標(biāo)用戶進(jìn)行評分預(yù)測和推薦。這個過程可以用2.1、2.2節(jié)介紹的算法進(jìn)行。
  連續(xù)結(jié)合型算法步驟:
  (1)通過歷史評價的產(chǎn)品內(nèi)容信息,建立用戶興趣模型。
  (2)根據(jù)每個用戶興趣模型的相互比較,獲得目標(biāo)用戶的最近鄰居集。
  (3)將符合目標(biāo)用戶或其鄰居興趣模型的產(chǎn)品推薦給目標(biāo)用戶。
  以上兩種算法混合了協(xié)同過濾算法和基于內(nèi)容的推薦算法,緩和了傳統(tǒng)協(xié)同過濾算法沒有考慮產(chǎn)品本身信息的缺陷,也解決了基于內(nèi)容的推薦算法中單個用戶信息稀少的問題。然而,產(chǎn)品信息的獲取和存儲,是一個困難且昂貴的問題。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
介紹電子商務(wù)系統(tǒng)中的協(xié)同過濾推薦技術(shù)_介紹信_第二教育資源網(wǎng)
綜述協(xié)同過濾推薦中存在的常見問題及解決方法
Edwin Chen的Netflix推薦競賽技術(shù)總結(jié)
Spark機(jī)器學(xué)習(xí)
用數(shù)據(jù)科學(xué)搭建一個實時推薦引擎
CSDDN特約專稿:個性化推薦技術(shù)漫談
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服