国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
通過(guò)對(duì)web日志的挖掘來(lái)實(shí)現(xiàn)內(nèi)容推薦系統(tǒng) - 數(shù)據(jù)結(jié)構(gòu)和算法 - Tech - JavaE...
主題:通過(guò)對(duì)web日志的挖掘來(lái)實(shí)現(xiàn)內(nèi)容推薦系統(tǒng)
精華帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隱藏帖 (0)
作者 正文
ahuaxuan 等級(jí):
文章: 832 積分: 2506 來(lái)自: ca
發(fā)表時(shí)間:2008-03-09
<> 獵頭職位:上海: 30萬(wàn)起年薪誠(chéng)聘平臺(tái)高級(jí)架構(gòu)師
相關(guān)文章: 請(qǐng)做架構(gòu)的朋友一起討論下SNS中好友動(dòng)態(tài)功能建模的設(shè)計(jì)如何減少日志記錄占用的系統(tǒng)資源SSH的組合,你真的用Spring AOP去做日志管理了嗎?
推薦圈子:數(shù)據(jù)挖掘
更多相關(guān)推薦
/**
*作者:張榮華
*日期:2008-3-9
**/
先說(shuō)一說(shuō)問(wèn)題,不知道大家有沒(méi)有這樣的經(jīng)驗(yàn),反正我是經(jīng)常碰到。
舉例1,某些網(wǎng)站每隔幾天就發(fā)郵件給我,每次發(fā)的郵件內(nèi)容都是一些我根本不感興趣的東西,我不甚其擾,對(duì)其深?lèi)和唇^。
舉例2,添加具有某功能的一個(gè)msn機(jī)器人,每天都有幾次突然蹦出一個(gè)窗口,推薦一堆我根本不想知道的內(nèi)容,煩不煩啊, 我只好將你阻止掉。
每一個(gè)觀眾只想看他感興趣的東西,而不是一下與之無(wú)關(guān)的事物,那么如何才能知道觀眾的興趣所在呢,還是數(shù)據(jù)挖掘,經(jīng)過(guò)一番思考,終于有點(diǎn)思路,即根據(jù)用戶(hù)以往的瀏覽歷史來(lái)預(yù)測(cè)用戶(hù)將來(lái)的行為,也就是基于內(nèi)容的推薦。
基于內(nèi)容的推薦(Content-based Recommendation)是信息過(guò)濾技術(shù)的延續(xù)與發(fā)展,它是建立在項(xiàng)目的內(nèi)容信息上作出推薦的,而不需要依據(jù)用戶(hù)對(duì)項(xiàng)目的評(píng)價(jià)意見(jiàn),更多地需要用機(jī)器學(xué)習(xí)的方法從關(guān)于內(nèi)容的特征描述的事例中得到用戶(hù)的興趣資料。在基于內(nèi)容的推薦系統(tǒng)中,項(xiàng)目或?qū)ο笫峭ㄟ^(guò)相關(guān)的特征的屬性來(lái)定義,系統(tǒng)基于用戶(hù)評(píng)價(jià)對(duì)象的特征,學(xué)習(xí)用戶(hù)的興趣,考察用戶(hù)資料與待預(yù)測(cè)項(xiàng)目的相匹配程度。用戶(hù)的資料模型取決于所用學(xué)習(xí)方法,常用的有決策樹(shù)、神經(jīng)網(wǎng)絡(luò)和基于向量的表示方法等。基于內(nèi)容的用戶(hù)資料是需要有用戶(hù)的歷史數(shù)據(jù),用戶(hù)資料模型可能隨著用戶(hù)的偏好改變而發(fā)生變化。
基于內(nèi)容推薦方法的優(yōu)點(diǎn)是:
1)不需要其它用戶(hù)的數(shù)據(jù),沒(méi)有冷開(kāi)始問(wèn)題和稀疏問(wèn)題。?
2)能為具有特殊興趣愛(ài)好的用戶(hù)進(jìn)行推薦。?
3)能推薦新的或不是很流行的項(xiàng)目,沒(méi)有新項(xiàng)目問(wèn)題。?
4)通過(guò)列出推薦項(xiàng)目的內(nèi)容特征,可以解釋為什么推薦那些項(xiàng)目。?
5)已有比較好的技術(shù),如關(guān)于分類(lèi)學(xué)習(xí)方面的技術(shù)已相當(dāng)成熟。?
缺點(diǎn)是要求內(nèi)容能容易抽取成有意義的特征,要求特征內(nèi)容有良好的結(jié)構(gòu)性,并且用戶(hù)的口味必須能夠用內(nèi)容特征形式來(lái)表達(dá),不能顯式地得到其它用戶(hù)的判斷情況。
要實(shí)現(xiàn)內(nèi)容推薦系統(tǒng)總體來(lái)說(shuō)要經(jīng)過(guò)4個(gè)大的步驟:
1 搜集數(shù)據(jù),即搜集用戶(hù)的行為資料,其中也包括很多方法,根據(jù)我找到的資料與以往的經(jīng)驗(yàn)來(lái)看,web日志可以作為我們的切入點(diǎn),即我們的數(shù)據(jù)來(lái)源。
2 過(guò)濾數(shù)據(jù),web日志中有很多無(wú)用的信息,我們要把這些無(wú)用的信息排除掉,而且要區(qū)分出用戶(hù)和日志數(shù)據(jù)之間的聯(lián)系。
3 分析數(shù)據(jù),利用分類(lèi)聚類(lèi)技術(shù)分析出這些日志數(shù)據(jù)之間的關(guān)聯(lián)性,以及這些日志數(shù)據(jù)和用戶(hù)之間的關(guān)聯(lián)性,這也是最重要的一步。
4 輸出結(jié)果。
有了這個(gè)思路之后,我們可以著手做第一步,即日志數(shù)據(jù)的收集
我們知道,大多數(shù)的web服務(wù)器都是有自己的日志記錄的,比如說(shuō)apache安裝之后有一個(gè)logs目錄,其中就有它的日志文件,一般說(shuō)來(lái)它有自己的一個(gè)格式,比如說(shuō):
1瀏覽器所在主機(jī)的 IP 地址(ip); 2訪問(wèn)日期和時(shí)間(date-time);3客戶(hù)機(jī)與服務(wù)器通信所用的方法(methed,get or post); 4客戶(hù)機(jī)請(qǐng)求訪問(wèn)頁(yè)面的 URL; 5服務(wù)器返回的狀態(tài)(status); 6客戶(hù)端瀏覽器的類(lèi)型;
但是這個(gè)日志文件有一些不能克服的問(wèn)題,或者我不知道如何克服,那么我先說(shuō)說(shuō)我的疑問(wèn),首先,這個(gè)日志文件中記錄的是ip地址,據(jù)了解,網(wǎng)絡(luò)中有很多計(jì)算機(jī)的ip地址是相同的,因?yàn)樗麄冊(cè)谝粋€(gè)統(tǒng)一的路由后面,這個(gè)比例可能達(dá)到25%。那么我們就無(wú)法根據(jù)ip地址來(lái)唯一確定一個(gè)用戶(hù)。其次,一般的web服務(wù)器中都會(huì)用多個(gè)應(yīng)用,那么其他應(yīng)用的訪問(wèn)信息對(duì)我們來(lái)說(shuō)有可能是多余的。再者,web服務(wù)器的日志形式比較單一,靈活性不大,可定制的余地很小,在日志數(shù)據(jù)中有效數(shù)據(jù)所占的比例較小。還有,一些靜態(tài)文件的請(qǐng)求也會(huì)被web服務(wù)器記錄下來(lái),比如說(shuō)js文件,css文件,還有圖片文件,等等這些東西對(duì)內(nèi)容推薦來(lái)說(shuō)都是無(wú)用的資源。
基于上面3點(diǎn)原因,我認(rèn)為可以自定義日志數(shù)據(jù)。為了解決用戶(hù)唯一性,我們讓?xiě)?yīng)用為每一個(gè)瀏覽器生成一個(gè)clientId保存在對(duì)應(yīng)的瀏覽器上,這樣該瀏覽器只要訪問(wèn)網(wǎng)站,我們就可以確定這個(gè)瀏覽器的唯一性,當(dāng)然我們?nèi)匀徊荒艽_定瀏覽器使用者的唯一性,但是我們可以更進(jìn)一步,如果瀏覽器的使用者登陸網(wǎng)站的話(huà),我們就可以使用用戶(hù)id來(lái)確定用戶(hù)的唯一性,不過(guò)大多數(shù)網(wǎng)站用戶(hù)可能在使用網(wǎng)站的時(shí)候并不會(huì)登陸,我也是這樣,沒(méi)有關(guān)系,即使使用clientId問(wèn)題也不會(huì)太大,隨著社會(huì)的發(fā)展,計(jì)算機(jī)的擁有量逐漸增加,一般來(lái)說(shuō)一個(gè)人只會(huì)使用一臺(tái)固定的電腦,在公司里尤其是這樣。所以我認(rèn)為clientId的方案是可行的,也許有人要問(wèn),別人的瀏覽器禁止了cookie怎么辦,那么我只能說(shuō)沒(méi)有辦法,不過(guò)還好事實(shí)是絕大多數(shù)人都沒(méi)有這樣做。
接下來(lái)我們可以定義一下我們所需要的日志數(shù)據(jù)的格式,比如這樣,
ip,clientId,userId,url,datetime,get or post等等。
這樣數(shù)據(jù)有效性會(huì)大大提高。
在得到較為有效的數(shù)據(jù)之后,我們還需要對(duì)這些數(shù)據(jù)進(jìn)行再次過(guò)濾:
1 去掉一些非內(nèi)容的url,這些數(shù)據(jù)也是無(wú)效數(shù)據(jù),這些非內(nèi)容的url需要我們自己手工的統(tǒng)計(jì)出來(lái),然后和日志數(shù)據(jù)中的數(shù)據(jù)進(jìn)行比對(duì),將這些非內(nèi)容數(shù)據(jù)從日志數(shù)據(jù)中清除出去。
2 同時(shí)我們也需要把post請(qǐng)求從日志數(shù)據(jù)中清除出去,或者我們?cè)谟涗浫罩镜臅r(shí)候根本不應(yīng)該把post請(qǐng)求記錄下來(lái)。
經(jīng)過(guò)以上步驟之后我們就可以開(kāi)始第3個(gè)階段了,統(tǒng)計(jì)每個(gè)用戶(hù)的訪問(wèn)的url,對(duì)這些url進(jìn)行訪問(wèn),得到對(duì)應(yīng)的html中所包含的數(shù)據(jù),這些數(shù)據(jù)都是文本,將有用的文本提取出來(lái),然后對(duì)這些有用的文本進(jìn)行聚類(lèi)。這樣就可以得到每個(gè)用戶(hù)喜歡的幾個(gè)類(lèi)別。
聚類(lèi)完成之后我們就可以開(kāi)始分類(lèi)了,即把最新的文章或者內(nèi)容和對(duì)應(yīng)的類(lèi)別進(jìn)行匹配,匹配成功之后,我們可以認(rèn)為這個(gè)新文章或者內(nèi)容可以推薦給對(duì)應(yīng)的用戶(hù)。
問(wèn)題:以上的流程只適用于沒(méi)有使用緩存的系統(tǒng),但是一般大型的網(wǎng)站都會(huì)使用varnish,squid等等,使用它們之后我們就無(wú)法得到用戶(hù)訪問(wèn)的日志數(shù)據(jù)了,所以如果使用了varnish或者squid,我們不得不再次面對(duì)web服務(wù)器的日志數(shù)據(jù)。
在不考慮varnish或者squid的情況下,使用lucene+jamon+htmlparse基本就可以實(shí)現(xiàn)以上推薦系統(tǒng)。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
論文:用于挖掘Web日志的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)實(shí)現(xiàn) - 翔宇亭樂(lè)園
IE9的跟蹤保護(hù)能保護(hù)我的隱私么?
Web使用記錄挖掘
掌握數(shù)據(jù)生命周期:用戶(hù)行為數(shù)據(jù)的4個(gè)來(lái)源
你知道什么是CDN
什么是cdn?
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服