今天將描述超市購(gòu)物籃內(nèi)容(所購(gòu)買的全部商品的集合)的虛構(gòu)數(shù)據(jù),以及購(gòu)買的相關(guān)個(gè)人數(shù)據(jù)(通過(guò)忠誠(chéng)卡方案獲得)。目的是尋找購(gòu)買相似產(chǎn)品并且可按人口統(tǒng)計(jì)學(xué)方式(年齡,收入)刻畫其特征的客戶群。
要做這項(xiàng)工作,要進(jìn)行兩個(gè)階段的工作:
關(guān)聯(lián)規(guī)則建模和一個(gè)解釋所購(gòu)買商品之間聯(lián)系的WEB顯示;
C5.0規(guī)則歸納(描繪已標(biāo)識(shí)產(chǎn)品組的購(gòu)買者的特征)
Note:此應(yīng)用不直接使用預(yù)測(cè)模型,因此,不對(duì)最終模型進(jìn)行準(zhǔn)確性度量,在數(shù)據(jù)挖掘過(guò)程中也不存在與之相關(guān)的訓(xùn)練/檢驗(yàn)兩個(gè)步驟的區(qū)分。
本例使用baskrule的流,該流引用名為BASKETS1n的數(shù)據(jù)文件。這些文件可在Clementine安裝文件的Demo目錄中找到。文件baskrule位于streams目錄下。
訪問(wèn)數(shù)據(jù)
使用“變量文件”節(jié)點(diǎn)連接到數(shù)據(jù)集BASKETS1n,選擇要從該文件讀取的字段名稱。
將“類型”節(jié)點(diǎn)連接到數(shù)據(jù)源,然后將該節(jié)點(diǎn)連接到“表”節(jié)點(diǎn)。
將字段卡ID的測(cè)量級(jí)別設(shè)置為無(wú)類型(因?yàn)槊總€(gè)忠誠(chéng)卡ID在數(shù)據(jù)集中只出現(xiàn)一次,因此對(duì)于建模沒(méi)有用處)。選擇名義作為字段性別的測(cè)量級(jí)別(確保Apriori建模算法不會(huì)將性別視為標(biāo)志)。
連接一個(gè)表,顯示數(shù)據(jù)如下:
購(gòu)物籃摘要:
cardid購(gòu)買此籃商品的客戶的忠誠(chéng)卡標(biāo)識(shí)符。
value購(gòu)物籃的總購(gòu)買價(jià)格
pmethod購(gòu)物籃的支付方法
卡持有者的個(gè)人詳細(xì)信息:
sex
homeown卡持有者是否擁有住房
income
age
購(gòu)物籃內(nèi)容—產(chǎn)品類別的出現(xiàn)標(biāo)志:
fruitveg
freshmeat
dairy
cannedveg
cannedmeat
frozenmeal
beer
wine
softdrink
fish
confectionery
發(fā)現(xiàn)購(gòu)物籃內(nèi)容的關(guān)系
首先,需要使用Apriori大致了解購(gòu)物籃內(nèi)容的關(guān)系(關(guān)聯(lián))以生成關(guān)聯(lián)規(guī)則,選擇要再此建模過(guò)程中使用的字段,方法是:編輯“類型”節(jié)點(diǎn),將所有產(chǎn)品類別的角色設(shè)置為兩者,并將所有其他角色設(shè)置為無(wú)。(雙向表示該字段可以是結(jié)果模型的輸入或者輸出。)
指定了用于建模的字段后,將Apriori節(jié)點(diǎn)附加到“類型”節(jié)點(diǎn),編輯它,選擇選項(xiàng)“只顯示值為真的標(biāo)志變量”。
然后在Apriori節(jié)點(diǎn)上單擊“運(yùn)行”。結(jié)果(管理器窗口右上角“模型”選項(xiàng)卡上的模型)包含可以查看(使用上下文菜單,然后選擇“瀏覽”)的關(guān)聯(lián)規(guī)則。
這些規(guī)則顯示凍肉,罐裝蔬菜和啤酒之間尊在多種關(guān)聯(lián)。出現(xiàn)雙向關(guān)聯(lián)規(guī)則。
frozenmeal->beer
beer->frozenmeal
提示:WEB顯示(只顯示雙向關(guān)聯(lián))可能會(huì)突出顯示此數(shù)據(jù)中的一些模式。將WEB節(jié)點(diǎn)附加到“類型”節(jié)點(diǎn),編輯WEB節(jié)點(diǎn),選擇所有購(gòu)物籃內(nèi)容字段,選擇“僅顯示true標(biāo)志”。
然后在WEB節(jié)點(diǎn)上單擊“運(yùn)行”。
因?yàn)榇蠖鄶?shù)產(chǎn)品類別組合都會(huì)出現(xiàn)在多個(gè)購(gòu)物籃中,所以WEB上的強(qiáng)連接太多,無(wú)法顯示模型表示的客戶群。故我們要進(jìn)行限制性WEB顯示。
要制定弱連接和強(qiáng)連接,請(qǐng)單擊工具欄上的黃色雙箭頭按鈕。這回展開(kāi)顯示W(wǎng)EB輸出摘要和控件的對(duì)話框。
選擇“大小表示強(qiáng)/正常/弱”。
將弱連接設(shè)置為低于90。
將強(qiáng)連接設(shè)置為高于100。
在最終顯示中,會(huì)有三個(gè)客戶群突出顯示:
購(gòu)買魚(yú)和果蔬的客戶,可將這類客戶成為“健康食客”
購(gòu)買酒和糧果的客戶
購(gòu)買啤酒、凍肉和罐裝蔬菜(“啤酒、豆類和比薩”)的客戶
描繪客戶群的特征
根據(jù)客戶購(gòu)買的產(chǎn)品類型標(biāo)識(shí)了三個(gè)客戶群,但是還要知道這些客戶是誰(shuí),即,他們的人口統(tǒng)計(jì)學(xué)特征。通過(guò)為每個(gè)群中,每個(gè)客戶添加標(biāo)志,并使用規(guī)則歸納(C5.0)來(lái)基于規(guī)則描繪這些標(biāo)志的特征,可以實(shí)現(xiàn)這一點(diǎn)。
首先,必須獲取每個(gè)群的標(biāo)志。使用剛剛創(chuàng)建的web顯示,可以自動(dòng)生成每個(gè)群的標(biāo)志,使用鼠標(biāo)右鍵,單擊fruitveg和fish之間的鏈接以突出顯示該鏈接,然后右鍵單擊并選擇“為鏈接生成‘派生’節(jié)點(diǎn)”。
編輯最終的“派生”節(jié)點(diǎn)以將“派生”字段名稱更改為健康。使用從wine到confectionery的鏈接重復(fù)該練習(xí),并將最終的“派生”字段命名為wine_chocs.
對(duì)于第三個(gè)群(涉及三個(gè)鏈接),首先要確保未選擇任何鏈接。然后,按住shift同時(shí)單擊鼠標(biāo)左鍵,從而選擇cannedveg、beer和frozenmeal中的全部三個(gè)鏈接。(一定要處于“交互”模式而不是“編輯”模式。)然后,從web顯示菜單中選擇:
生成>導(dǎo)出節(jié)點(diǎn)(“和”)
將最終“派生”字段的名稱更改為beer_beans_pizza。
要描繪這些客戶群的特征,要連續(xù)將現(xiàn)有的類型節(jié)點(diǎn)連接到這三個(gè)導(dǎo)出節(jié)點(diǎn),然后附加另一個(gè)類型節(jié)點(diǎn)。在新的“類型”節(jié)點(diǎn)中,將除以下字段外的所有字段的角色都設(shè)置為無(wú):value、pmethod、sex、homeown、income和age(這些字段的角色應(yīng)該設(shè)置為輸入),以及相關(guān)的客戶群(例如,beer_beans_pizza,他們的角色應(yīng)該設(shè)置為目標(biāo))。
附加C5.0節(jié)點(diǎn),將輸出類型設(shè)置為規(guī)則集,然后在節(jié)點(diǎn)上單擊“運(yùn)行”。最終模型(用于beer_beans_pizza)包含此客戶群的明確人口統(tǒng)計(jì)學(xué)特征:
Rule 1 for T:
if sex=M
and income <=16,900
then T
此案例結(jié)合了Apriori和C5.0完成了用戶購(gòu)買行為的分析(一方面是用戶的自身行為的把握,另一方面是用戶買什么產(chǎn)品,怎么搭配讓用戶去買的把握)事實(shí)上,多數(shù)的時(shí)候我們只完成了一方面的工作,或者把二者隔離開(kāi)來(lái)分析,真正的分析不應(yīng)該是只問(wèn)用戶買什么,我們?cè)趺创钆滗N售最好,還要精準(zhǔn)投放,精準(zhǔn)的分析用戶的自身素質(zhì)。
從上圖發(fā)現(xiàn):
工資收入高于16950的人購(gòu)買三者的比例99.2%
工資低于16950的人的女士購(gòu)買三者比例98.8%
等等……
通過(guò)在第二個(gè)類型節(jié)點(diǎn)中選擇其他客戶群標(biāo)志作為輸出,可將同意方法應(yīng)用到這些標(biāo)志,通過(guò)在此上下文使用Apriori代替C5.0,可生成更多替代特征描繪;Apriori也用于同時(shí)描繪所有客戶群的特征,原因是,Apriori并非被限制到一個(gè)輸出字段。下圖為整個(gè)過(guò)程的數(shù)據(jù)流。
Via: http://www.cnblogs.com/yuyang-DataAnalysis/archive/2011/10/25/2223298.html
聯(lián)系客服