一、認識數(shù)據(jù)挖掘
隨著數(shù)據(jù)采集技術和存儲技術 的快速發(fā)展,企業(yè)建立了龐大的數(shù)據(jù)庫和數(shù)據(jù)倉庫,積累了大量的數(shù)據(jù),利用這些數(shù)據(jù)輔助企業(yè)正確決策,已經(jīng)成為商界的共識。然而數(shù)據(jù)的“爆炸式”增長,讓一般的數(shù)據(jù)分析技術望而卻步,數(shù)據(jù)挖掘便在此背景下迅速發(fā)展起來。
從技術的角度看,數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的實際應用數(shù)據(jù)中,提取潛在有用的信息和知識的過程。從商業(yè)的角度看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型處理,從中提取出輔助商業(yè)決策的關鍵性知識,即發(fā)現(xiàn)數(shù)據(jù)中的相關商業(yè)模式。 數(shù)據(jù)挖掘融合了人工智能(artificial intelligence)、統(tǒng)計學(statistics)、機器學習(machine learning)、模式識別(pattern recognition)和數(shù)據(jù)庫等多種學科的理論,方法和技術,如下圖
一。目前在金融服務機構、零售商、金融服務機構、制造業(yè)、電信公司、保險公司、醫(yī)療業(yè)、航空業(yè)、政府等各個領域中取得了廣泛的應用。
二、數(shù)據(jù)挖掘的基本操作流程
為了規(guī)范數(shù)據(jù)挖掘的操作,行業(yè)專家根據(jù)基本操作,提出了兩個流程SEMMA和CRISP-DM。CRISP-DM是跨行業(yè)數(shù)據(jù)挖掘標準流程Cross Industry Standard Process for Data Mining的簡稱,CRISP-DM強調(diào)數(shù)據(jù)挖掘不只是數(shù)據(jù)的組織、呈現(xiàn)、分析和建模,而是一個從理解企業(yè)需求、尋求解決方案到實踐檢驗的完整過程。CRISP-DM過程可圖示如下:
它采用分層方法將一個數(shù)據(jù)挖掘項目的周期定義為6個階段,每一階段的要點簡述如下:
1.商業(yè)理解Business Understanding
這一初始階段集中在從商業(yè)角度理解項目的目標和要求,然后理解轉化為數(shù)據(jù)挖掘問題的定義和一個旨在實現(xiàn)目標的初步計劃。
2.數(shù)據(jù)理解Data Understanding
數(shù)據(jù)理解階段開始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù),標明數(shù)據(jù)質(zhì)量,探索對數(shù)據(jù)的初步理解,發(fā)覺有趣的子集以形成對隱藏信息的假設。
3.數(shù)據(jù)準備Data Preparation
數(shù)據(jù)準備階段包括所有從原始的未加工的數(shù)據(jù)構造最終數(shù)據(jù)集的活動(此數(shù)據(jù)集指將要嵌入建模工具中的數(shù)據(jù))。數(shù)據(jù)準備任務可能被實施多次,而且沒有任何規(guī)定的順序。這些任務包括表格、記錄和屬性的選擇以及按照建模工具要求,對數(shù)據(jù)的轉換和清洗。
4.建模Modeling
在此階段,主要是選擇和應用各種建模技術,同時對它們的參數(shù)進行校準以達到最優(yōu)值。通常對于同一個數(shù)據(jù)挖掘問題模型,會有多種模型技術。一些技術對數(shù)據(jù)格式有特殊的要求。因此,常常需要返回到數(shù)據(jù)準備階段。
5.評估Evaluation
進入項目中的這個階段時,你已經(jīng)建立一個模型(或者多個),從數(shù)據(jù)分析的角度來看,該模型似乎有很高的質(zhì)量,在模型發(fā)布前,很重要的一點--更徹底地評估模型和檢查建立模型的各個步驟,從而使它達到真正的高質(zhì)量。此階段關鍵目的是決定是否存在一些重要的商業(yè)問題仍未得到充分地考慮。關于數(shù)據(jù)挖掘結果的使用決定應該在此階段結束時確定下來。
6.發(fā)布Deployment
模型的創(chuàng)建通常不是項目的結尾。即使建模目的是增加對數(shù)據(jù)的了解,所獲得的了解也需要進行組織并以一種客戶能夠使用的方式呈現(xiàn)出來。這常常包括在一個組織的決策過程中應用“現(xiàn)場”模型。不過根據(jù)需要發(fā)布過程可以簡單到產(chǎn)生一個報告,也可以復雜到在整個企業(yè)中執(zhí)行一個可重復的數(shù)據(jù)挖掘過程。大部分情況下,是由客戶來實施發(fā)布的,而非數(shù)據(jù)分析師。盡管如此,即使分析師并不執(zhí)行發(fā)布,這對客戶也是十分重要的--提前了解需要采取什么行動來實際利用產(chǎn)生的模型。
三、數(shù)據(jù)挖掘的主要技術及軟件:
數(shù)據(jù)挖掘技術有多種分類方式,比如可以分為描述性數(shù)據(jù)挖掘、預測性數(shù)據(jù)挖掘;按照應用領域進行分類,又可以分成電信行業(yè)數(shù)據(jù)挖掘、保險行業(yè)數(shù)據(jù)挖掘、商業(yè)數(shù)據(jù)挖掘、制造業(yè)數(shù)據(jù)挖掘等,
下面主要介紹最常用的有五大技術。
關聯(lián)規(guī)則:關聯(lián)規(guī)則是數(shù)據(jù)挖掘中最先研究的領域,簡單的理解就是分析數(shù)據(jù)項之間的關聯(lián)關系。最經(jīng)典的應用案例是“啤酒和尿布的故事”
分類:分類是一種典型的有監(jiān)督的學習方法,其目的是從一組已知類別的數(shù)據(jù)中發(fā)現(xiàn)分類模型,以預測新數(shù)據(jù)的類別。數(shù)據(jù)分類技術在信用卡審批、保險欺詐分析、客戶流失分析等,都有廣泛的應用。以保險欺詐分析為例,就是根據(jù)現(xiàn)有正??蛻艉推墼p客戶的資料,分析欺詐客戶的潛在特征,可以對新購買保險的客戶進行分析,從而有利于企業(yè)控制風險。
聚類:聚類是一種典型的無監(jiān)督學習方法,它根據(jù)對象自身的相似性,把一組對象劃分成一系列有意義的子集,從而能更好的描述原數(shù)據(jù),即我們常說的“物以類聚”。數(shù)據(jù)分析被廣泛應用于相似搜索、信息檢索、顧客劃分等。以顧客劃分為例,聚類技術就是找出那些具有相似消費行為的客戶,從而對他們采取相應的促銷措施,增加企業(yè)的利潤。
預測和估計:這兩種方法都是利用已知值去預測未知值,不同的是估計是橫向的,預測是縱向的。比如,估計是根據(jù)顧客的教育程度、性別、工資收入來預測其消費額,預測則是根據(jù)過去的消費數(shù)據(jù)預測未來的消費額。
數(shù)據(jù)挖掘的軟件,應用比較多的有以下幾種:
Enterprise Miner(SAS),在數(shù)據(jù)挖掘市場非常杰出的工具,它運用了SAS統(tǒng)計模型的力量和影響力,依照SEMMA的挖掘流程,抽樣、探測、修改、建模、評價,提供了包括聚類、分類、關聯(lián)規(guī)則、神經(jīng)網(wǎng)絡和統(tǒng)計回歸等多種算法。
Clementine(SPSS),此分析工具結合了多種圖形用戶接口的分析技術,包含神經(jīng)網(wǎng)絡、決策樹、聚類分析等多種算法技術,按照CRISP_DM的流程組織數(shù)據(jù)挖掘,來執(zhí)行分析功能,非常適合快速掌握數(shù)據(jù)挖掘技術。
Intelligent Miner(IBM),包含了大量的數(shù)據(jù)挖掘算法,如預測、分類、關聯(lián)規(guī)則、聚類等,能夠處理相當大的數(shù)據(jù)量,具有強大的計算能力,并且能夠方便的整合使用者的算法。
WEKA,WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一個開源免費軟件。WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔數(shù)據(jù)挖掘任務的機器學習算法,包括對數(shù)據(jù)進行預處理、分類、回歸、聚類、關聯(lián)規(guī)則以及在新的交互式界面上的可視化。
馬可威軟件,目前唯一的國產(chǎn)數(shù)據(jù)挖掘軟件,功能比較強大,可視化的圖像操作界面,整合了大量的數(shù)據(jù)挖掘算法,如神經(jīng)網(wǎng)絡算法、決策樹算法、模糊聚類、關聯(lián)規(guī)則、支持向量機、粗糙集、貝葉斯算法等。
還有很多如Angoss Software開發(fā)的KS軟件、Oracle的 Darwin 、S-PlUS等。
四、數(shù)據(jù)挖掘在電信業(yè)的應用
隨著國內(nèi)電信業(yè)三分天下局面的形成,電信業(yè)之間的競爭越來越激烈,電信公司已經(jīng)從傳統(tǒng)的“技術驅(qū)動”,靠技術取勝,逐步轉向了“市場驅(qū)動”、“顧客驅(qū)動”。這就要求電信公司必須制定以顧客關系為導向的管理策略,為顧客提供精細化、個性化、多樣化的服務,要做到這一點,必須充分利用其掌握的顧客信息,輔助商業(yè)決策,從而提高公司利潤,提高客戶的滿意度和忠誠度。
按照客戶的生命周期分為三個階段:客戶獲取階段,客戶培育及成熟階段,客戶衰退階段
1、客戶的獲取階段:
客戶的獲取包括發(fā)現(xiàn)那些對公司產(chǎn)品不了解的客戶,他們可能是產(chǎn)品的潛在消費客戶,也可能是接受競爭對手產(chǎn)品的客戶, 或者可能是公司已經(jīng)流失的客戶。數(shù)據(jù)挖掘可以幫助企業(yè)快速完成對潛在客戶的篩選工作。電信公司擁有本公司客戶信息,可以得出本公司客戶的基本特征比如性別、學歷、年齡、工資收入、婚否、是否有房、是否有車等信息,利用聚類分析技術,找出本公司已有客戶的基本特征。還必須向市場調(diào)研公司或者相關統(tǒng)計部門獲取一份潛在顧客的名單,包括他們的上述相關信息。通過比較已有客戶和潛在名單客戶的基本特征,可以挑選出能夠接受本公司服務的“準客戶”。這樣不但能減少獲取客戶的費用,也能大大提高獲取效率,能夠有的放矢。當電信公司擴展某項業(yè)務時,也可以利用此信息,對可能性大的顧客進行定向推廣,這樣效率會大有提高。
2、顧客的培育及成熟階段:
交叉銷售,是指向現(xiàn)有的客戶提供新的產(chǎn)品和服務的營銷過程,那些購買了某種產(chǎn)品和服務的客戶很有可能同時購買你提供的某些感興趣的其他產(chǎn)品,或者對于現(xiàn)有服務的升級服務比較感興趣。這是一個雙贏的局面,一方面客戶能夠得到更個性化,多樣化的服務,另一方面,公司能夠增加利潤。如何才能給特定的人推薦特定的服務呢?這首先要分析客戶的消費行為,建立關聯(lián)規(guī)則模型,比如說長途通話行為和漫游行為,如果用戶對這二者的使用較高的話,可以推薦其使用相應的套餐等。
客戶利潤分析,利潤是公司追求的目標,可以根據(jù)客戶的消費行為,將客戶能夠為公司帶來利潤程度的不同分為低、中、高三類客戶。著名的“商界定律”:80%的利潤來自20%的客戶,如果企業(yè)能牢牢把握住這20%的客戶,并且能不斷的增大這個比重,將普通客戶提升為高價值客戶,對公司的利潤將是一個巨大的提升。要進行利潤分析,必須首先確定客戶給公司帶來利潤的計算方式,并建立相應的數(shù)據(jù)挖掘模型,對所有客戶進行判別,當然在具體判別時還要考慮多種因素,比如說入網(wǎng)時間,所屬套餐等,只有這樣才能夠正確評價客戶的價值。
細分客戶,不同的客戶有著不同的消費需求,比如學生可能對短信的需求量大,而商務人士可能對長途,漫游等通話要求高,根據(jù)這些不同的消費層次,可以對顧客進行細分。客戶細分將一個大的消費群體分成若干個小的消費群體,同屬于一個小的分群的消費行為相似,而隸屬于不同分群的被視為不同的群體,這樣電信公司就可以針對不同群體客戶提出的要求來改善自己的服務,提高客戶的滿意度。通過這種細分還可以找到某種服務的潛在消費客戶,可以針對性的營銷,降低營銷成本。
客戶的欺詐檢測,據(jù)統(tǒng)計,每年全球因電信欺詐造成的損失占電信業(yè)務總收入的5%以上,這給電信運營商造成了很大的損失。面對電信欺詐行為的不斷擴張,原先采用行政催繳的弊端日益顯露,比如成本巨大,效果不是很理想,且這些行為都是事后性的,對即將發(fā)生的電信欺詐沒有預見性。數(shù)據(jù)挖掘技術通過利用欺詐的消費信息,比如通話時間、通話次數(shù)、長途漫游等,建立客戶的欺詐模型,比如貝葉斯模型、決策樹模型等,能夠提前預知顧客欺詐的可能性,立即采取措施,降低公司的損失。還可以利用孤立點分析對特征明顯的欺詐客戶進行準確識別。
3、顧客的保留階段:
客戶的滿意度分析,滿意度是客戶對公司提供產(chǎn)品和服務的整體感受,滿意度是忠誠度的基礎,只有對公司產(chǎn)品和服務滿意度高的客戶才會忠誠于公司。電信公司應當定期的對客戶進行抽樣調(diào)查并且結合投訴服務中心的資料,通過數(shù)據(jù)挖掘建立決策樹模型、結合分析模型、因子主成分分析模型,尋找影響滿意度最大的因素,這樣可以使公司快速改善服務,提高客戶的滿意度。
客戶的保留分析,客戶的保留分析或者流失率分析與客戶的滿意度分析,有著密切的聯(lián)系。那些對服務長期不滿的人極有可能會放棄公司的服務。獲取一個新客戶的成本是留住一個老客戶成本的10倍以上,因此公司為增加自己的利潤,必須最大限
度的降低客戶的流失率,利用已經(jīng)擁有的客戶信息,比如客戶屬性,服務屬性和客戶消費數(shù)據(jù)等與客戶流失相關聯(lián)的數(shù)據(jù),建立客戶流失預測模型,可以采用分類、關聯(lián)、聚類等方法建模,把握住流失客戶的基本特征,提早預測出要流失的客戶,從而采取特定的營銷措施挽留住這些客戶。
五、電信挖掘中應當注意的問題
數(shù)據(jù)挖掘時一個整體的流程,涵蓋業(yè)務的理解、數(shù)據(jù)的理解、數(shù)據(jù)的預處理、模型的建構、模型的檢驗及發(fā)布等,任何一個環(huán)節(jié)都要確保正確,數(shù)據(jù)挖掘需要依靠技術人員、業(yè)務人員和專家的通力合作,數(shù)據(jù)挖掘是一個團隊的工作。
由于電信業(yè)數(shù)據(jù)量極大,在對特定目的進行分析時,一般要給予某一套餐類型,或者某個增值業(yè)務,并且要注意地區(qū)因素等,這樣得到的結果才具有可靠性,且客戶的基本信息可能缺失比較嚴重,在數(shù)據(jù)處理時要格外注意,與專家共同商議處理缺失值的方法。
上面介紹的模型,并不是孤立沒有聯(lián)系的,由于客戶的入網(wǎng)時間不同,很多模型都是同時進行的,要注意模型之間的結合,對于已經(jīng)建立的模型要不斷的利用新數(shù)據(jù)進行更新,使之準確性不隨時間而下降。
六、結語
隨著社會的進步,各行各業(yè)的競爭也越來越激烈,特別是當今經(jīng)濟危機爆發(fā),如何利用企業(yè)積累的大量數(shù)據(jù),輔助企業(yè)的決策,使企業(yè)在嚴酷的環(huán)境中能生存下來,數(shù)據(jù)挖掘在電信業(yè)中的應用,或許能給我們有益的啟示。