国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
支持向量機(jī)及其應(yīng)用

一、數(shù)據(jù)挖掘分類技術(shù)

數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)、數(shù)據(jù)庫和統(tǒng)計學(xué)三者相結(jié)合的產(chǎn)物。數(shù)據(jù)挖掘首先要確定挖掘的任務(wù)或目的,確定了挖掘任務(wù)后,就要決定使用什么樣的挖掘算法,選擇了算法后就可以實施數(shù)據(jù)挖掘操作,獲取有用的模式。

分類作為數(shù)據(jù)挖掘中一項非常重要的任務(wù),目前在商業(yè)上應(yīng)用最多(比如分析型CRM里面的客戶分類模型,客戶流失模型,客戶盈利等等,其本質(zhì)屬于分類問題)。分類的目的是學(xué)會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個,從而可以用于預(yù)測。目前,分類方法的研究成果較多,判別方法的好壞可以從三個方面進(jìn)行:

1)預(yù)測準(zhǔn)確度(對非樣本數(shù)據(jù)的判別準(zhǔn)確度);

2)計算復(fù)雜度(方法實現(xiàn)時對時間和空間的復(fù)雜度);

3)模式的簡潔度(在同樣效果情況下,希望決策樹小或規(guī)則少)。

近年來,對數(shù)據(jù)挖掘中分類算法的研究是該領(lǐng)域中一個熱點,對不同分類方法都有許多對比研究成果。沒有一個分類方法在對所有數(shù)據(jù)集上進(jìn)行分類學(xué)習(xí)均是最優(yōu)的。目前在數(shù)據(jù)挖掘軟件中運用的最早也是最多的分類算法是神經(jīng)網(wǎng)絡(luò),它具有對非線性數(shù)據(jù)快速建模的能力,通過對訓(xùn)練集的反復(fù)學(xué)習(xí)來調(diào)節(jié)自身的網(wǎng)絡(luò)結(jié)構(gòu)和連接權(quán)值,并對未知的數(shù)據(jù)進(jìn)行分類和預(yù)測。但是由于神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗最小化原理,它有如下幾個固有的缺陷:

1)結(jié)構(gòu)復(fù)雜(神經(jīng)元的結(jié)構(gòu),還有輸入層,隱含層,輸出層組合起來的復(fù)雜結(jié)構(gòu))

2)容易陷入局部極小

3) 容易出現(xiàn)過學(xué)習(xí)問題,也就是訓(xùn)練出來的模型推廣能力不強(qiáng)

為了克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的以上缺點,Vapnik提出了一種新的基于統(tǒng)計學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法―支持向量機(jī),正式奠定了SVM的理論基礎(chǔ),由于SVM扎實的理論基礎(chǔ),其目前已經(jīng)成為繼神經(jīng)網(wǎng)絡(luò)之后的的機(jī)器學(xué)習(xí)領(lǐng)域研究熱點之一。

 

二、支持向量機(jī)核心思想

支持向量機(jī)實現(xiàn)是通過某種事先選擇的非線性映射(核函數(shù))將輸入向量映射到一個高維特征空間,在這個空間中構(gòu)造最優(yōu)分類超平面。我們使用使用SVM進(jìn)行數(shù)據(jù)集分類工作的過程首先是通過預(yù)先選定的一些非線性映射將輸入空間映射到高維特征空間(如下圖)

 

 

 使得在高維屬性空間中有可能對訓(xùn)練數(shù)據(jù)實現(xiàn)超平面的分割,避免了在原輸入空間中進(jìn)行非線性曲面分割計算。SVM數(shù)據(jù)集形成的分類函數(shù)具有這樣的性質(zhì):它是一組以支持向量為參數(shù)的非線性函數(shù)的線性組合,因此分類函數(shù)的表達(dá)式僅和支持向量的數(shù)量有關(guān),而獨立于空間的維度。在處理高維輸入空間的分類時,這種方法尤其有效。其工作原理如下圖

 

 

三、支持向量機(jī)在數(shù)據(jù)挖掘中的應(yīng)用

鑒于支持向量機(jī)扎實的理論基礎(chǔ),并且和傳統(tǒng)的學(xué)習(xí)算法想比較(比如人工神經(jīng)網(wǎng)絡(luò)),SVM通過提高數(shù)據(jù)的維度把非線性分類問題轉(zhuǎn)換成線性分類問題,較好解決了傳統(tǒng)算法中訓(xùn)練集誤差最小而測試集誤差仍較大的問題,算法的效率和精度都比較高。所以近年來該方法成為構(gòu)造數(shù)據(jù)挖掘分類器的一項新型技術(shù),在分類和回歸模型中得到了很好的應(yīng)用。但由于支持向量機(jī)出現(xiàn)的時間在90年代中期,人們對支持向量機(jī)的應(yīng)用主要集中在模式識別方面,對于將支持向量機(jī)應(yīng)用于數(shù)據(jù)挖掘的研究剛處于起步階段。

目前,用SVM構(gòu)造數(shù)據(jù)挖掘中的分類器來處理海量數(shù)據(jù)主要面臨以下兩個困難:

 

(1)SVM算法對大規(guī)模訓(xùn)練樣本難以實施

由于SVM是借助二次規(guī)劃來求解支持向量,而求解二次規(guī)劃將涉及m階矩陣的計算(m為樣本的個數(shù)),當(dāng)m數(shù)目很大時該矩陣的存儲和計算將耗費大量的機(jī)器內(nèi)存和運算時間。

針對以上問題的主要改進(jìn)有有J.PlattSMO算法、T.JoachimsSVM 、C.J.C.Burges等的PCGC、張學(xué)工的CSVM以及O.L.Mangasarian等的SOR算法

(2)SVM解決多分類問題存在困難

經(jīng)典的支持向量機(jī)算法只給出了二類分類的算法,而在數(shù)據(jù)挖掘的實際應(yīng)用中,一般要解決多類的分類問題??梢酝ㄟ^多個二類支持向量機(jī)的組合來解決。主要有一對多組合模式、一對一組合模式和SVM決策樹;再就是通過構(gòu)造多個分類器的組合來解決。主要原理是克服SVM固有的缺點,結(jié)合其他算法的優(yōu)勢,解決多類問題的分類精度。如:與粗集理論結(jié)合,形成一種優(yōu)勢互補(bǔ)的多類問題的組合分類器

 

 

四、考慮一點商業(yè)智能中應(yīng)用

支持向量機(jī)是基于統(tǒng)計學(xué)習(xí)理論的新一代學(xué)習(xí)機(jī)器,具有很多吸引人的特點,它在函數(shù)表達(dá)能力、推廣能力和學(xué)習(xí)效率上都要優(yōu)于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),在實際應(yīng)用中也解決了許多問題,但由于SVM的出現(xiàn)比較晚,還處于發(fā)展階段,尤其是其算法實現(xiàn)方面存在著效率低下的問題,這也是限制SVM很好地應(yīng)用于數(shù)據(jù)挖掘中的一個瓶頸。可以考慮對傳統(tǒng)支持向量機(jī)進(jìn)行擴(kuò)展,實現(xiàn)多分類支持向量機(jī)。可以考慮運用于現(xiàn)在的客戶智能系統(tǒng)當(dāng)中,現(xiàn)有客戶智能系統(tǒng)采用的分類技術(shù)都是傳統(tǒng)的數(shù)據(jù)挖掘技術(shù):

比如神經(jīng)網(wǎng)絡(luò),決策樹,回歸分析等等。根據(jù)最后的圖,大家可以看到現(xiàn)在的分析型CRM的整個功能和技術(shù)架構(gòu),如果把這種新興的數(shù)據(jù)挖掘技術(shù)-支持向量機(jī),運用于商業(yè)智能,相信是種不錯的嘗試。

 
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
支持向量機(jī)通俗導(dǎo)論(理解SVM的三層境界)
支持向量機(jī)及其R實現(xiàn)
對SVM的個人理解
一文看懂支持向量機(jī)
四個小項目完全解讀支持向量機(jī) | 文末附代碼下載方法
面試 | SVM 高頻面試題
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服