聚類(lèi)是數(shù)據(jù)挖掘中用來(lái)發(fā)現(xiàn)數(shù)據(jù)分布和隱含模式的一項(xiàng)重要技術(shù)[1]。作為一種常見(jiàn)的數(shù)據(jù)分析工具和無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法,聚類(lèi)的目的是把數(shù)據(jù)集合分成若干類(lèi)(或簇),使得每個(gè)類(lèi)中的數(shù)據(jù)之間最大限度地相似,而不同類(lèi)中的數(shù)據(jù)最大程度地不同。根據(jù)聚類(lèi)算法所采用的基本思想,大致可以將它們分為五種[2],即劃分聚類(lèi)、層次聚類(lèi)、基于密度的聚類(lèi)、基于網(wǎng)格的聚類(lèi)和基于模型的聚類(lèi)。目前對(duì)聚類(lèi)算法的研究正在不斷深入,其中核聚類(lèi)算法和譜聚類(lèi)算法是近年來(lái)受到廣泛關(guān)注的兩種算法[3]。 核聚類(lèi)方法的主要思想是通過(guò)一個(gè)非線(xiàn)性映射,將輸入空間中的數(shù)據(jù)點(diǎn)映射到高維特征空間中,并選取合適的Mercer核函數(shù)代替非線(xiàn)性映射的內(nèi)積,在特征空間中進(jìn)行聚類(lèi)。該方法是普適的,它比經(jīng)典的聚類(lèi)方法有較大的改進(jìn)。它通過(guò)非線(xiàn)性映射增加了數(shù)據(jù)點(diǎn)線(xiàn)性可分的概率,即能較好地分辨、提取并放大有用的特征,從而實(shí)現(xiàn)更為準(zhǔn)確的聚類(lèi),算法收斂速度也較快。在經(jīng)典聚類(lèi)算法失效的情況下,核聚類(lèi)算法常常能得到較好的聚類(lèi)結(jié)果[4]。 支持向量聚類(lèi)(Support Vector Clustering, SVC)屬于核聚類(lèi)的一種,它以支持向量機(jī)(Support Vector Machine, SVM)為工具進(jìn)行聚類(lèi)[5]。它是Ben-Hur等在基于高斯核的SVDD(Support Vector Domain Description)算法基礎(chǔ)上進(jìn)一步發(fā)展起來(lái)的無(wú)監(jiān)督非參數(shù)型的聚類(lèi)算法[6]。它的基本思想是:利用高斯核,將數(shù)據(jù)空間中的數(shù)據(jù)點(diǎn)映射到一個(gè)高維的特征空間中。再在特征空間中尋找一個(gè)能包圍所有數(shù)據(jù)點(diǎn)象的半徑最小的球,將這個(gè)球映回到數(shù)據(jù)空間,則得到了包含所有數(shù)據(jù)點(diǎn)的等值線(xiàn)集。這些等值線(xiàn)就是簇的邊界。每一條閉合等值線(xiàn)包圍的點(diǎn)屬于同一個(gè)簇[7, 8]。SVC算法主要分為兩個(gè)階段:SVC訓(xùn)練階段和聚類(lèi)分配階段。其中SVC訓(xùn)練階段包括高斯核寬度系數(shù)的確定、核矩陣的計(jì)算、Lagrange乘子的計(jì)算、支持向量的選取和高維特征空間中特征球半徑的計(jì)算。聚類(lèi)分配階段首先生成鄰接矩陣,然后根據(jù)鄰接矩陣進(jìn)行聚類(lèi)分配[9]。 SVC算法具有兩大顯著優(yōu)勢(shì):能產(chǎn)生任意形狀的簇邊界;能分析噪聲數(shù)據(jù)點(diǎn)且能分離相互交疊的簇。這是許多聚類(lèi)算法無(wú)法做到的。但SVC算法仍存在兩個(gè)瓶頸: Lagrange乘子的計(jì)算和鄰接矩陣的計(jì)算。相對(duì)而言,后者需要消耗的計(jì)算時(shí)間遠(yuǎn)比前者多[9]。因此很多新的SVC算法都旨在提高鄰接矩陣的計(jì)算效率[10, 11]。 參考文獻(xiàn) [1] Xu R, Wunsch D. Survey of Clustering Algorithms. IEEE Transaction on Neural Networks, 2005, 16(3): 645-678. [2] Han J, Kamber M. Data Mining: Concepts and Techniques, Second Edition. Morgan Kaufmann, [3] Filippone M, Camastra F, Masulli F, Rovetta S. A Survey of Kernel and Spectral Methods for Clustering. Pattern Recognition, 2008, 41(1): 176-190. [4] 張莉,周偉達(dá),焦李成. 核聚類(lèi)算法. 計(jì)算機(jī)學(xué)報(bào), 2002, 25(6): 587-590. [5] Burges C J C. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery, 1998, 2(2): 121-167. [6] Tax D M J, Duin R P W. Support Vector Domain Description. Pattern Recognition Letters, 1999, 20(11-13): 1191-1199. [7] Ben-Hur A, Horn D, Siegelmann H T, Vapnik V. Support Vector Clustering. Journal of Machine Learning Research, 2001, 2(12): 125-137. [8] Scholkopf B, Williamson R, Smola A, Shawe-Taylor J, Platt J. Support Vector Method for Novelty Detection. Advances in Neural Information Processing System 12. 2000: 582-588. [9] 呂???,姜澄宇,王寧生. 一種支持向量聚類(lèi)的快速算法. 華南理工大學(xué)學(xué)報(bào). 2005, 33(1): 6-9. [10] Lee J, Lee D. An Improved Cluster Labeling Method for Support Vector Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27(3): 461-464. [11] Camastra F, Verri A. A Novel Kernel Method for Clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005, 27(5):801-805.
|
本文引用地址: http://www.sciencenet.cn/m/user_content.aspx?id=252321 |
聯(lián)系客服