国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
模糊聚類理論發(fā)展及應(yīng)用的研究進(jìn)展

高新波 謝維信

摘要 從模糊聚類準(zhǔn)則函數(shù)的演化、算法實(shí)現(xiàn)的途徑、有效性度量方式以及在模式識(shí)別與圖像處理中的應(yīng)用等4個(gè)方面對(duì)模糊聚類理論的研究進(jìn)展做了綜述和評(píng)價(jià),指出模糊聚類進(jìn)一步研究的幾個(gè)重要方向及其應(yīng)用前景. 
關(guān)鍵詞 聚類分析 模糊聚類 聚類有效性 模式識(shí)別 圖像處理

  聚類就是按照事物間的相似性進(jìn)行區(qū)分和分類的過程,在這一過程中沒有教師指 導(dǎo),因此是一種無監(jiān)督的分類. 聚類分析則是用數(shù)學(xué)方法研究和處理所給定對(duì)象的分類. “人以群分,物以類聚”,聚類是一個(gè)古老的問題,它伴隨著人類社會(huì) 的產(chǎn)生和發(fā)展而不斷深化,人類要認(rèn)識(shí)世界就必須區(qū)別不同的事物并認(rèn)識(shí)事物間的相似性[1]. 
傳統(tǒng)的聚類分析是一種硬劃分,它把每個(gè)待辨識(shí)的對(duì)象嚴(yán)格地劃分到某個(gè)類中,具有非此即彼的性質(zhì),因此這種分類的類別界限是分明的. 而實(shí)際上大多數(shù)對(duì)象并沒有嚴(yán)格的屬性,它們?cè)谛詰B(tài)和類屬方面存在著中介性,適合進(jìn)行軟劃分. Zadeh[2]提 出的模糊集理論為這種軟劃分提供了有力的分析工具,人們開始用模糊的方法來處理聚類問題,并稱之為模糊聚類分析. 由于模糊聚類得到了樣本屬于各個(gè)類別的 不確定性程度,表達(dá)了樣本類屬的中介性,即建立起了樣本對(duì)于類別的不確定性的描述,能更客觀地反映現(xiàn)實(shí)世界,從而成為聚類分析研究的主流.
模糊劃分的概念最早由Ruspini[3]提出,利用這一概念人們提出了多種聚類方法,比較典型的有:基于相似性關(guān)系和模糊關(guān)系的方法(包括聚合法和分裂法)[4],基于模糊等價(jià)關(guān)系的傳遞閉包方法[5]、基于模糊圖論最大樹方法[6], 以及基于數(shù)據(jù)集的凸分解、動(dòng)態(tài)規(guī)劃和難以辨識(shí)關(guān)系等方法. 然而由于上述方法不適用于大數(shù)據(jù)量情況,難以滿足實(shí)時(shí)性要求高的場(chǎng)合,因此其實(shí)際的應(yīng)用不夠廣 泛,故在該方面的研究也就逐步減少了. 實(shí)際中受到普遍歡迎的是基于目標(biāo)函數(shù)的方法,該方法設(shè)計(jì)簡(jiǎn)單、解決問題的范圍廣,最終還可以轉(zhuǎn)化為優(yōu)化問題而借助 經(jīng)典數(shù)學(xué)的非線性規(guī)劃理論求解,并易于計(jì)算機(jī)實(shí)現(xiàn). 因此,隨著計(jì)算機(jī)的應(yīng)用和發(fā)展,該類方法成為聚類研究的熱點(diǎn). 
以下將從目標(biāo)函數(shù)的演化、算法的實(shí)現(xiàn)途徑、有效性度量方式以及在實(shí)際中的應(yīng)用等4個(gè)方面綜述基于目標(biāo)函數(shù)的模糊聚類方法的研究進(jìn)展. 有關(guān)傳統(tǒng)聚類分析以及其他的模糊聚類方法的系統(tǒng)總結(jié)可參見文獻(xiàn)[1,7~10]. 

1 模糊聚類目標(biāo)函數(shù)的演化
模糊聚類問題可以用數(shù)學(xué)語言描述為:把一組給定的模式O={o1,o2,…,on}劃分為c個(gè)模糊子集(聚類)S1,S2,…,Sc. 如果用μik(1≤i≤c, 1≤k≤n)表示模式ok隸屬于模糊子集Si的程度,那么就得到了這組模式的模糊c-劃分U={μik|1≤i≤c, 1≤k≤n}. 完成這樣一組無類別標(biāo)記模式集模糊劃分的操作就是模糊聚類分析.為了獲得有意義的分類,需要定義劃分的準(zhǔn)則,如相似性或相異性準(zhǔn)則D(.)等. 假定每個(gè)模糊子集Si(1≤i≤c)都有一個(gè)典型模式pi,常被稱做聚類原型,這樣任一模式ok與模糊子集Si的相似性可以通過模式ok與聚類原型pi間的失真度dik=D(ok,pi)來度量. 
基于目標(biāo)函數(shù)的模糊聚類主要是利用模式集O的觀測(cè)值X={x1,x2,…,xn}Rs與原型特征值B={βi, 1≤i≤c}之間的距離構(gòu)造一個(gè)目標(biāo)函數(shù),然后通過優(yōu)化這一帶約束的非線性規(guī)劃問題獲得最佳的模糊c-劃分:

      (1)

其中,ζ為懲罰項(xiàng),f(μik)∈C為約束條件,m為加權(quán)指數(shù). 這樣,模糊聚類的目標(biāo)函數(shù)就由參量集{U,D(.),B,m,X}而確定. 對(duì)應(yīng)于這些參量,模糊聚類目標(biāo)函數(shù)的發(fā)展演化可以從以下5個(gè)大的方面來概括. 
1.1 對(duì)模糊劃分矩陣U的研究
傳統(tǒng)的聚拎分析為一種硬劃分,μi(xk)∈{0,1}為樣本xk類屬的指示函 數(shù),而類別標(biāo)記矢量μ(xk)=(μ1k2k,…,μck)T則成為歐氏c-空間的基矢量. 為了表達(dá)模式間的相近信息,Ruspini[3]引入了模糊劃分的概念,令μi(xk)∈[0,1],把標(biāo)記矢量μ(xk)擴(kuò)展為歐氏c-空間中的超平面

,這樣標(biāo)記矢量既可稱做模糊標(biāo)記又可稱為概率標(biāo)記. 由于存在概率約束,使得隸屬函數(shù)只能表示模式在模糊類間的分享程度,而不能反映典型性,為此Krishnapuram等人[11]提出可能性c-劃分的概念,放松了概率約束
,從而使標(biāo)記矢量μ(xk) 變?yōu)槌ピc(diǎn)的單位超立方體. 由此而產(chǎn)生的可能性聚類算法具有良好的抗噪性能,但收斂速度慢,容易陷入局部極值點(diǎn)而得不到最優(yōu)分類. 為了結(jié)合傳統(tǒng)硬聚 類的收斂速度和模糊聚類的對(duì)初始化不敏感(獲得全局最優(yōu)解的概率大)而且能反映樣本間相近信息等優(yōu)點(diǎn),Selim和Ismail[12]提出了半模糊劃分的概念,只保留劃分矩陣中較模糊的元素,其余的元素作去模糊處理. 這樣使劃分矩陣U既具有一定的明晰性,又保持了樣本在空間分布的模糊性,從而提高了分類識(shí)別的正確性. 后來,Kamel等人[13]以及裴繼紅等人[14]分別從不同的角度提出了改進(jìn)型的半模糊劃分方法,即為閾值型軟聚類算法和截集模糊軟聚類算法. 上述幾種軟劃分的比較顯示在表1中. 

表1 4種空間劃分概念的比較

項(xiàng)目 可能性聚類 模糊聚類 傳統(tǒng)聚類 半模糊聚類
標(biāo)記矢量集 Npc=[0,1]c-O
O={(0,0,…,0)T}
Nhc={μi∈Nfc:
μi∈{0,1},i}
Nsc=Nfc
∪Nhc
物理意義 表示每個(gè)樣本
屬于各類的典型程度
表示每個(gè)樣本在
各類間的分享程度
是樣本嚴(yán)格類屬
的指示函數(shù)
只有部分樣
本類分模糊
收斂速度 較慢 較快
對(duì)初始化
的敏感性
很敏感 不很敏感 敏感 不很敏感
抗噪性能 強(qiáng) 較強(qiáng) 較強(qiáng)
  如何提高可能性劃分的收斂速度并降低它對(duì)初始化的敏感程度,仍然是從模糊劃分角度進(jìn)一步研究模糊聚類的一個(gè)重要方向. 如果在這方面有所突破,就可以得到一種既具有良好的抗噪魯棒性,同時(shí)又能快速收斂到滿意解的空間劃分方法,不僅能從理論上完善現(xiàn)有的模糊軟聚類方法,也必將縮短它的實(shí)用化進(jìn)程.
1.2 對(duì)相似性準(zhǔn)則D(.)的研究
單一的聚類準(zhǔn)則不能解決所有可能的無監(jiān)督分類問題,因此人們提出了多種相似性函數(shù),比如:最大似然準(zhǔn)則[15]、最大熵準(zhǔn)則[16]、最小體積準(zhǔn)則[17]和信息論準(zhǔn)則[18]等. 不過,實(shí)際中最常用的還是基于最小類內(nèi)加權(quán)平方誤差和準(zhǔn)則. 
經(jīng)典的類內(nèi)平方誤差和(WGSS: within-group sum of squared error)準(zhǔn)則函數(shù)最早被用來定義傳統(tǒng)的硬c-均值聚類算法和ISODATA算法. 隨著模糊集理論的提出,Dunn[19]首先把它推廣到加權(quán)的WGSS函數(shù),后由Bezdek[20]擴(kuò)展到加權(quán)WGSS的無限族,形成了模糊c-均值類型算法的通用聚類準(zhǔn)則,形式如式(1)所示. 對(duì)該準(zhǔn)則函數(shù)的研究主要集中在相似性測(cè)度或者誤差度量D(.)上,一般用樣本與原型間的距離表示. 不同距離度量用來檢測(cè)不同結(jié)構(gòu)的數(shù)據(jù)子集,常用的距離函數(shù)見表2. 

表2 常見的距離函數(shù)及特點(diǎn)

名稱 距離函數(shù) 特點(diǎn)功能
Minkowski
對(duì)應(yīng)1≤p≤∞為一族距離測(cè)度,可用來檢測(cè)從◇形超立方體到□形超立方體結(jié)構(gòu)的數(shù)據(jù)子集
Euclidean
對(duì)應(yīng)p=2的Minkowski距離,可用以檢測(cè)特征空間中○形超球體結(jié)構(gòu)的數(shù)據(jù)子集
Hamming
對(duì)應(yīng)p=1的Minkowski距離,可用以檢測(cè)特征空間中◇形超立方體結(jié)構(gòu)的數(shù)據(jù)子集
Maximum
對(duì)應(yīng)p=∞的Minkowski距離,可用以檢測(cè)特征空間中□形超立方體結(jié)構(gòu)的數(shù)據(jù)子集
Mahalanobis DA(a,b)=(a-b)TA(a-b),
A為正定矩形
可用來檢測(cè)特征空間中超橢球結(jié)構(gòu)的數(shù)據(jù)子集
  Bobrowski等人[21]分別討論了L1和L范數(shù)下的模糊聚類算法(即Hamming和Maximum距離),發(fā)現(xiàn)在許多情況下它們比常用的歐氏范數(shù)L2能獲得更好的結(jié)果,建議在聚類分析中要選擇合適的距離函數(shù). 另外Mahalanobis距離的一種特例——加權(quán)歐氏距離(對(duì)應(yīng)A為對(duì)角陣)還被廣泛地使用于模式各維特征對(duì)分類貢獻(xiàn)不同的應(yīng)用背景[22]. 
在給定數(shù)據(jù)中搜索一個(gè)結(jié)構(gòu)可以看做尋找合適的距離函數(shù). 這就給我們留下了一個(gè)問題:選擇合適距離的準(zhǔn)則是什么?能否構(gòu)造一種不依賴于事先定義距離測(cè)度的模糊聚類算法?現(xiàn)有文獻(xiàn)很少涉及這一問題,仍屬于有待解決的范疇. 
1.3 對(duì)聚類原型B的研究
基于目標(biāo)函數(shù)的模糊聚類又稱做基于原型的聚類,因?yàn)槟繕?biāo)函數(shù)的構(gòu)造依賴于原型的定義,因此原型的類型必須事先給定. 聚類原型的研究是伴隨著聚類應(yīng)用 的發(fā)展和需求而展開的,最初的聚類分析只應(yīng)用于特征空間中超球體聚類結(jié)構(gòu)的檢測(cè),因此原型為特征空間中的“點(diǎn)”,或者叫聚類中心[20];為了處理非超球體的聚類結(jié)構(gòu),Bezdek[23]提出了通過點(diǎn)v∈Rp的r(0≤r≤p-1)維線性簇原型Br(v:{si})={v}+Span({si}),其特點(diǎn)見表3.

表3 幾種原型的特點(diǎn)比較

線性簇維數(shù) 聚類原型 功能特點(diǎn)
r=0 B0(v;I)=v:點(diǎn) 檢測(cè)超球體和橢球體結(jié)構(gòu)的子集
r=1 B1(v;s)=L(v;s):線 檢測(cè)線性結(jié)構(gòu)的模式子集
r=2 B2(v;s1,s2)=P(v;s1,s2):平面 檢測(cè)平面結(jié)構(gòu)的模式子集
2<r≤p-1 Bp-1(v;{si})=HP(v;{si}):超平面 檢測(cè)超平面結(jié)構(gòu)的模式子集
  此外,為了檢測(cè)呈“薄殼”結(jié)構(gòu)的模式子集,Dave提出球殼[24]和橢球殼[25]兩種原型,并將其應(yīng)用于邊緣檢測(cè)中獲得了較好的效果. 隨著應(yīng)用的需求殼原型被推廣到矩形殼[26]、多面體殼[27]以及任意形狀的殼原型[28]等多種類型,而對(duì)于線性原型也逐步被擴(kuò)展為拋物線[29]、二次曲線以及任意二次多項(xiàng)式形式的原型[30]. 
基于目標(biāo)函數(shù)的聚類對(duì)原型有較強(qiáng)的依賴性,因此要求一方面必須充分利用先驗(yàn)知識(shí)選擇合適的原型,另一方面必須與距離測(cè)度相結(jié)合研究,構(gòu)造合理的相似性度量. 
1.4 對(duì)加權(quán)指數(shù)m的研究
在模糊聚類目標(biāo)函數(shù){Jm: 1<m<∞}中,Bezdek[20]引入了加權(quán)指數(shù)m,使Dunn的聚類準(zhǔn)則變成m=2時(shí)的特例. 有人認(rèn)為從數(shù)學(xué)上看參數(shù)m的出現(xiàn)不自然也沒有必要[16],但是對(duì)于從硬聚類準(zhǔn)則函數(shù)推廣得到的目標(biāo)函數(shù)(1),如果不給隸屬度乘一個(gè)權(quán)重,這種推廣則是無效的. 參數(shù)m又稱為平滑因子,控制著模式在模糊類間的分享程度[20],因此,要實(shí)現(xiàn)模糊聚類就必須選定一個(gè)m,然而最佳m的選取目前尚缺乏理論指導(dǎo). 
Bezdek[31]給出過一個(gè)經(jīng)驗(yàn)范圍1.1≤m≤5;后又從物理解釋上得出m=2最有意義;Chan等人[32]從漢字識(shí)別的應(yīng)用背景得出m的最佳取值應(yīng)在1.25~1.75之間;Bezdek等人[33]從算法收斂性角度著手,得出m的取值與樣本數(shù)目n有關(guān)的結(jié)論,建議m的取值要大于n/(n-2);Pal等人[34]則從聚類有效性的實(shí)驗(yàn)研究中得到m的最佳選取區(qū)間應(yīng)為[1.5,2.5],在不作特殊要求下可取區(qū)間中值m=2. 
上述有關(guān)m取值范圍,大都來自實(shí)驗(yàn)和經(jīng)驗(yàn),均為啟發(fā)式的,一方面不夠系統(tǒng),另一方面沒有給出具體的優(yōu)選算法. 此外,也還缺乏最優(yōu)m的檢驗(yàn)方法. 這一系列的開放問題,都值得進(jìn)一步的探索,以便奠定m優(yōu)選的理論基礎(chǔ). 
1.5 對(duì)各種數(shù)據(jù)集X聚類的研究
在實(shí)際應(yīng)用中會(huì)遇到不同的數(shù)據(jù)類型,因此要研究模糊聚類的目標(biāo)函數(shù)就必須首先研究所要處理的數(shù)據(jù)類型. 常見的數(shù)據(jù)大都為特征空間中的點(diǎn)集
,除此以外,人們還研究了關(guān)系數(shù)據(jù)[35]、方向數(shù)據(jù)[36]、區(qū)間型數(shù)據(jù)和模糊數(shù)[37]等形式,并得出了一些有意義的結(jié)論. 還有一種類型的數(shù)據(jù)——符號(hào)數(shù)據(jù)[38],也引起了廣泛的關(guān)注. 這種數(shù)據(jù)不僅包括一般數(shù)值型數(shù)據(jù),還包括區(qū)間數(shù)、模糊數(shù)和語言量等形式,在模糊概念聚類方面有著較多的研究和應(yīng)用,但這些類型的數(shù)據(jù)并不常用,實(shí)際中最常遇到的數(shù)據(jù)多數(shù)為部分有標(biāo)記的、噪聲污染的和多種結(jié)構(gòu)混合的數(shù)據(jù). 
針對(duì)存在部分標(biāo)記的數(shù)據(jù),為了獲得更好的聚類效果,Pezdrcy[39]提出了部分監(jiān)督的模糊聚類算法,以利用數(shù)據(jù)中蘊(yùn)涵的先驗(yàn)知識(shí). Bensaid[40]又進(jìn)一步發(fā)展了該理論,把它應(yīng)用于圖像分割中,并取得了良好的效果. 對(duì)于噪聲污染的數(shù)據(jù),更是涌現(xiàn)了大批的魯棒聚類算法以克服噪聲干擾,Dave等人[41]對(duì)這些方法做了很好的總結(jié),在此不再贅述. 至于多種結(jié)構(gòu)并存的數(shù)據(jù),只有Gustafson等人[42]提出的模糊協(xié)方差矩陣聚類方法能同時(shí)檢測(cè)橢球形結(jié)構(gòu)和線性結(jié)構(gòu),Jawahar等人[43]又對(duì)不同的幾何結(jié)構(gòu)聚類的檢測(cè)做了一定的嘗試,除此以外很少有這方面的研究報(bào)道. 
因此,對(duì)于這3種數(shù)據(jù)集的分析遺留了很多問題,要使模糊聚類真正走向?qū)嵱没?,就必須進(jìn)一步分析實(shí)際數(shù)據(jù)的各種情況,研究“可充分利用先驗(yàn)知識(shí)的聚類算法”、“能容噪的魯棒算法”和“可同時(shí)檢測(cè)多種結(jié)構(gòu)的聚類方法”等. 

2 模糊聚類算法實(shí)現(xiàn)途徑的研究
有了聚類的準(zhǔn)則函數(shù),接下來就是如何優(yōu)化目標(biāo)函數(shù)獲得最佳聚類的問題了,即研究算法的實(shí)現(xiàn)途徑. 現(xiàn)有的實(shí)現(xiàn)途徑主要分為3類:基于交替優(yōu)化(AO)、神經(jīng)網(wǎng)絡(luò)(NN)和進(jìn)化計(jì)算(EC)等方法. 以下概述這3方面的研究進(jìn)展. 
2.1 基于交替優(yōu)化的實(shí)現(xiàn)
在優(yōu)化目標(biāo)函數(shù)的過程中,人們?cè)囂竭^動(dòng)態(tài)規(guī)劃、分支定界和凸切割等方法,然而大量的存貯空間和運(yùn)行時(shí)間限制了其應(yīng)用. 實(shí)際中應(yīng)用最為廣泛的是Dunn和Bezdek[19,20]提出的迭代優(yōu)化算法——模糊c-均值類型的算法,到目前為止,對(duì)它的研究主要集中在收斂性證明、算法停止準(zhǔn)則的設(shè)立以及原型初始化等方面. 
幾經(jīng)修補(bǔ),最后證得交替優(yōu)化算法沿一個(gè)子序列收斂到目標(biāo)函數(shù)的極值點(diǎn)或鞍點(diǎn)[44,45]. 對(duì)于停止準(zhǔn)則,提出了以連續(xù)兩代的原型變化量小于某個(gè)閾值和劃分矩陣變化量小于某個(gè)閾值兩類方法[46]. 不幸的是,由于迭代優(yōu)化本質(zhì)上屬于局部搜索的爬山法,很容易陷入局部極值點(diǎn),因此對(duì)初始化較敏感. 為了獲得全局最優(yōu)解或滿意解,人們把希望寄托在好的初始化上,比較有名的初始化方法有Yager等人[47]提出的山函數(shù)或勢(shì)函數(shù)法,不過該方法的計(jì)算量隨樣本維數(shù)呈指數(shù)增長(zhǎng),為此,Chiu[48]提出改進(jìn)算法使計(jì)算量只與樣本數(shù)目有關(guān),解決了計(jì)算精度與復(fù)雜度之間的矛盾;此外還有Chaudhuri[49]的密度函數(shù)估計(jì)法、Postaire[50]的形態(tài)學(xué)方法以及模糊測(cè)度法和Marr算子等方法. 
2.2 基于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)
神經(jīng)網(wǎng)絡(luò)在聚類分析中的應(yīng)用首先起源于Kohonen[51]的兩項(xiàng)工作——學(xué)習(xí)矢量量化和自組織特征映射以及Grossberg[52]的自適應(yīng)共振理論,兩者的主要情況如表4所示. 

表4 2種聚類神經(jīng)網(wǎng)絡(luò)的比較

項(xiàng)目 Kohonen聚類網(wǎng)絡(luò)   Grossberg聚類網(wǎng)絡(luò)  
輸入量 精確的數(shù)值量 數(shù)值量或模糊語言量
輸出量 聚類原型(特征矢量) 分類結(jié)果和類別數(shù)
學(xué)習(xí)方式 競(jìng)爭(zhēng)學(xué)習(xí)(梯度下降) 模糊邏輯操作
聚類數(shù)目 事先給定 自動(dòng)確定
功能用途 球型硬聚類、特征映射 球型硬聚類、模式分類
  用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)聚類分析顯著的優(yōu)勢(shì)在于神經(jīng)網(wǎng)絡(luò)的并行處理,因?yàn)樵诖髷?shù)據(jù)量 情況下聚類是相當(dāng)耗時(shí)的. 然而,以上兩種聚類網(wǎng)絡(luò)仍存在應(yīng)用的局限性——只能實(shí)現(xiàn)球型的硬聚類,為此人們?cè)谀:窠?jīng)網(wǎng)絡(luò)的集成研究方面做了不懈的努力. 從總體上看,模糊聚類神經(jīng)網(wǎng)絡(luò)的研究可分為兩類:一類是從目標(biāo)函數(shù)法演變而來的,其基礎(chǔ)是模糊競(jìng)爭(zhēng)學(xué)習(xí)算法,比較有代表性的如Pal和Bezdek[53]提出的基于競(jìng)爭(zhēng)學(xué)習(xí)的模糊聚類網(wǎng)絡(luò),解決了球型分布樣本的模糊聚類;Xu[54]提出了帶懲罰項(xiàng)的競(jìng)爭(zhēng)學(xué)習(xí)算法,可以自動(dòng)確定聚類數(shù);Zhang[55]提出了一種基于Gauss非線性的競(jìng)爭(zhēng)學(xué)習(xí)算法,用于模糊聚類并給出了硬件實(shí)現(xiàn)方法. 另一類模糊聚類神經(jīng)網(wǎng)絡(luò)由模糊邏輯操作構(gòu)成,比如Carpenter等人[56]在ART基礎(chǔ)上發(fā)展的模糊ART,比ART在性能上有較大的改善,Simpson[57]提出的模糊Min-Max網(wǎng)絡(luò)實(shí)現(xiàn)了超盒子形狀的模糊聚類,但這類網(wǎng)絡(luò)的研究很分散,不僅數(shù)量少,理論上也不很成熟. 
2.3 基于進(jìn)化計(jì)算的實(shí)現(xiàn)
進(jìn)化計(jì)算是建立在生物進(jìn)化基礎(chǔ)之上基于自然選擇和群體遺傳機(jī)理的隨機(jī)搜索算法. 由于它全局并行搜索,故可以較高的概率獲得全局最優(yōu)解. 此外進(jìn)化計(jì) 算還具有簡(jiǎn)單、通用和魯棒性強(qiáng)等優(yōu)點(diǎn). 為了獲得快速準(zhǔn)確的聚類,人們把進(jìn)化計(jì)算引入到模糊聚類中,形成了一系列基于進(jìn)化計(jì)算的模糊聚類算法. 
這一系列算法大致可分為3種類型:一是基于模擬退火的方法,比如有對(duì)模糊分類矩陣U退火處理的[58],有對(duì)聚類原型漸進(jìn)優(yōu)化的[59],然而由于模擬退火算法只有當(dāng)溫度下降足夠慢時(shí)才能收斂到全局最優(yōu)點(diǎn),極大的運(yùn)算時(shí)間限制了其實(shí)用性;二是基于遺傳算法[60]和進(jìn)化策略[61]的方法,這方面的研究主要集中在解的編碼方案、適應(yīng)度函數(shù)的構(gòu)造以及遺傳算子和操作參數(shù)等方面1);三是基于Tabu搜索的算法,主要是AL-Sultan做了一些探索和嘗試[62],這方面的研究還是很初步的,有待于進(jìn)一步的深入.
對(duì)比上述3類模糊聚類的實(shí)現(xiàn)途徑,得到如表5所示的結(jié)果. 從表中可知,3種方法各有優(yōu)缺點(diǎn),從而啟發(fā)我們結(jié)合各自的優(yōu)點(diǎn)去構(gòu)造速度快、精度高而且對(duì)初始化不敏感的模糊聚類算法,比如把梯度算子引入進(jìn)化計(jì)算中,用進(jìn)化計(jì)算來訓(xùn)練神經(jīng)網(wǎng)絡(luò)等,都是很有前途的方向.

表5 3種模糊聚類實(shí)現(xiàn)途徑的比較

項(xiàng)目 基于迭代優(yōu)化的方法 基于神經(jīng)網(wǎng)絡(luò)的方法 基于進(jìn)化計(jì)算的方法
搜索本質(zhì) 梯度下降 梯度下降 隨機(jī)搜索
收斂速度 較快
算法精度 受編碼長(zhǎng)度限制
算法結(jié)構(gòu) 串行 各維特征間并行 各個(gè)體間并行
初始化敏感性 敏感 敏感 不敏感

3 模糊聚類有效性的研究

對(duì)于給定的數(shù)據(jù)集,首先需要判斷有無聚類結(jié)構(gòu),這屬于聚類趨勢(shì)研究的課題,如果已經(jīng)確認(rèn)有聚類結(jié)構(gòu)則需要用算法來確定這些結(jié)構(gòu),這屬于聚類分析研究的 課題. 得到聚類結(jié)構(gòu)后,則需要分析聚類的結(jié)果是否合理,這屬于聚類有效性研究的課題. 對(duì)聚類分析而言,有效性問題又可以轉(zhuǎn)化為最佳類別數(shù)c的確定[20]. 
歷史上有關(guān)聚類有效性問題的研究大都是基于硬c-均值和模糊c-均值算法的,Dubes[9]和Jain[63]曾對(duì)80年前的研究做過評(píng)述. 現(xiàn)有的聚類有效性函數(shù)按其定義方式可分為:基于數(shù)據(jù)集模糊劃分的、基于數(shù)據(jù)集幾何結(jié)構(gòu)的和基于數(shù)據(jù)集統(tǒng)計(jì)信息的3類,3類的理論基礎(chǔ)和特點(diǎn)均列于表6中. 

表6 3類聚類有效性函數(shù)的特點(diǎn)比較

比較項(xiàng)目 基于模糊劃分 基于幾何結(jié)構(gòu) 基于統(tǒng)計(jì)信息
理論基礎(chǔ)
好的聚類分析對(duì)應(yīng)于數(shù)據(jù)集較“分明”的劃分 每個(gè)子類應(yīng)當(dāng)是緊致的而且子類間是盡可能分離的 最佳分類對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)提供的統(tǒng)計(jì)信息最好
優(yōu)點(diǎn) 簡(jiǎn)單、運(yùn)算量小 與數(shù)據(jù)集的結(jié)構(gòu)密切相關(guān) 與數(shù)據(jù)集分布密切相關(guān)
缺點(diǎn)
與數(shù)據(jù)集的結(jié)構(gòu)特征缺乏直接聯(lián)系 表述比較復(fù)雜、運(yùn)算量大 性能依賴統(tǒng)計(jì)假設(shè)與數(shù)據(jù)分布的一致性
代表性研究
Zadeh的分離度[20]
Bezdek的劃分熵[20]
Windham的比例系數(shù)[64]
Dunn的劃分系數(shù)[65]
Gunderson的分離系數(shù)[66]
Xie-Beni指標(biāo)[67]
Vogel等人的PFS聚類[68]
Jain等人的自舉法[69]
Beni的熵形式有效性函數(shù)[70]
  沒有萬能的模糊聚類有效性函數(shù),這也是有效性函數(shù)層出不窮的原因. 既然單一的度量方式不能解決所有可能的聚類有效性問題,那么現(xiàn)有的有效性函數(shù)將長(zhǎng)期并存. 能否給出一種啟發(fā)式的方法來幫助人們選擇適合于待分析問題的有效性函數(shù)呢?答案是肯定的,但這將是一項(xiàng)艱巨的工程. 另外,現(xiàn)有聚類有效性函數(shù)多是針對(duì)模數(shù)c-均值算法的,除了Dave[71]和Krishnapuram[30]提出過針對(duì)模糊c-殼聚類的有效性函數(shù)外,很少有人討論面向模糊線、面以及其他原型聚類算法的有效性問題,此外對(duì)可能性聚類、半模糊聚類的有效性度量也需要進(jìn)一步豐富和發(fā)展,以便完善聚類有效性理論. 
上述模糊聚類有效性函數(shù),主要被用來確定合理的聚類數(shù),以保證算法得到更有效的分類結(jié)果. 而在實(shí)際的聚類中,即使分類數(shù)選取得合適,由于選取的算法 不合適或者算法的參數(shù)選取得不合適,也可能得不到數(shù)據(jù)的真實(shí)結(jié)構(gòu). 這促使人們?nèi)ふ夷苤笇?dǎo)聚類算法得到更符合實(shí)際分類的函數(shù). 這方面的工作首先是由 Huntsbergery[72]進(jìn)行的,他將模糊c-均值聚類算法應(yīng)用于圖像分割,為了得到理想的分割效果,引入了一個(gè)指導(dǎo)分割的函數(shù);后來,Bcnsaid等人[73]修改了Xie-Beni指標(biāo)[67],提出了一個(gè)指導(dǎo)分類的新標(biāo)準(zhǔn),并在其文章中明確指出對(duì)聚類有效性函數(shù)的研究不僅能回答數(shù)據(jù)集的最佳分類問題,而且能有效地指導(dǎo)聚類算法得到更符合實(shí)際的分類. 

4 模糊聚類的應(yīng)用研究
模糊聚類理論的發(fā)展推動(dòng)了其在生產(chǎn)實(shí)踐中的應(yīng)用,反過來實(shí)際應(yīng)用的需求又促進(jìn)了模糊聚類理論的不斷豐富和完善. 隨著理論的發(fā)展,模糊聚類已經(jīng)在眾多 的領(lǐng)域獲得廣泛的應(yīng)用,并取得了令人滿意的效果和可觀的效益. 其應(yīng)用范圍涉及到通訊系統(tǒng)中的信道均衡、矢量量化編碼中的碼書設(shè)計(jì)、時(shí)間序列的預(yù)測(cè)、神經(jīng) 網(wǎng)絡(luò)的訓(xùn)練、參數(shù)估計(jì)、醫(yī)學(xué)診斷、天氣預(yù)報(bào)、食品分類、水質(zhì)分析等領(lǐng)域. 對(duì)上述應(yīng)用的介紹,有興趣的讀者可參見文獻(xiàn)[1,7~10,20]和高新波的論 文1),本文不再贅述. 鑒于模糊聚類在模式識(shí)別和圖像處理兩個(gè)領(lǐng)域中相當(dāng)成功的應(yīng)用,以下主要對(duì)這兩方面詳細(xì)介紹. 
4.1 模糊聚類在模式識(shí)別中的應(yīng)用
模式識(shí)別中兩大主要的分支為有監(jiān)督的分類和無監(jiān)督分類,而其中無監(jiān)督分類與聚類分析相對(duì)應(yīng). 正是由于模糊聚類與模式識(shí)別的天然聯(lián)系,使得它首先在模式識(shí)別領(lǐng)域獲得成功的應(yīng)用. 模糊聚類不需要訓(xùn)練樣本,可直接通過機(jī)器學(xué)習(xí)達(dá)到自動(dòng)分類的目的. 
模式識(shí)別中一個(gè)最重要的問題是特征提取,模糊聚類不但能從原始數(shù)據(jù)中直接提取特征[74],還能對(duì)已經(jīng)得到的特征進(jìn)行優(yōu)選和降維操作[75],以免造成“維數(shù)災(zāi)難”;在提取完特征后就需要分類器設(shè)計(jì),模糊聚類算法既可以提供最近鄰原型分類器[75],還可以用來進(jìn)行特征空間劃分和模糊規(guī)則提取,以構(gòu)造基于模糊IF-THEN規(guī)則的分類器[76];在物體識(shí)別或線條檢測(cè)中,模糊聚類既可以直接用于原始數(shù)據(jù)上[24,25,30],也可以用于變換域中,比如Hough變換中峰值檢測(cè)問題一直困繞著其推廣應(yīng)用,Jolion等人[77]提出基于模糊聚類的峰值檢測(cè)方法,解決了這一難題,使得Hough變換可以自動(dòng)執(zhí)行,方便快捷;另外在不變性模式識(shí)別中也有借助模糊聚類技術(shù)的報(bào)道. 
在一些模式識(shí)別的具體應(yīng)用中,模糊聚類也取得了較好的效果,比如漢字字符識(shí)別中的字符預(yù)分類[78];語音識(shí)別中的分類和匹配[79];雷達(dá)目標(biāo)識(shí)別中目標(biāo)庫(kù)的建立和新到目標(biāo)的歸類[80]等等,在此不再一一列舉. 
4.2 模糊聚類在圖像處理中的應(yīng)用
圖像處理是計(jì)算機(jī)視覺的重要組成部分,由于人眼視覺的主觀性使圖像比較適合用模糊手段處理,同時(shí)訓(xùn)練樣本圖像的匱乏又需要無監(jiān)督分析,而模糊聚類正好滿足這兩方面的要求,因此成為圖像處理中一個(gè)強(qiáng)大的研究分析工具. 
模糊聚類在圖像處理中最為廣泛的應(yīng)用為圖像分割,由于圖象分割問題可以等效為象素的無監(jiān)督分類,因此早在1979年Coleman和Andrews[81]就提出用聚類算法進(jìn)行圖像分割,此后基于二維直方圖[82]、塔型結(jié)構(gòu)[83]、小波分析[84]、分形分維[85]等一系列新技術(shù),人們又相繼提出了多種基于模糊聚類的灰度圖像分割新方法,并且在紋理圖像分割[86]、彩色圖像分割1)、序列圖像分割1)、遙感圖像分割[86]等方面也獲得了很大的進(jìn)展. 
基于模糊聚類的方法在邊緣檢測(cè)[24,25,30]、圖像增強(qiáng)[87]、圖像壓縮[88]、曲線擬合2)等眾多方面的研究同樣也取得了豐碩的成果. 
隨著應(yīng)用的發(fā)展,對(duì)模糊聚類理論又提出了許多新的要求,比如聚類算法的快速實(shí)現(xiàn)在圖像處理的應(yīng)用中要求極為迫切;必須把模糊聚類同新的技術(shù)相結(jié)合才能 取得好的結(jié)果;只有充分挖掘和利用實(shí)際應(yīng)用中的先驗(yàn)知識(shí),并指導(dǎo)聚類才有望在速度和質(zhì)量上同步提高;另外,現(xiàn)有的模糊聚類都是針對(duì)靜態(tài)數(shù)據(jù)的,還需研究數(shù) 據(jù)動(dòng)態(tài)變化或數(shù)據(jù)不斷到達(dá)情況的分析方法. 上述種種還需在理論上繼續(xù)開拓和創(chuàng)新.

1) 見2246頁(yè)腳注1)
2) 見2246頁(yè)腳注1)
致謝 本工作為國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào):69472046)資助項(xiàng)目.
作者簡(jiǎn)介:1) 高新波. 基于進(jìn)化計(jì)算和神經(jīng)網(wǎng)絡(luò)的模糊聚類新算法研究. 西安電子科技大學(xué)碩士論文,1996
2) 裴繼紅. 基于模糊信息處理的圖像分割方法研究. 西安電子科技大學(xué)博士論文,1998
作者單位:西安電子科技大學(xué)電子工程學(xué)院(高新波)
深圳大學(xué)(謝維信)

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
常用數(shù)據(jù)挖掘算法從入門到精通 第二章 K
數(shù)據(jù)科學(xué)家必會(huì)10個(gè)統(tǒng)計(jì)分析方法
如何用機(jī)器學(xué)習(xí)方法進(jìn)行數(shù)據(jù)建模?
如果你想轉(zhuǎn)型數(shù)據(jù)科學(xué)家,可能要掌握這幾個(gè)統(tǒng)計(jì)學(xué)技術(shù)
帶有節(jié)點(diǎn)屬性的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法綜述
基于拉普拉斯約束的半監(jiān)督模糊C均值算法
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服