線性判別式分析(Linear Discriminant Analysis
, LDA),也叫做Fisher線性判別(Fisher Linear Discriminant ,FLD),是模式識(shí)別的經(jīng)典算法,它是在1996年由Belhumeur引入模式識(shí)別和人工智能領(lǐng)域的。線性鑒別分析的基本思想是將高維的模式樣本投影到最佳鑒別矢量空間,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離,即模式在該空間中有最佳的可分離性。LDA的關(guān)鍵步驟是選擇合適的投影方向,即建立合適的線性判別函數(shù)。
PCA的結(jié)果是將數(shù)據(jù)投影到最高相似分組,而且過(guò)程無(wú)一例外的都基于特征值與特性向量實(shí)現(xiàn)降維處理。PCA變換基于在原數(shù)據(jù)與調(diào)整之后估算降維的數(shù)據(jù)之間
最小均方錯(cuò)誤,PCA趨向提取數(shù)據(jù)最大相同特征、而忽視數(shù)據(jù)之間微小不同特征。
左為L(zhǎng)DA,右為PCA
對(duì)于一個(gè)維空間有個(gè)樣本分別為 即 每個(gè)樣本是一個(gè)行的矩陣,其中表示屬于類的樣本個(gè)數(shù),假設(shè)有一個(gè)有c個(gè)類,則。約定數(shù)學(xué)符號(hào)和表達(dá)式如下:
-- 第類的樣本個(gè)數(shù);--第個(gè)樣本; --所有樣本的均值; --類的樣本均值;-- 類間離散度矩陣,協(xié)方差矩陣; -- 第類內(nèi)離散度矩陣; -- 所有類的類內(nèi)離散程度總和; -- 第類的樣本個(gè)數(shù);--第個(gè)樣本; 我們可以知道矩陣的實(shí)際意義是一個(gè)協(xié)方差矩陣,這個(gè)矩陣所刻畫的是該類與樣本總體之間的關(guān)系,其中該矩陣對(duì)角線上的函數(shù)所代表的是該類相對(duì)樣本總體的方差(即分散度),而非對(duì)角線上的元素所代表是該類樣本總體均值的協(xié)方差(即該類和總體樣本的相關(guān)聯(lián)度或稱冗余度),所以把所有樣本中各個(gè)樣本根據(jù)自己所屬的類計(jì)算出樣本與總體的協(xié)方差矩陣的總和,這從宏觀上描述了所有類和總體之間的離散冗余程度。同理,為分類內(nèi)各個(gè)樣本和所屬類之間的協(xié)方差矩陣之和,它所刻畫的是從總體來(lái)看類內(nèi)各個(gè)樣本與類之間(這里所刻畫的類特性是由是類內(nèi)各個(gè)樣本的平均值矩陣構(gòu)成)離散度,其實(shí)從中可以看出不管是類內(nèi)的樣本期望矩陣還是總體樣本期望矩陣,它們都只是充當(dāng)一個(gè)媒介作用,不管是類內(nèi)還是類間離散度矩陣都是從宏觀上刻畫出類與類之間的樣本的離散度和類內(nèi)樣本和樣本之間的離散度。
LDA做為一個(gè)分類的算法,我們當(dāng)然希望它所分的類之間耦合度低,類內(nèi)的聚合度高,即類內(nèi)離散度矩陣的中的數(shù)值要小,而類間離散度矩陣中的數(shù)值要大,這樣的分類的效果才好。這里我們引入Fisher鑒別準(zhǔn)則表達(dá)式:
其中為任一維列矢量。Fisher線性鑒別分析就是選取使得達(dá)到最大值的矢量作為投影方向,其物理意義就是投影后的樣本具有最大的類間離散度和最小的類內(nèi)離散度。我們把公式和公式代入公式得到:
重點(diǎn)來(lái)了(給它加100個(gè)粗,哈哈),設(shè)矩陣,其中可以看成是一個(gè)空間(相當(dāng)于代數(shù)表達(dá)式里的),也就是說(shuō)就是矩陣構(gòu)成的低維空間(超平面)的投影,聯(lián)想一下特征值的表達(dá)式。也可表示為,而當(dāng)樣本為列向量時(shí),即表示在空間的幾何距離的平方。所以可以推出fisher線性鑒別分析表達(dá)式的分子即為樣本在投影空間下的類間幾何距離的平方和,同理也可推出分母為樣本在投影空間下的類內(nèi)幾何距離的平方差,所以分類問(wèn)題就轉(zhuǎn)化到找一個(gè)低維空間使得樣本投影到該空間下時(shí),投影下來(lái)的類間距離平方和與類內(nèi)距離平方和之比最大,即最佳分類效果。
所以根據(jù)上述思想,即通過(guò)最優(yōu)化下面的準(zhǔn)則函數(shù)找到有一組最優(yōu)鑒別矢量構(gòu)成的投影矩陣(這里我們也可以看出1/m可以通過(guò)分子分母約掉,所以前面所提到的第一組公式和第二組公式所表達(dá)的效果是一樣的).
可以證明,當(dāng)為非奇異(一般在實(shí)現(xiàn)LDA算法時(shí),都會(huì)對(duì)樣本做一次PCA算法的降維,消除樣本的冗余度,從而保證是非奇異陣,當(dāng)然即使為奇異陣也是可以解的,可以把或對(duì)角化,這里不做討論,假設(shè)都是非奇異的情況)時(shí),最佳投影矩陣的列向量恰為下來(lái)廣義特征方程 的d個(gè)最大的特征值所對(duì)應(yīng)的特征向量(矩陣的特征向量),且最優(yōu)投影軸的個(gè)數(shù)d<=c-1。
根據(jù)式可以推出
又由于
把式代入式可得:
所以根據(jù)公式意義來(lái)看,要使max最大則只要取即可,所可得到如下結(jié)論:投影矩陣的列向量為d(自?。﹤€(gè)最大特征值對(duì)應(yīng)的特征向量,其中
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。