宋茜视频,的意思美女视频,免费在线看美女视频

LDA, PCA機(jī)器學(xué)習(xí)分類

2018.12.26

線性判別式分析(Linear Discriminant Analysis, LDA)，也叫做Fisher線性判別(Fisher Linear Discriminant ,FLD)，是模式識(shí)別的經(jīng)典算法，它是在1996年由Belhumeur引入模式識(shí)別和人工智能領(lǐng)域的。線性鑒別分析的基本思想是將高維的模式樣本投影到最佳鑒別矢量空間，以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果，投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離，即模式在該空間中有最佳的可分離性。LDA的關(guān)鍵步驟是選擇合適的投影方向，即建立合適的線性判別函數(shù)。
PCA的結(jié)果是將數(shù)據(jù)投影到最高相似分組，而且過(guò)程無(wú)一例外的都基于特征值與特性向量實(shí)現(xiàn)降維處理。PCA變換基于在原數(shù)據(jù)與調(diào)整之后估算降維的數(shù)據(jù)之間最小均方錯(cuò)誤，PCA趨向提取數(shù)據(jù)最大相同特征、而忽視數(shù)據(jù)之間微小不同特征。

左為L(zhǎng)DA,右為PCA
對(duì)于一個(gè)

維空間有

個(gè)樣本分別為

即每個(gè)樣本

是一個(gè)

行的矩陣，其中

表示屬于

類的樣本個(gè)數(shù)，假設(shè)有一個(gè)有c個(gè)類，則

。

約定數(shù)學(xué)符號(hào)和表達(dá)式如下：

-- 第

類的樣本個(gè)數(shù)；

--第

個(gè)樣本；

--所有樣本的均值；

--類

的樣本均值；

-- 類間離散度矩陣,協(xié)方差矩陣；

-- 第

類內(nèi)離散度矩陣；

-- 所有類的類內(nèi)離散程度總和；

-- 第

類的樣本個(gè)數(shù)；

--第

個(gè)樣本；

我們可以知道矩陣

的實(shí)際意義是一個(gè)協(xié)方差矩陣，這個(gè)矩陣所刻畫的是該類與樣本總體之間的關(guān)系，其中該矩陣對(duì)角線上的函數(shù)所代表的是該類相對(duì)樣本總體的方差（即分散度），而非對(duì)角線上的元素所代表是該類樣本總體均值的協(xié)方差（即該類和總體樣本的相關(guān)聯(lián)度或稱冗余度），所以

把所有樣本中各個(gè)樣本根據(jù)自己所屬的類計(jì)算出樣本與總體的協(xié)方差矩陣的總和，這從宏觀上描述了所有類和總體之間的離散冗余程度。同理，

為分類內(nèi)各個(gè)樣本和所屬類之間的協(xié)方差矩陣之和，它所刻畫的是從總體來(lái)看類內(nèi)各個(gè)樣本與類之間（這里所刻畫的類特性是由是類內(nèi)各個(gè)樣本的平均值矩陣構(gòu)成）離散度，其實(shí)從中可以看出不管是類內(nèi)的樣本期望矩陣還是總體樣本期望矩陣，它們都只是充當(dāng)一個(gè)媒介作用，不管是類內(nèi)還是類間離散度矩陣都是從宏觀上刻畫出類與類之間的樣本的離散度和類內(nèi)樣本和樣本之間的離散度。

LDA做為一個(gè)分類的算法，我們當(dāng)然希望它所分的類之間耦合度低，類內(nèi)的聚合度高，即類內(nèi)離散度矩陣的中的數(shù)值要小，而類間離散度矩陣中的數(shù)值要大，這樣的分類的效果才好。這里我們引入Fisher鑒別準(zhǔn)則表達(dá)式：

其中

為任一

維列矢量。Fisher線性鑒別分析就是選取使得

達(dá)到最大值的矢量

作為投影方向，其物理意義就是投影后的樣本具有最大的類間離散度和最小的類內(nèi)離散度。我們把公式

和公式

代入公式

得到：

重點(diǎn)來(lái)了（給它加100個(gè)粗，哈哈），設(shè)矩陣

，其中

可以看成是一個(gè)空間（相當(dāng)于代數(shù)表達(dá)式里的
），也就是說(shuō)