国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
機(jī)器學(xué)習(xí)推導(dǎo)|主成分分析

一、樣本均值與樣本方差

  1. 概述

假設(shè)有以下數(shù)據(jù):

  1. 樣本均值與樣本方差

以下定義了數(shù)據(jù)的樣本均值與樣本方差:

接下來(lái)需要對(duì)樣本均值與樣本方差進(jìn)行一些變換來(lái)獲得其另一種表示形式:

中心矩陣

具備以下性質(zhì):

因此最終可以得到

二、主成分分析的思想

一個(gè)中心:PCA是對(duì)原始特征空間的重構(gòu),將原來(lái)的線性相關(guān)的向量轉(zhuǎn)換成線性無(wú)關(guān)的向量;

兩個(gè)基本點(diǎn):最大投影方差和最小重構(gòu)距離,這是本質(zhì)相同的兩種方法,在接下來(lái)的部分將具體介紹。

PCA首先要將數(shù)據(jù)中心化(即減去均值)然后投影到一個(gè)新的方向上,這個(gè)新的方向即為重構(gòu)的特征空間的坐標(biāo)軸,同時(shí)也要保證投影以后得到的數(shù)據(jù)的方差最大,即最大投影方差,這樣也保證了數(shù)據(jù)的重構(gòu)距離最小。

四、最大投影方差

假設(shè)投影方向?yàn)?div id="moiyehiw" class='imgcenter'>

,由于我們只關(guān)注投影的方向,因此將
的模設(shè)置為
,即
,則中心化后的數(shù)據(jù)在
方向上的投影為
,是一個(gè)標(biāo)量。按照最大投影方差的思想,我們定義損失函數(shù)如下:

因此該問(wèn)題就轉(zhuǎn)換為以下最優(yōu)化問(wèn)題:

然后使用拉格朗日乘子法進(jìn)行求解:

最后解得符合條件的向量是協(xié)方差矩陣

的特征向量。如果想要降到
維(
),則只需要將對(duì)應(yīng)特征值最大的前
個(gè)特征向量取出來(lái)作為投影方向然后獲得數(shù)據(jù)在這些方向上的投影即為重構(gòu)的坐標(biāo),即:

特征向量表示投影變換的方向,特征值表示投影變換的強(qiáng)度。通過(guò)降維,我們希望減少冗余信息,提高識(shí)別的精度,或者希望通過(guò)降維算法來(lái)尋找數(shù)據(jù)內(nèi)部的本質(zhì)結(jié)構(gòu)特征。找最大的特征值是因?yàn)?,在降維之后要最大化保留數(shù)據(jù)的內(nèi)在信息,并期望在所投影的維度上的離散最大。

五、最小重構(gòu)距離

最小重構(gòu)距離是另一種求解的方法,其本質(zhì)上和最大投影方差是相同的。

我們知道有

個(gè)投影方向符合條件,因此原來(lái)的數(shù)據(jù)可以表示為以下形式,降維的數(shù)據(jù)也就是舍棄掉第
到第
這幾個(gè)方向上的信息。

因此重構(gòu)距離也就是指

,本著最小化重構(gòu)距離的思想我們可以設(shè)置新的損失函數(shù)如下:

然后就可以轉(zhuǎn)化為以下最優(yōu)化問(wèn)題:

顯然這里的每個(gè)

是可以單獨(dú)求解的,最終也可以解得
是協(xié)方差矩陣
的特征向量,只不過(guò)這里的
是對(duì)應(yīng)特征值較小的幾個(gè)特征向量。

六、SVD角度看PCA和PCoA

協(xié)方差矩陣

的特征分解:

.

中心化的結(jié)果
做奇異值分解:

接下里可以做以下變換:

接下來(lái)我們構(gòu)造矩陣

對(duì)比

,我們可以發(fā)現(xiàn):
①將
進(jìn)行特征分解然后得到投影的方向,也就是主成分,然后矩陣
即為重構(gòu)坐標(biāo)系的坐標(biāo)矩陣;
②將
進(jìn)行特征分解可以直接獲得坐標(biāo)矩陣
。
(注意應(yīng)保證
特征分解得到的特征向量是單位向量。)

關(guān)于為什么將

進(jìn)行特征分解可以直接獲得坐標(biāo)矩陣,現(xiàn)做以下解釋?zhuān)?/p>

這兩種?法都可以得到主成分,但是由于?差矩陣是

的,?
的,所以對(duì)樣本量較少的時(shí)候可以采? PCoA的?法。

七、概率PCA(p-PCA)

  1. 概述

假設(shè)有以下數(shù)據(jù):

其中

是原始數(shù)據(jù),
是降維后的數(shù)據(jù),可以將
看做隱變量(latent variable),
看做觀測(cè)變量(observed variable),則p-PCA就可以看做生成模型。

滿足以下關(guān)系:

這是一個(gè)線性高斯模型,其中

是噪聲,
是獨(dú)立的。求解這個(gè)模型要經(jīng)過(guò)兩個(gè)階段:
①inference:求

②learning:使用EM算法求解參數(shù)
。

的生成過(guò)程如下:

上圖中數(shù)據(jù)空間為?維,潛在空間為?維。?個(gè)觀測(cè)數(shù)據(jù)點(diǎn)

的?成?式為:?先從潛在變量的先驗(yàn)分布
中抽取?個(gè)潛在變量的值
,然后從?個(gè)各向同性的?斯分布(?紅?圓圈表示)中抽取?個(gè)
的值,這個(gè)各向同性的?斯分布的均值為
,協(xié)?差為
。綠?橢圓畫(huà)出了邊緣概率分布
的密度輪廓線。

  1. 推斷(inference)

求解

的過(guò)程如下:

該問(wèn)題和《高斯分布|機(jī)器學(xué)習(xí)推導(dǎo)系列(二)》中第六部分的問(wèn)題是類(lèi)似的。

利用《高斯分布|機(jī)器學(xué)習(xí)推導(dǎo)系列(二)》中第五部分的公式可以求解

  1. 學(xué)習(xí)(learning)

使用EM算法求解,這里不做展示。

參考資料

ref:降維時(shí)為什么找最大的特征值對(duì)應(yīng)的特征向量
ref:《模式識(shí)別與機(jī)器學(xué)習(xí)》

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
四大機(jī)器學(xué)習(xí)降維算法:PCA、LDA、LLE、Laplacian Eigenmaps
LDA?線性判別分析
數(shù)據(jù)挖掘?qū)崙?zhàn):PCA算法
LDA
再談協(xié)方差矩陣之主成分分析
機(jī)器學(xué)習(xí)算法筆記系列之深入理解主成分分析PCA
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服