常見的交叉驗證形式
Holdout 驗證
常識來說,Holdout 驗證并非一種交叉驗證,因為數(shù)據(jù)并沒有交叉使用。 隨機(jī)從最初的樣本中選出部分,形成交叉驗證數(shù)據(jù),而剩余的就當(dāng)做訓(xùn)練數(shù)據(jù)。 一般來說,少于原本樣本三分之一的數(shù)據(jù)被選做驗證數(shù)據(jù)。
K-fold cross-validation
K折交叉驗證,初始采樣分割成K個子樣本,一個單獨的子樣本被保留作為驗證模型的數(shù)據(jù),其他K-1個樣本用來訓(xùn)練。交叉驗證重復(fù)K次,每個
子樣本驗證一次,平均K次的結(jié)果或者使用其它結(jié)合方式,最終得到一個單一估測。這個方法的優(yōu)勢在于,同時重復(fù)運用隨機(jī)產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗證,每次的結(jié)果驗證一次,10折交叉驗證是最常用的。
留一驗證
正如名稱所建議, 留一驗證(LOOCV)意指只使用原本樣本中的一項來當(dāng)做驗證資料, 而剩余的則留下來當(dāng)做訓(xùn)練資料。 這個步驟一直持續(xù)到每個樣本都被當(dāng)做一次驗證資料。 事實上,這等同于 K-fold 交叉驗證是一樣的,其中K為原本樣本個數(shù)。 在某些情況下是存在有效率的演算法,如使用kernel regression 和Tikhonov regularization。
轉(zhuǎn)載:http://baike.baidu.com/link?url=D1xQ6m2S9B-BUHVpbLT96fIKm6ZBcTfsbJzHPj3YHOFYNSv2UssAsDaI6DGW-SmsdTZi8xY0YIdaTgfywCF6gK