文說使統(tǒng)計學習進行文本分類就讓計算機自己觀察由人提供訓練文檔集,自己總結出于判別文檔類別規(guī)則依據(jù)。理想結果當然讓計算機理解文章容基礎進行這樣分類,然而遺憾,們所說“理解”往往指文章語義甚至語信息,這類信息極其復雜,抽象,而且存文相關性,這類信息計算機表示都尚未解決問題(往里說,這個“知識表示”問題,完全以另系列文章說),更不說讓計算機理解。
利計算機解決問題標準思路應該:這種問題尋找種計算機以理解表示,或曰建立個模型(個文檔表示模型);然基于這個模型,選擇各方面滿足求算法解決。譚浩強話說,程序,就數(shù)據(jù)+算法。(啥?不知道譚浩強誰?過學么?學過C么?這搗什么亂?)
既然文本語義語信息難轉換成計算機能夠理解表示形式,接順理成章,人們開始文章所包含較級別詞匯信息表示文檔,試,效果居然還不。
統(tǒng)計學習進行文本分類(以就簡稱“統(tǒng)計學習”,雖然這個以應除文本分類以個領域)個重提由此產(chǎn)生,那就認:文檔容其所包含詞有著必然聯(lián)系,同類文檔間總存個共同詞,而不同類文檔所包含詞間差異[1]。
進步,不光包含哪些詞重,這些詞出現(xiàn)次數(shù)分類重。
這提使得向量模型(俗稱VSM,向量空間模型)成適合文本分類問題文檔表示模型。這種模型,篇文章被看作特征項集合看,利加權特征項構成向量進行文本表示,利詞頻信息文本特征進行加權。實現(xiàn)起比較簡單,并且分類準確度,能夠滿足般應求。[5]
而實際,文本種信息載體,其所攜帶信息由幾部分組成:如組成元素本身信息(詞信息)、組成元素間順序關系帶信息以及文信息(更嚴格說,還包括閱讀本身背景理解)[12]。
而VSM這種文檔表示模型,基本完全忽略除詞信息以所有部分,這使得能表達信息量存限[12],直接致基于這種模型構建文本分類系統(tǒng)(雖然這目絕主流做法),幾永遠不能達人類分類能力。面們談,相比于所謂分類算法,特征選擇,就使哪些特征代表篇文檔,往往更能影響分類效果。
于擴充文檔表示模型所包含信息量,人們做過有益嘗試,例如被稱LSI(Latent Semantic Index潛語義索引),就被實驗證明保留定語義信息(所以說被實驗證明,因人們還無法形式嚴格地證明確實保留語義信息,而且這種語義信息并非以人以理解方式被保留),此話。
文說(就不能不這種老舊說法?換換新,比如Previously on "Prison Break",噢,不,Previously on Text Categorizaiton……)統(tǒng)計學習其實就個兩階段解決方案,(1)訓練階段,由計算機總結分類規(guī)則;(2)分類階段,給計算機些從沒見過文檔,讓分類(分不就打屁屁)。
章就專門說說訓練階段二三事。