国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

<thead id="blmlk"></thead>

<option id="blmlk"><acronym id="blmlk"></acronym></option>

打開APP

未登錄

開通VIP，暢享免費電子書等14項超值服

首頁

好書

留言交流

下載APP

聯(lián)系客服

文本分類入門(三)統(tǒng)計學習方法看文章 www.KanWenZhang.Com

userphoto

googo >《文本分類》

2010.05.20

文本分類入門(三)統(tǒng)計學習方法

文說

使

統(tǒng)計學習

進行文本分類就

讓計算機自己

觀察由人提供

訓練文檔集，自己總結出

于判別文檔類別

規(guī)則

依據(jù)。理想

結果當然

讓計算機

理解文章

容

基礎

進行這樣

分類，然而遺憾

，

們所說

“理解”往往指

文章

語義甚至

語

信息，這

類信息極其復雜，抽象，而且存

文相關性，

這類信息

計算機

表示都

尚未解決

問題（往

里說，這

個“知識表示”

問題，完全

以另

系列文章

說

），更不

說讓計算機

理解。

　　利

計算機

解決問題

標準思路應該

：

這種問題尋找

種計算機

以理解

表示

，或曰建立

個模型（

個文檔表示模型）；然

基于這個模型，選擇各方面滿足

求

算法

解決。

譚浩強

話說，程序，就

數(shù)據(jù)+算法。（啥？

不知道譚浩強

誰？

過學么？學過C么？這搗什么亂？）

　　既然文本

語義

語

信息

難轉換成計算機能夠理解

表示形式，接

順理成章

，人們開始

文章

所包含

較

級別

詞匯信息

表示文檔，

試

，效果居然還不

。

　　統(tǒng)計學習

進行文本分類（以

就簡稱

“統(tǒng)計學習

”，雖然這個

以應

除文本分類以

個領域）

個重

提由此產(chǎn)生，那就

認

：文檔

容

其

所包含

詞有著必然

聯(lián)系，同

類文檔

間總存

個共同

詞，而不同類

文檔所包含

詞

間差異

[1]。

　　進

步

，不光

包含哪些詞

重

，這些詞出現(xiàn)

次數(shù)

分類

重

。

　　這

提使得向量模型（俗稱

VSM，向量空間模型）成

適合文本分類問題

文檔表示模型。

這種模型

，

篇文章被看作特征項集合

看，利

加權特征項構成向量進行文本表示，利

詞頻信息

文本特征進行加權。

實現(xiàn)起

比較簡單，并且分類準確度

，能夠滿足

般應

求。[5]

　　而實際

，文本

種信息載體，其所攜帶

信息由幾部分組成：如組成元素本身

信息（詞

信息）、組成元素

間順序關系帶

信息以及

文信息（更嚴格

說，還包括閱讀

本身

背景

理解）[12]。

　　而VSM這種文檔表示模型，基本

完全忽略

除詞

信息以

所有

部分，這使得

能表達

信息量存

限[12]，

直接

致

基于這種模型構建

文本分類系統(tǒng)（雖然這

目

絕

主流

做法），幾

永遠

不

能達

人類

分類能力。

面

們

談

，相比于所謂

分類算法，

特征

選擇，

就

使

哪些特征

代表

篇文檔，往往更能影響分類

效果。

　　

于擴充文檔表示模型所包含

信息量，人們

做過有益

嘗試，例如被稱

LSI（Latent Semantic Index潛

語義索引）

，就被實驗證明保留

定

語義信息（

所以說被實驗證明

，

因

人們還無法

形式

嚴格地證明

確實保留

語義信息，而且這種語義信息并非以人

以理解

方式被保留

），此

話。

　　

文說

（就不能不

這種老舊

說法？換換新

，比如Previously on "Prison Break"，噢，不

，

Previously on Text Categorizaiton……）統(tǒng)計學習

其實就

個兩階段

解決方案，（1）訓練階段，由計算機

總結分類

規(guī)則；（2）分類階段，給計算機

些

從

沒見過

文檔，讓

分類（分不

就打屁屁）。

　　

章就專門說說訓練階段

二三事。

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

猜你喜歡

類似文章

文本分類概述

詳解自然語言處理（NLP）5大語義分析技術及14類應用（建議收藏）

專題 | 自然語言處理學習筆記（二）：encoder

【AI in 美團】深度學習在文本領域的應用

基于HybridDL模型的文本相似度檢測方法

AI研習丨面向中醫(yī)古籍的文言文信息抽取技術研究

更多類似文章 >>

生活服務

聯(lián)系我們

分享收藏導長圖關注下載文章

綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權！

如果VIP功能使用有故障，
可點擊這里聯(lián)系客服！

聯(lián)系客服

<source id="72psj"></source>