国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
文本分類入門(三)統(tǒng)計學習方法 看文章 www.KanWenZhang.Com

文本分類入門(三)統(tǒng)計學習方法

文說
使
統(tǒng)計學習
進行文本分類就
讓計算機自己
觀察由人提供
訓練文檔集,自己總結出
于判別文檔類別
規(guī)則
依據(jù)。理想
結果當然
讓計算機
理解文章
基礎
進行這樣
分類,然而遺憾
們所說
“理解”往往指
文章
語義甚至
信息,這
類信息極其復雜,抽象,而且存
文相關性,
這類信息
計算機
表示都
尚未解決
問題(往
里說,這
個“知識表示”
問題,完全
以另
系列文章
),更不
說讓計算機
理解。

  利

計算機
解決問題
標準思路應該
這種問題尋找
種計算機
以理解
表示
,或曰建立
個模型(
個文檔表示模型);然
基于這個模型,選擇各方面滿足
算法
解決。
譚浩強
話說,程序,就
數(shù)據(jù)+算法。(啥?
不知道譚浩強
誰?
過學么?學過C么?這搗什么亂?)

  既然文本

語義
信息
難轉換成計算機能夠理解
表示形式,接
順理成章
,人們開始
文章
所包含
級別
詞匯信息
表示文檔,
,效果居然還不

  統(tǒng)計學習

進行文本分類(以
就簡稱
“統(tǒng)計學習
”,雖然這個
以應
除文本分類以
個領域)
個重
提由此產(chǎn)生,那就
:文檔
所包含
詞有著必然
聯(lián)系,同
類文檔
間總存
個共同
詞,而不同類
文檔所包含
間差異
[1]。

  進

,不光
包含哪些詞
,這些詞出現(xiàn)
次數(shù)
分類
。

  這

提使得向量模型(俗稱
VSM,向量空間模型)成
適合文本分類問題
文檔表示模型。
這種模型
,
篇文章被看作特征項集合
看,利
加權特征項構成向量進行文本表示,利
詞頻信息
文本特征進行加權。
實現(xiàn)起
比較簡單,并且分類準確度
,能夠滿足
般應
求。[5]

  而實際

,文本
種信息載體,其所攜帶
信息由幾部分組成:如組成元素本身
信息(詞
信息)、組成元素
間順序關系帶
信息以及
文信息(更嚴格
說,還包括閱讀
本身
背景
理解)[12]。

  而VSM這種文檔表示模型,基本

完全忽略
除詞
信息以
所有
部分,這使得
能表達
信息量存
限[12],
直接
基于這種模型構建
文本分類系統(tǒng)(雖然這
主流
做法),幾
永遠
能達
人類
分類能力。
,相比于所謂
分類算法,
特征
選擇,
使
哪些特征
代表
篇文檔,往往更能影響分類
效果。

  

于擴充文檔表示模型所包含
信息量,人們
做過有益
嘗試,例如被稱
LSI(Latent Semantic Index潛
語義索引)
,就被實驗證明保留
語義信息(
所以說被實驗證明
,
人們還無法
形式
嚴格地證明
確實保留
語義信息,而且這種語義信息并非以人
以理解
方式被保留
),此
話。

  

文說
(就不能不
這種老舊
說法?換換新
,比如Previously on "Prison Break",噢,不
,
Previously on Text Categorizaiton……)統(tǒng)計學習
其實就
個兩階段
解決方案,(1)訓練階段,由計算機
總結分類
規(guī)則;(2)分類階段,給計算機
沒見過
文檔,讓
分類(分不
就打屁屁)。

  

章就專門說說訓練階段
二三事。

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
文本分類概述
詳解自然語言處理(NLP)5大語義分析技術及14類應用(建議收藏)
專題 | 自然語言處理學習筆記(二):encoder
【AI in 美團】深度學習在文本領域的應用
基于HybridDL模型的文本相似度檢測方法
AI研習丨面向中醫(yī)古籍的文言文信息抽取技術研究
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服