文本分類(lèi)問(wèn)題其分類(lèi)問(wèn)題沒(méi)有本質(zhì)區(qū)別,其以歸結(jié)根據(jù)待分類(lèi)數(shù)據(jù)某些特征進(jìn)行匹配,當(dāng)然完全匹配不太能,因此必須(根據(jù)某種評(píng)價(jià)標(biāo)準(zhǔn))選擇最優(yōu)匹配結(jié)果,從而完成分類(lèi)。
因此核心問(wèn)題便轉(zhuǎn)化哪些特征表示個(gè)文本才能保證有效快速分類(lèi)(注意這兩方面需求往往互相矛盾)。因此自有文本分類(lèi)系統(tǒng)那天起,就直特征不同選擇主著派別不同。
最早詞匹配法僅僅根據(jù)文檔否出現(xiàn)類(lèi)名相同詞(頂再加入同義詞處理)判斷文檔否屬于某個(gè)類(lèi)別。顯然,這種過(guò)于簡(jiǎn)單無(wú)法帶良好分類(lèi)效果。
興起過(guò)段時(shí)間知識(shí)工程則借助于專(zhuān)業(yè)人員幫助,每個(gè)類(lèi)別定義量推理規(guī)則,如果篇文檔能滿(mǎn)足這些推理規(guī)則,則以判定屬于該類(lèi)別。這里特定規(guī)則匹配程度成文本特征。由于系統(tǒng)加入人判斷因素,準(zhǔn)確度比詞匹配法提。但這種缺點(diǎn)仍然明顯,例如分類(lèi)質(zhì)量嚴(yán)重依賴(lài)于這些規(guī)則好壞,就依賴(lài)于制定規(guī)則“人”好壞;再比如制定規(guī)則人都專(zhuān)家級(jí)別,人力成本幅升常常令人難以承受;而知識(shí)工程最致命弱點(diǎn)完全不推廣性,個(gè)針金融領(lǐng)域構(gòu)建分類(lèi)系統(tǒng),如果擴(kuò)充醫(yī)療或社保險(xiǎn)等相關(guān)領(lǐng)域,則除完全推倒重以沒(méi)有其辦法,常常造成巨知識(shí)資金浪費(fèi)。
人們意識(shí),究竟依據(jù)什么特征判斷文本應(yīng)當(dāng)隸屬類(lèi)別這個(gè)問(wèn)題,就連人類(lèi)自己都不太回答得清楚,有太所謂“只意,不能言傳”東西里面。人類(lèi)判斷依據(jù)經(jīng)驗(yàn)以及直覺(jué),因此自然而然有人想何讓機(jī)器像人類(lèi)樣自己通過(guò)量同類(lèi)文檔觀察自己總結(jié)經(jīng)驗(yàn),作今分類(lèi)依據(jù)。
這便統(tǒng)計(jì)學(xué)習(xí)基本思想(有人這類(lèi)稱(chēng)機(jī)器學(xué)習(xí),兩種叫法只涵蓋范圍有些區(qū)別,均無(wú)不妥)。
統(tǒng)計(jì)學(xué)習(xí)需批由人工進(jìn)行準(zhǔn)確分類(lèi)文檔作學(xué)習(xí)材料(稱(chēng)訓(xùn)練集,注意由人分類(lèi)批文檔比從這些文檔總結(jié)出準(zhǔn)確規(guī)則成本得),計(jì)算機(jī)從這些文檔重挖掘出些能夠有效分類(lèi)規(guī)則,這個(gè)過(guò)程被形象稱(chēng)訓(xùn)練,而總結(jié)出規(guī)則集合常常被稱(chēng)分類(lèi)器。訓(xùn)練完成,需計(jì)算機(jī)從沒(méi)有見(jiàn)過(guò)文檔進(jìn)行分類(lèi)時(shí),便使這些分類(lèi)器進(jìn)行。
現(xiàn)如今,統(tǒng)計(jì)學(xué)習(xí)已經(jīng)成文本分類(lèi)領(lǐng)域絕主流。主原因于其技術(shù)擁有堅(jiān)實(shí)理論基礎(chǔ)(相比,知識(shí)工程專(zhuān)家主觀因素居),存明確評(píng)價(jià)標(biāo)準(zhǔn),以及實(shí)際表現(xiàn)良好。
章就深入統(tǒng)計(jì)學(xué)習(xí),看看這種提,相關(guān)理論具體實(shí)現(xiàn)。