国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
Editor: 中文文本處理簡要介紹 | 統(tǒng)計之都 (中國統(tǒng)計學(xué)門戶網(wǎng)站,免費(fèi)統(tǒng)計學(xué)服務(wù)平臺)
本文作者李繩,博客地址http://acepor.github.io/。作者自述:
一位文科生曾勵志成為語言學(xué)家
出國后陰差陽錯成了博士候選人
三年后交完論文對學(xué)術(shù)徹底失望
回國后誤打誤撞成了數(shù)據(jù)科學(xué)家
作為一個處理自然語言數(shù)據(jù)的團(tuán)隊,我們在日常工作中要用到不同的工具來預(yù)處理中文文本,比如Jieba Stanford NLP software。出于準(zhǔn)確性和效率的考慮,我們選擇了Stanford NLP software, 所以本文將介紹基于 Stanford NLP software 的中文文本預(yù)處理流程。
中文文本處理簡要介紹
與拉丁語系的文本不同,中文并不使用空格作為詞語間的分隔符。比如當(dāng)我們說“We love coding.”,這句英文使用了兩個空格來分割三個英文詞匯;如果用中文做同樣的表述, 就是“我們愛寫代碼?!?,其中不包含任何空格。因而,處理中文數(shù)據(jù)時,我們需要進(jìn)行分詞,而這恰恰時中文自然語言處理的一大難點(diǎn)。
下文將介紹中文文本預(yù)處理的幾個主要步驟:
中文分詞
標(biāo)注詞性
生成詞向量
生成中文依存語法樹
Stanford NLP software 簡要介紹
Stanford NLP software 是一個較大的工具合集:包括 Stanford POS tagger 等組件,也有一個包含所有組件的合集 Stanford CoreNLP。各個組件是由不同的開發(fā)者開發(fā)的,所以每一個工具都有自己的語法。當(dāng)我們研究這些組件的文檔時,遇到了不少問題。下文記錄這些問題和相對應(yīng)的對策,以免重蹈覆轍。
Stanford NLP 小組提供了一個簡明的FAQ——Stanford Parser FAQ 和一份詳細(xì)的Java文檔 ——Stanford JavaNLP API Documentation。在這兩份文檔中,有幾點(diǎn)格外重要:
盡管PSFG分詞器小且快,F(xiàn)actored分詞器更適用于中文,所以我們推薦使用后者。
中文分詞器默認(rèn)使用GB18030編碼(Penn Chinese Treebank的默認(rèn)編碼)。
使用 -encoding 選項可以指定編碼,比如 UTF-8,Big-5 或者 GB18030。
中文預(yù)處理的主要步驟
1. 中文分詞
誠如上面所言,分詞是中文自然語言處理的一大難題。Stanford Word Segmenter 是專門用來處理這一問題的工具。FAQ請參見Stanford Segmenter FAQ。具體用法如下:
bash -x segment.sh ctb INPUT_FILE UTF-8 0
其中 ctb 是詞庫選項,即 Chinese tree bank,也可選用 pku,即 Peking University。UTF-8是輸入文本的編碼,這個工具也支持 GB18030 編碼。最后的0指定 n-best list 的大小,0表示只要最優(yōu)結(jié)果。
2. 中文詞性標(biāo)注
詞性標(biāo)注是中文處理的另一大難題。我們曾經(jīng)使用過 Jieba 來解決這個問題,但效果不盡理想。Jieba 是基于詞典規(guī)則來標(biāo)注詞性的,所以任意一個詞在 Jieba 里有且只有一個詞性。如果一個詞有一個以上的詞性,那么它的標(biāo)簽就變成了一個集合。比如“閱讀”既可以表示動詞,也可以理解為名詞,Jieba 就會把它標(biāo)注成 n(名詞),而不是根據(jù)具體語境來給出合適的 v(動詞)或 n(名詞)的標(biāo)簽。這樣一來,標(biāo)注的效果就大打折扣。幸好Stanford POS Tagger 提供了一個根據(jù)語境標(biāo)注詞性的方法。具體用法如下:
java -mx3000m -cp "./*" edu.stanford.nlp.tagger.maxent.MaxentTagger -model models/chinese-distsim.tagger -textFile INPUT_FILE
-mx3000m 指定內(nèi)存大小,可以根據(jù)自己的機(jī)器配置選擇。edu.stanford.nlp.tagger.maxent.MaxentTagger 用于選擇標(biāo)注器,這里選用的是一個基于最大熵(Max Entropy)的標(biāo)注器。models/chinese-distsim.tagger 用于選擇分詞模型。
3. 生成詞向量
深度學(xué)習(xí)是目前機(jī)器學(xué)習(xí)領(lǐng)域中最熱門的一個分支。而生成一個優(yōu)質(zhì)的詞向量是利用深度學(xué)習(xí)處理 NLP 問題的一個先決條件。除了 Google 的Word2vec,Stanford NLP 小組提供了另外一個選項——。
使用Glove也比較簡單,下載并解壓之后,只要對里面的 demo.sh 腳本進(jìn)行相應(yīng)修改,然后執(zhí)行這個腳本即可。
CORPUS=text8 # 設(shè)置輸入文件路徑VOCAB_FILE=vocab.txt # 設(shè)置輸入詞匯路徑COOCCURRENCE_FILE=cooccurrence.bin COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.binBUILDDIR=buildSAVE_FILE=vectors # 設(shè)置輸入文件路徑VERBOSE=2 MEMORY=4.0 # 設(shè)置內(nèi)存大小VOCAB_MIN_COUNT=5 # 設(shè)置詞匯的最小頻率VECTOR_SIZE=50 # 設(shè)置矩陣維度MAX_ITER=15 # 設(shè)置迭代次數(shù)WINDOW_SIZE=15 # 設(shè)置詞向量的窗口大小BINARY=2NUM_THREADS=8X_MAX=104. 生成中文依存語法樹
文本處理有時需要比詞性更豐富的信息,比如句法信息,Stanford NLP 小組提供了兩篇論文:The Stanford Parser: A statistical parserNeural Network Dependency Parser,并在這兩篇論文的基礎(chǔ)上開發(fā)了兩個工具,可惜效果都不太理想。前者的處理格式是正確的中文依存語法格式,但是速度極慢(差不多一秒一句);而后者雖然處理速度較快,但生成的格式和論文Discriminative reordering with Chinese grammatical relations features – acepor中的完全不一樣。我們嘗試了郵件聯(lián)系論文作者和工具作者,并且在Stackoverflow 上提問,但這個問題似乎無解。
盡管如此,我們還是把兩個方案都記錄在此:
java -cp "*:." -Xmx4g edu.stanford.nlp.pipeline.StanfordCoreNLP -file INPUT_FILE -props StanfordCoreNLP-chinese.properties -outputFormat text -parse.originalDependenciesjava -cp "./*" edu.stanford.nlp.parser.nndep.DependencyParser -props nndep.props -textFile INPUT_FILE -outFile OUTPUT_FILE結(jié)論
預(yù)處理中文文本并非易事,Stanford NLP 小組對此作出了極大的貢獻(xiàn)。我們的工作因而受益良多,所以我們非常感謝他們的努力。當(dāng)然我們也期待 Stanford NLP software 能更上一層樓。
本文原載于https://acepor.github.io/2015/12/17/General-Pipelines/。
0
您可能也喜歡:
LDA-math-LDA 文本建模
LDA-math-文本建模
COS沙龍第30期(北京)紀(jì)要
jiebaR中文分詞——R的靈活,C的效率
統(tǒng)計詞話(一)
新浪微博文本分析初探v0.1
微博名人那些事兒(二)
十八般武藝,誰主天下?
無覓關(guān)聯(lián)推薦[?]
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
詳解自然語言處理(NLP)5大語義分析技術(shù)及14類應(yīng)用(建議收藏)
自然語言處理簡介
NLP之TEA:基于SnowNLP實現(xiàn)自然語言處理之對輸入文本進(jìn)行情感分析(分詞→詞性標(biāo)注→拼音&簡繁轉(zhuǎn)換→情感分析→測試)
手把手教你Python分詞工機(jī)具:安裝、使用和測試
深入NLP
NLP+詞法系列(一)︱中文分詞技術(shù)小結(jié)、幾大分詞引擎的介紹與比較
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服