国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
深入NLP

中文分詞是中文自然語言處理的一個(gè)非常重要的組成部分,在學(xué)界和工業(yè)界都有比較長時(shí)間的研究歷史,也有一些比較成熟的解決方案。今天我們邀請了出門問問的兩位重磅嘉賓徐博士和Jason,和大家一起來回顧一下中文分詞的發(fā)展,著重談一談現(xiàn)在比較流行的一些基于機(jī)器學(xué)習(xí)的分詞方法。

嘉賓簡介

徐博士,約翰霍普金斯大學(xué)語言和語音實(shí)驗(yàn)室博士。2012年畢業(yè)后加入微軟總部,先后在Bing和微軟研究院從事自然語言處理和機(jī)器學(xué)習(xí)相關(guān)的研究和產(chǎn)品開發(fā),是cortana語義理解和對話系統(tǒng)團(tuán)隊(duì)以及wordflow輸入法團(tuán)隊(duì)的主要成員。雷鋒網(wǎng)雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))雷鋒網(wǎng)

Jason,劍橋大學(xué)自然語言處理組畢業(yè)。一直從事自然語言處理方面的研究與開發(fā)工作。加入出門問問3年多,負(fù)責(zé)開發(fā)出門問問的語義分析系統(tǒng)、對話系統(tǒng),參與的產(chǎn)品包括出門問問手機(jī)版、Ticwear智能語音手表交互系統(tǒng)、魔法小問智能客服對話系統(tǒng)。

Part 1 

▎什么是分詞,為什么要做分詞?

首先我來說說什么是詞。“詞是最小的能夠獨(dú)立運(yùn)用的語言單位”,那么什么是獨(dú)立運(yùn)用呢?它可以解釋為“單獨(dú)做句法成分或單獨(dú)起語法作用”。在語言學(xué)語義學(xué)的角度有很多相關(guān)的研究都對詞給出了一些定義和判定標(biāo)注。然很多中文詞僅由單個(gè)漢字組成,但是更多的單個(gè)漢字是無法“單獨(dú)做句法成分或單獨(dú)起語法作用”。由于國際上常用的NLP算法,深層次的語法語義分析通常都是以詞作為基本單位,很多中文的自然語言處理的任務(wù),也就多了一個(gè)預(yù)處理的過程來把連續(xù)的漢字分隔成更具有語言語義學(xué)上意義的詞。這個(gè)過程就叫做分詞。

這里有一個(gè)從(Xue 2003) 中拿來的例子:

日文章魚怎么說 =》 日文   章魚   怎么   說 ? 日   文章   魚   怎么   說?

我想強(qiáng)調(diào)的一點(diǎn)是,盡管在語言學(xué)語義學(xué)上,詞有著相對清晰的定義,對于計(jì)算機(jī)處理自然語言來說,分詞很多時(shí)候沒有放之四海皆準(zhǔn)的共同標(biāo)準(zhǔn)。由于分詞本身更多的時(shí)候是作為一個(gè)預(yù)處理的過程,判斷其質(zhì)量的好壞更多的時(shí)候需要結(jié)合下游的應(yīng)用來進(jìn)行。

比如在語音識別中,語言模型的創(chuàng)建通常需要經(jīng)過分詞,從識別效果來看,越長的詞往往準(zhǔn)確率越高(聲學(xué)模型區(qū)分度更高)。但是在文本挖掘中,很多時(shí)候短詞的效果會(huì)更好,特別是從召回率的角度來看(Peng et al. 2002, Gao et al. 2005)。在基于phrase的機(jī)器翻譯中,也有研究發(fā)現(xiàn)短詞(比中文treebank的標(biāo)準(zhǔn)短)會(huì)帶來更好的翻譯效果(Chang et al. 2008)。所以,如何衡量分詞的好壞,如何選擇分詞的方法,還是要結(jié)合自身的應(yīng)用來進(jìn)行。

▎分詞有哪些常見的傳統(tǒng)方法?

詞典匹配是分詞最傳統(tǒng)最常見的一種辦法。即便在后面要提到的基于統(tǒng)計(jì)學(xué)習(xí)的方法中,詞表匹配也通常是非常重要的信息來源(以特征函數(shù)的形式)。匹配方式可以有正向(從左到右),逆向(從右到左)。對于匹配中遇到的多種分段可能性(segmentation ambiguity),通常會(huì)選取分隔出來詞的數(shù)目最小的。

很明顯,這種方式對詞表的依賴很大,一旦出現(xiàn)詞表中不存在的新詞,算法是無法做到正確的切分的。但是詞表匹配也有它的優(yōu)勢,比如簡單易懂,不依賴訓(xùn)練數(shù)據(jù),可以做到和下游的應(yīng)用緊密結(jié)合 (機(jī)器翻譯中的phrase table,TTS中的詞典等等),易于糾錯(cuò)等等。

還有一類方法通過語料數(shù)據(jù)中的一些統(tǒng)計(jì)特征(如互信息量)去估計(jì)相鄰漢字之間的關(guān)聯(lián)性,進(jìn)而實(shí)現(xiàn)詞的切分。這類方法不依賴詞表,具有很強(qiáng)的靈活性,特別是在對生詞的發(fā)掘方面,但是也經(jīng)常會(huì)有精度方面的問題。

所以很多系統(tǒng)會(huì)結(jié)合基于詞表的方法和無詞表方法,發(fā)揮詞表方法的準(zhǔn)確性以及在與后段應(yīng)用結(jié)合上的優(yōu)勢,同時(shí)利用無詞表方法在召回方面的能力。

▎機(jī)器學(xué)習(xí)在分詞領(lǐng)域有哪些應(yīng)用?

確實(shí),最近十多年,機(jī)器學(xué)習(xí)的發(fā)展非常迅速,新的模型,新的算法層出不窮。中文分詞由于其重要性,以及問題的清晰性,成為很多新研究的試驗(yàn)場。因?yàn)檫@方面的內(nèi)容很多,所以我想盡可能的把主要的模型和方法分為兩大類:

一類是基于character tagging的,也就是對每一個(gè)字單獨(dú)進(jìn)行分段信息的標(biāo)注;

還有一類就是基于詞的,也就是對詞進(jìn)行整體的標(biāo)注和建模

基于單個(gè)字方法的核心就是對每一個(gè)字在其所屬詞中的位置進(jìn)行一個(gè)標(biāo)注。對于任何一個(gè)字來說,它可以是一個(gè)詞的開始(Beginning), 一個(gè)詞的中間(Inside), 一個(gè)詞的結(jié)尾(End),或者本身就是一個(gè)單字的詞(Singleton),這也就是在序列標(biāo)注中常用的BIES的分類。這種標(biāo)注空間(模型狀態(tài)空間)的劃分在其他任務(wù)上(如NER)也很常用,也會(huì)有一些類似的變種,比如NER中常用的BIO。

說到這類方法,就要說到MEMM (Maximum Entropy Markov Model) 和CRF (Conditional Random Field) 。這兩個(gè)都是discriminative的模型,和generative的模型(比如naive bayes, HMM)相比,在特征函數(shù)的定義方面有很大的靈活性。

(第二個(gè)是MEMM,第三個(gè)是CRF,X是句子,Y是位置的標(biāo)注。)

MEMM是一個(gè)locally normalized的模型。也就是說在每一個(gè)字的位置,其對應(yīng)的概率分布需要進(jìn)行歸一化,這個(gè)模型有一個(gè)很有名的label bias的問題,也就是當(dāng)前的tag完全由前一個(gè)tag決定,而完全忽略當(dāng)前的字本身。

CRF則通過全局歸一化(global normalization)的方式很好的解決了這個(gè)問題。這兩個(gè)模型都被拿來在分詞上試驗(yàn)過(Xue et al. 2003, Peng et al. 2004, Tseng et al. 2005, etc), 取得了不錯(cuò)的效果。

這類基于單個(gè)字的模型,正如它的名字所暗示,無法直接的去model相鄰詞之間的相關(guān)性,也無法直接看到當(dāng)前整個(gè)詞所對應(yīng)的字符串。具體到MEMM和CRF中特征函數(shù)的定義,在當(dāng)前位置,模型無法抓去到“當(dāng)前的詞”,“兩邊的詞”這樣重要的特征,而只能通過基于字的特征去代替。這個(gè)往往會(huì)造成建模效果與效率的損失。

基于詞的模型就很好的解決了這個(gè)問題。

這一塊的很多工作會(huì)去用類似transition based parsing的辦法去解決分詞的問題。Transition based parsing是一種漸進(jìn)式的(incremental),自下而上(bottom-up)的語法分析辦法。它一般以從左向右的方式處理逐字處理文本的輸入,并在運(yùn)行過程中通過一個(gè)堆棧去保存到當(dāng)前為止得到的不完整的分詞結(jié)果,并且通過機(jī)器學(xué)習(xí)的方法去決定如何整合當(dāng)前的分析結(jié)果,或是接收下一個(gè)輸入去拓展當(dāng)前的分析結(jié)果。

具體到分詞這個(gè)任務(wù)上,每一個(gè)字輸入進(jìn)來,算法會(huì)去決定這個(gè)字是去拓展堆棧上已經(jīng)保存的詞,還是開始一個(gè)新詞。這個(gè)算法的一個(gè)問題就是堆棧上的保存的到當(dāng)前位置的分析結(jié)果的數(shù)量會(huì)非常大(到當(dāng)前為止所有可能的分詞結(jié)果),所以必須要做pruning保證搜索空間在可控范圍內(nèi)。

基于詞的模型還有一個(gè)方法這里簡單提一下(Andrew, 2006),它和剛才說的transition parsing的方法還是很類似的,這個(gè)模型就是Semi CRF (Sarawagi & Cohen 2004)。這個(gè)模型運(yùn)用也很多,微軟內(nèi)部很多NER就是用這個(gè)模型。它在本質(zhì)上是一個(gè)高階的CRF,通過擴(kuò)展state space的方法去模擬segment level的關(guān)聯(lián)性,用到分詞上也就是相鄰詞之間的關(guān)聯(lián)性。和之前的方法要做pruning一樣,Semi-CRF在實(shí)際應(yīng)用中也需要限制segment的長度,以控制搜尋最優(yōu)解的復(fù)雜度。

▎深度學(xué)習(xí)在分詞中的應(yīng)用?

當(dāng)然。最近幾年深度學(xué)習(xí)發(fā)展非常快,影響力很大,所以這一塊要專門拿出來說一說。

和大多數(shù)自然語言處理中的任務(wù)一樣,深度學(xué)習(xí)也不出意外地被用在了分詞上,最近幾年也有非常多的相關(guān)的論文。和之前說過方法相比,深度學(xué)習(xí)帶來的變化主要是特征的定義與抽取。無論是基于單字的,還是基于詞的,最近幾年都有這方面的工作。

基于單字的,運(yùn)用deep learning的方法進(jìn)行NLP領(lǐng)域的序列的標(biāo)注,其實(shí)早在2008年就有人做過(Collobert & Weston 2008)主要的方法是通過神經(jīng)網(wǎng)絡(luò)在每一個(gè)位置去自動(dòng)提取特征,并且預(yù)測當(dāng)前位置的標(biāo)注,最后也可以加一個(gè)tag transition模型與神經(jīng)網(wǎng)絡(luò)輸出的emission模型合并,通過viterbi抽取最佳標(biāo)注序列。最近幾年的進(jìn)展主要是通過更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)去提取更有效的信息,從而實(shí)現(xiàn)分詞準(zhǔn)確率的提高 (Zheng et al. 2013, Pei et al. 2014, Chen et al. 2015, Yao et al.2016, etc)。

這個(gè)是collobert 2008年的基本版本,最近的工作結(jié)構(gòu)上沒有太大偏差。全局歸一化的CRF模型也可以通過神經(jīng)網(wǎng)絡(luò)去自動(dòng)提取特征(DNN,CNN,RNN,LSTM,etc),這個(gè)在NER上已經(jīng)有了廣泛的應(yīng)用,也完全可以用在分詞這個(gè)任務(wù)上,這里就不贅述了。

之前提到的基于詞的transition based的分詞最近也有了deep learning領(lǐng)域的拓展,原有的基于線性模型的action模型(延續(xù)當(dāng)前詞還是開始新詞)也可以通過神經(jīng)網(wǎng)絡(luò)去實(shí)現(xiàn),簡化了特征的定義,提高了準(zhǔn)確率。

▎除了深度學(xué)習(xí)之外,分詞領(lǐng)域還有那些新的發(fā)展方向?

Deep learning當(dāng)然是最近幾年最新的,非常重要的發(fā)展方向。除此之外,Joint modeling(聯(lián)合建模)的方法也值得一提。

傳統(tǒng)的中文自然語言處理通常會(huì)把分詞作為一個(gè)預(yù)處理的過程,所以系統(tǒng)是pipeline形式的,這樣帶來的一個(gè)問題就是error propagation。也就是分詞的錯(cuò)誤會(huì)影響到后面更深層次的語言語義分析,比如POS tagging, chunking, parsing等等。所以在學(xué)術(shù)界也有很多joint modeling(聯(lián)合建模)方面的工作,主要目的就是把分詞和其他更復(fù)雜的分析任務(wù)一起進(jìn)行(Zhang & Clark 2010, Hatori et al. 2012, Qian & Liu 2012, Zhang et al. 2014, Lyu et al. 2016, etc)。

最近幾年由于神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,其強(qiáng)大的特征學(xué)習(xí)能力也大大簡化了對多個(gè)任務(wù)進(jìn)行聯(lián)合建模時(shí)在特征選取方面所要做的工作。聯(lián)合建模的一大好處是分詞與其他任務(wù)可以共享有用的信息,分詞的時(shí)候也會(huì)考慮到其他任務(wù)的要求,其他任務(wù)也會(huì)考慮各種分詞的可能性,全局上可以取得最優(yōu)解。

但是隨之而來問題是搜索的復(fù)雜度往往會(huì)顯著提高:需要更有效的pruning機(jī)制在控制復(fù)雜度的同時(shí),不對搜索的結(jié)果產(chǎn)生顯著影響。

Part 2

▎中文分詞在語義分析中的應(yīng)用?

好的!謝謝徐博士這么詳盡的介紹了中文分詞的各種算法。因?yàn)?,就像徐博士說了,中文分詞是大部分下游應(yīng)用的基礎(chǔ),這些下游應(yīng)用小到POS詞性標(biāo)注、NER命名實(shí)體識別,大到文本分類、語言模型、機(jī)器翻譯。所以我舉幾個(gè)基本的例子來回答在中文分詞的基礎(chǔ)上,怎么進(jìn)行之后的語義分析應(yīng)用。當(dāng)然,需要事先強(qiáng)調(diào)的一點(diǎn)是,這里談的一些算法(包括學(xué)術(shù)界很多主流的算法)都是語言無關(guān)的,并且都是以詞作為最小單位的。

那么對于中文來說,只要做好分詞(并且現(xiàn)在的分詞準(zhǔn)確率還相當(dāng)不錯(cuò),能達(dá)到96%左右的F-score Zhang et.al 2016),就可以跟對接現(xiàn)在比較主流的英文NLP算法。

先來談?wù)勗~性標(biāo)注。

所謂詞性標(biāo)注,簡單來說,就是在分詞的結(jié)果上,判斷某個(gè)詞是名詞、動(dòng)詞、形容詞等等。這一般是被當(dāng)做一個(gè)序列標(biāo)注問題來做,因?yàn)?:  判斷的依據(jù)可以是詞本身給出(比如“打開”這個(gè)詞大部分情況不用看上下文都可以猜測是一個(gè)動(dòng)詞)也可以由上一個(gè)詞的詞性來給出(比如“打開 XX”,雖然不知道XX是什么詞,但是跟在動(dòng)詞“打開”后面,很可能是名詞)。

又比如,命名實(shí)體識別。

在得到分詞結(jié)果,并且知道了每個(gè)詞的詞性之后,我們可以在此基礎(chǔ)上做命名實(shí)體識別(Named Entity Recoginition)。學(xué)術(shù)上,所謂的命名實(shí)體一般指的是人名(PERSON)、地名(LOCATION)、機(jī)構(gòu)名(ORGANIZATION) 等等。當(dāng)然,在實(shí)際商業(yè)產(chǎn)品中,根據(jù)不同的業(yè)務(wù)場景需求,命名實(shí)體的類別會(huì)更加細(xì)分得多。比如地名可能會(huì)區(qū)分省、市、縣,或者餐館、酒店、電影院等等。

在得到分詞結(jié)果和詞性之后,我們還可以建立一棵語法樹。

輸出的結(jié)果,包含了整句句子的語法結(jié)構(gòu)信息,比如名詞短語、介詞結(jié)構(gòu)等等。如上圖所示。最后,推薦大家可以去Stanford NLP網(wǎng)站親自試試:http://nlp.stanford.edu:8080/parser/index.jsp 里面。

這個(gè)Demo,演示了從一句句子開始,如何做分詞、POS tagging、Syntactic Parsing,以及依存分析、指代消解等等各種基本NLP應(yīng)用。自己親手試試可以對分詞等一系列基礎(chǔ)NLP方法有比較直觀的了解哦。

▎在實(shí)際的應(yīng)用中遇的一些困難?

很多學(xué)術(shù)界的NLP算法,放到真實(shí)應(yīng)用場景里面來,面對千變?nèi)f化的人類自然語言,都會(huì)遇到各種各樣的困難。我就分享一下我們出門問問這幾年來做中文分詞的一些經(jīng)驗(yàn)和遇到的困難吧。先做個(gè)小廣告,群內(nèi)可能有朋友不是很熟悉我們出門問問。出門問問成立于2012年,是一家以語音搜索為核心的人工智能創(chuàng)業(yè)公司。我們做了4年語音搜索,從手機(jī)版App、做到手表、車載,載體可能不同,但是核心都是我們的語音+語義的這一套語音搜索系統(tǒng)。

比如上圖中所示,用戶通過語音輸入一句語音:“交大附近的南京大排檔”。這段語音經(jīng)過語音識別轉(zhuǎn)換成一句自然語言文本,然后交由我們的語義分析系統(tǒng)進(jìn)行處理。我們的語義分析系統(tǒng)會(huì)經(jīng)過一系列的分詞、詞性標(biāo)注、命名實(shí)體識別,然后能夠判斷出來這句query的詢問主題是什么(訂餐廳、導(dǎo)航、天氣 etc.),并把相應(yīng)關(guān)鍵字提取出來,交給后面的搜索團(tuán)隊(duì)進(jìn)行結(jié)果搜索和展示。

因?yàn)槌鲩T問問是專注于生活信息類查詢,因此正確識別出query中的實(shí)體名(POI、電影名、人名、音樂名 etc.)非常重要。出門問問的NLP系統(tǒng)也是以分詞作為整個(gè)NLP系統(tǒng)的基礎(chǔ)的:正確識別實(shí)體名的前提是整個(gè)實(shí)體名稱正確并且完整地被分詞開來。

因此,我們的分詞是需要偏向于實(shí)體名的。就像徐博士之前提到的,分詞沒有一個(gè)“放之四海而皆準(zhǔn)”的標(biāo)準(zhǔn);那么在出門問問NLP里面,我們應(yīng)用分詞的一個(gè)很重要標(biāo)準(zhǔn)就是能夠正確切出這些實(shí)體名稱。

我們的分詞相當(dāng)依賴實(shí)體詞表,但在實(shí)際中遇到了非常大的困難。

一是實(shí)體詞表數(shù)據(jù)量大。比如光是POI點(diǎn)(信息點(diǎn))就是千萬級別,而且總有新開的餐館、酒店無法覆蓋到。

二是噪音很大。什么“我愛你”、“天氣不錯(cuò)”,都是我們在真實(shí)詞表中發(fā)現(xiàn)的餐館名,更別說千奇百怪的歌名了。

這些真實(shí)世界的問題對統(tǒng)計(jì)系統(tǒng)的分詞造成了很大的困難。所以我們針對這些問題,做過一些努力。

1) 建立完善的新詞發(fā)現(xiàn)機(jī)制,定期補(bǔ)充我們的POI詞,盡可能建立更多更全的實(shí)體詞表庫。但是更多的實(shí)體詞表也帶來了更多的噪音,會(huì)對分詞和后續(xù)語義識別造成問題。

2)我們會(huì)利用機(jī)器學(xué)習(xí)的方法,來剔除實(shí)體詞表中的噪音詞。所謂的噪音詞,就是餐館詞表里面那些一般人看起來不是“餐館”的詞(比如“我愛你”“天氣不錯(cuò)”),或者歌曲名里面一般來說不會(huì)被認(rèn)為是歌曲的詞(比如“附近”),等等。我們的算法會(huì)自動(dòng)篩選出這種低置信度的實(shí)體詞,避免造成噪音。

3)我們還嘗試過連接Knowledge Graph,用更豐富的信息來幫助正確分詞。舉一個(gè)真實(shí)的例子,“高第街56號”,一般的分詞程序都會(huì)分為“高第街/56/號”,但是群里面如果有濟(jì)南的朋友可能會(huì)一眼認(rèn)出來,這是濟(jì)南一家非常著名的連鎖餐館的名稱。結(jié)合我們的Knowledge Grahp (KG),如果用戶的當(dāng)前地址在濟(jì)南,那么即使我們的除噪音的算法認(rèn)為“高第街56號”不太可能是一家餐館,但是我們會(huì)綜合考慮KG給出的信息,將其正確識別成為一家餐館。

同時(shí),我們也在積極的嘗試一些新的方法,比如接受多種存在歧義的分詞,但是采用對最終搜索結(jié)果的評估來排序選出最佳答案。當(dāng)然啦,整體的中文分詞的效果還是可以接受的。經(jīng)過我們抽樣錯(cuò)誤分析,分詞造成的語義分析錯(cuò),占得比例還是比較低的,長期來講我們?nèi)匀粫?huì)一直信任當(dāng)前的分詞系統(tǒng)提供的結(jié)果。

小結(jié):

中文分詞是NLP難題中的一道必然工序,最近因?yàn)樯疃葘W(xué)習(xí)的到來,很多人開始希冀這個(gè)新的機(jī)器學(xué)習(xí)算法可以為它帶來一些全新的東西。本文出門問問的兩個(gè)資深研究人員從什么是中文分詞、中文分詞的傳統(tǒng)方法、中文分詞結(jié)合深度學(xué)習(xí)以及中文分詞在語義分析中的應(yīng)用,在他們產(chǎn)品實(shí)際應(yīng)用中遇到的問題,為我們由淺入深、從理論到應(yīng)用做了一堂生動(dòng)地科普,向我們展示了中文分詞和商業(yè)產(chǎn)品真正結(jié)合時(shí)的美妙碰撞。

附:徐博士參考文獻(xiàn)。

Peng et al. 2002, Investigating the relationship between word segmentation performance and retrieval performance in Chinese IR
Gao et al. 2005, Chinese word segmentation and named entity recognition: A pragmatic approach
Chang et al. 2008, Optimizing Chinese Word Segmentation for Machine Translation Performance
Zhang & Clark 2007, Chinese Segmentation with a Word-Based Perceptron Algorithm
Sarawagi & Cohen 2004, Semi-Markov Conditional Random Fields for Information Extraction
Andrew 2006, A hybrid markov/semi-markov conditional random field for sequence segmentation
Collobert & Weston 2008, A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning
Zheng et al.  2013, Deep learning for Chinese word segmentation and POS tagging
Pei et al 2014, Maxmargin tensor neural network for chinese word segmentation
Chen et al. 2015, Gated recursive neural network for chinese word segmentation
Chen et al. 2015, Long short-term memory neural networks for chinese word segmentation
Yao et al. 2016, Bi-directional LSTM Recurrent Neural Network for Chinese Word Segmentation
Zhang et al. 2016, Transition-Based Neural Word Segmentation
Zhang & Clark 2010, A fast decoder for joint word segmentation and pos-tagging using a single discriminative model
Hatori et al. 2012,  Incremental joint approach to word segmentation, pos tagging, and dependency parsing in chinese
Qian & Liu 2012, Joint Chinese Word Segmentation, POS Tagging and Parsing
Zhang et al. 2014, Character-Level Chinese Dependency Parsing
Lyu et al. 2016, Joint Word Segmentation, POS-Tagging and Syntactic Chunking

雷鋒網(wǎng)原創(chuàng)文章,詳情見轉(zhuǎn)載須知。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
自然語言處理在醫(yī)學(xué)領(lǐng)域中的應(yīng)用
NLP三大Subword模型詳解:BPE、WordPiece、ULM
統(tǒng)計(jì)自然語言處理的基礎(chǔ)學(xué)習(xí)之一
Itenyh版
詳解自然語言處理(NLP)5大語義分析技術(shù)及14類應(yīng)用(建議收藏)
python︱六款中文分詞模塊嘗試:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP(轉(zhuǎn))
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服