国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
陳根:人工智能——處理語言的機器

/陳根

20世紀50年代,圖靈提出著名的“圖靈測試”,引出了自然語言處理的思想,而后,經(jīng)過半個多世紀的跌宕起伏,歷經(jīng)專家規(guī)則系統(tǒng)、統(tǒng)計機器學習、深度學習等一系列基礎技術體系的迭代,如今的自然語言處理技術在各個方向都有了顯著的進步和提升。

自然語言是指漢語、英語、法語等人們?nèi)粘J褂玫恼Z言,是人類社會發(fā)展演變而來的語言,而不是人造的語言,自然語言是人類學習生活的重要工具。

自然語言在整個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的 80%以上。就計算機應用而言,據(jù)統(tǒng)計,用于數(shù)學計算的僅占10%,用于過程控制的不到5%,其余 85%左右則都是用于語言文字的信息處理。

  

自然語言處理(Natural Language ProcessingNLP)是將人類交流溝通所用的語言經(jīng)過處理轉(zhuǎn)化為機器所能理解的機器語言,是一種研究語言能力的模型和算法框架,是語言學和計算機科學的交叉學科,是實現(xiàn)人機間的信息交流,是人工智能、計算機科學和語言學所共同關注的重要方向。

自然語言的處理流程大致可分為五步

第一步,獲取語料。

第二步,對語料進行預處理,其中包括語料清理、分詞、詞性標注和去停用詞等步驟。

第三步,特征化,也就是向量化,主要把分詞后的字和詞表示成計算機可計算的類型(向量),這樣有助于較好的表達不同詞之間的相似關系。

第四步,模型訓練,包括傳統(tǒng)的有監(jiān)督、半監(jiān)督和無監(jiān)督學習模型等,可根據(jù)應用需求不同進行選擇。

第五步,對建模后的效果進行評價,常用的評測指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)等。準確率是衡量檢索系統(tǒng)的查準率;召回率是衡量檢索系統(tǒng)的查全率;而F值是綜合準確率和召回率用于反映整體的指標,當 值較高時則說明試驗方法有效。

比爾·蓋茨曾說:“語言理解是人工智能皇冠上的明珠”??梢哉f,誰掌握了更高級的自然語言處理技術,誰在自然語言處理的技術研發(fā)中取得了實質(zhì)突破,誰就將在日益激烈的人工智能軍備競賽中占得先機。

作為一門包含著計算機科學、人工智能以及語言學的交叉學科,自然語言處理的發(fā)展也經(jīng)歷了曲折中發(fā)展的過程。

1950 年圖靈提出的著名的“圖靈測試”,被認為是自然語言處理思想的開端。20世紀50年代到70年代自然語言處理主要采用基于規(guī)則的方法,即認為自然語言處理的過程和人類學習認知一門語言的過程是類似的,彼時,自然語言處理還停留在理性主義思潮階段,以基于規(guī)則的方法為代表。

然而,基于規(guī)則的方法具有不可避免的缺點,首先規(guī)則不可能覆蓋所有語句,其次這種方法對開發(fā)者的要求極高,開發(fā)者不僅要精通計算機還要精通語言學,因此,這一階段雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。

70 年代以后,隨著互聯(lián)網(wǎng)的高速發(fā)展,豐富的語料庫成為現(xiàn)實以及硬件不斷更新完善,自然語言處理思潮由理性主義向經(jīng)驗主義過渡,基于統(tǒng)計的方法逐漸代替了基于規(guī)則的方法。

賈里尼克和其領導的IBM華生實驗室是推動這一轉(zhuǎn)變的關鍵,他們采用基于統(tǒng)計的方法,將當時的語音識別率從70%提升到90%。在這一階段,自然語言處理基于數(shù)學模型和統(tǒng)計的方法取得了實質(zhì)性的突破,從實驗室走向?qū)嶋H應用。

 20世紀 90年代開始,自然語言處理進入了繁榮期。19937月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學者William John Hutchins教授在他的特約報告中指出,自1989年以來,機器翻譯的發(fā)展進入了一個新紀元。

這個新紀元的重要標志是在基于規(guī)則的技術中引入了語料庫方法,其中包括統(tǒng)計方法、基于實例的方法、通過語料加工手段使語料庫轉(zhuǎn)化為語言知識庫的方法等等。這種建立在大規(guī)模真實文本處理基礎上的機器翻譯,是機器翻譯研究史上的一場革命,它將會把自然語言處理推向一個嶄新的階段。隨著機器翻譯新紀元的開始,自然語言處理進入了它的繁榮期。

尤其是20世紀90年代的最后5年(19941999)以及 21世紀初期,自然語言處理的研究發(fā)生了很大的變化,出現(xiàn)了空前繁榮的局面。這主要表現(xiàn)在三個方面。

首先,概率和數(shù)據(jù)驅(qū)動的方法幾乎成了自然語言處理的標準方法。句法剖析、詞類標注、參照消解和話語處理的算法全都開始引入概率,并且采用從語音識別和信息檢索中借過來的評測方法。

其次,由于計算機的速度和存儲量的增加,使得在語音和語言處理的一些子領域,特別是在語音識別、拼寫檢查、語法檢查這些子領域,有可能進行商品化的開發(fā)。語音和語言處理的算            (augmentative and alternative communication,AAC)中。

最后,是網(wǎng)絡技術的發(fā)展對于自然語言處理產(chǎn)生了的巨大推動力。萬維網(wǎng)(World Wide Web,WWW)的發(fā)展使得網(wǎng)絡上的信息檢索和信息抽取的需要變得更加突出,數(shù)據(jù)挖掘的技術日漸成熟。而 WWW 正是由自然語言構成的,因此,隨著 WWW的發(fā)展,自然語言處理的研究變得越發(fā)重要。

如今,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究, 2013年,word2vec將深度學習與自然語言處理的結(jié)合推向了高潮,并在機器翻譯、問答系統(tǒng)、閱讀理解等領域取得了一定成功。

作為多層的神經(jīng)網(wǎng)絡,深度學習從輸入層開始經(jīng)過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓練。把輸入到輸出對的數(shù)據(jù)準備好,設計并訓練一個神經(jīng)網(wǎng)絡,即可執(zhí)行預想的任務。 RNN已經(jīng)成為自然語言處理最常用的方法之一,GRU、LSTM等模型則相繼引發(fā)了一輪又一輪的自然語言識別熱潮。

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
5年前開始布局人工智能,融不到錢差點死掉,如今它卻和微軟做生意
AI干起了實時翻譯,我們離跨越語言的鴻溝還有多遠? | 人人都是產(chǎn)品經(jīng)理
當前計算語言學發(fā)展的幾個特點
機器學習與自然語言處理
劉挺:知識獲取對自然語言處理的意義所在
每日科技名詞|自然語言理解
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服