国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
一文讀懂語言識(shí)別技術(shù)原理 | 新課速遞

語音識(shí)別是十年來發(fā)展最快的技術(shù)之一,隨著AI的不斷發(fā)展,深度學(xué)習(xí)讓語音識(shí)別技術(shù)得到了質(zhì)的飛躍,開始從實(shí)驗(yàn)室走向市場(chǎng),并逐步走到人們的生活中。


我們現(xiàn)在所用的語音輸入法,以及以語音為智能交互入口的智能家居,背后都涉及到語音識(shí)別技術(shù)。


今天晚上,我們就來學(xué)習(xí)下本周的新課程 《語音識(shí)別技術(shù)》,有請(qǐng)今天的主講嘉賓:科大訊飛研究院潘嘉老師,掌聲歡迎~




01

語音識(shí)別技術(shù)的發(fā)展歷程


語音識(shí)別技術(shù)是指機(jī)器自動(dòng)將人的語音的內(nèi)容轉(zhuǎn)成文字,又稱 Automatic Speech Recognition,即ASR技術(shù)。


語音識(shí)別是一門交叉的、非常復(fù)雜的學(xué)科,需要具備生理學(xué)、聲學(xué)、信號(hào)處理、計(jì)算機(jī)科學(xué)、模式識(shí)別、語言學(xué)、心理學(xué)等相關(guān)學(xué)科的知識(shí)。


語音識(shí)別的研究是個(gè)漫長(zhǎng)而且艱難的過程,它的發(fā)展可以追溯到20世紀(jì)50年代,1952年貝爾實(shí)驗(yàn)室首次實(shí)現(xiàn)Audrey英文數(shù)字識(shí)別系統(tǒng),這個(gè)系統(tǒng)當(dāng)時(shí)可以識(shí)別單個(gè)數(shù)字0~9的發(fā)音,并且對(duì)熟人的準(zhǔn)確度高達(dá)90%以上。


在同時(shí)期,MIT、普林斯頓相繼推出少量詞的獨(dú)立詞識(shí)別系統(tǒng)。



1971年美國(guó)國(guó)防部研究所(DARPA)贊助了五年期限的語音理解研究項(xiàng)目,推動(dòng)了語音識(shí)別的一次大發(fā)展。DARPA在整個(gè)科技的發(fā)展過程中扮演了非常重要的角色,它專門給高科技研究項(xiàng)目提供資金支持,包括無人機(jī)、衛(wèi)星等等。


在DARPA的支持下,IBM、卡內(nèi)基梅隆大學(xué)(CMU)、斯坦福等學(xué)術(shù)界和工業(yè)界非常頂級(jí)的研究機(jī)構(gòu)也都加入到語音識(shí)別的研究中去。


其中,卡耐基梅隆大學(xué)研發(fā)出harpy語音識(shí)別系統(tǒng),該系統(tǒng)能夠識(shí)別1011個(gè)單詞,在這個(gè)時(shí)期大詞匯量的孤立詞識(shí)別取得實(shí)質(zhì)性進(jìn)展。



到了1980年,語音識(shí)別技術(shù)已經(jīng)從從孤立詞識(shí)別發(fā)展到連續(xù)詞識(shí)別,當(dāng)時(shí)出現(xiàn)了兩項(xiàng)非常重要的技術(shù):隱馬爾科夫模型( HMM )、N-gram語言模型。


1990年,大詞匯量連續(xù)詞識(shí)別持續(xù)進(jìn)步,提出了區(qū)分性的模型訓(xùn)練方法MCE和MMI,使得語音識(shí)別的精確度日益提高,尤其適用于長(zhǎng)句子的情況下,與此同時(shí),還提出了模型自適應(yīng)方法MAP和MLLR。


在工業(yè)方面,劍橋推出首個(gè)開源的語音識(shí)別訓(xùn)練工具HTK,在商業(yè)方面,Nuance發(fā)布了首個(gè)消費(fèi)級(jí)產(chǎn)品Dragon Dictate。


到了21世紀(jì),隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)之父Hinton提出深度置信網(wǎng)絡(luò)( DBN ),2009年, Hinton和學(xué)生Mohamed將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識(shí)別,在小詞匯量連續(xù)語音識(shí)別任務(wù)TIMIT上獲得成功。




02

語音識(shí)別的技術(shù)原理


從20世紀(jì)80年代開始,現(xiàn)在語音識(shí)別采用模式識(shí)別的基本框架,分為數(shù)據(jù)準(zhǔn)備、特征提取、模型訓(xùn)練、測(cè)試應(yīng)用這4個(gè)步驟,在這里我們主要來講解下模型訓(xùn)練和測(cè)試應(yīng)用。


模型經(jīng)過訓(xùn)練之后,一段待測(cè)的語音需要經(jīng)過信號(hào)處理和特征提取,然后利用訓(xùn)練好的聲學(xué)模型和語言模型,分別求得聲學(xué)模型和語言模型得分,然后綜合這2個(gè)得分,進(jìn)行候選的搜索,最后得出語言識(shí)別的結(jié)果。


公式表達(dá)如圖所示


接下來我們來看下語言模型,語言模型的物理意義反映字詞出現(xiàn)的先驗(yàn)概率,比如“郝”和“好”,這兩個(gè)字發(fā)音相同,但“郝”相對(duì)于“好”來說,出現(xiàn)的概率較低,一般都會(huì)出現(xiàn)在姓氏里。


除此之外,語言模型的物理意義還在于反映詞順序是否符合語言習(xí)慣和反映詞的語義信息。


了解了語言模型的物理意義,我們來看下語言模型的建模,傳統(tǒng)語言模型采用N-gram的做法,語言模型是對(duì)文本序列的先驗(yàn)概率進(jìn)行建模,用以下公式表示:


??(??)=??(??1 ??2 …w?? )=??(??1 )??(??2│??1 )…??(???? |??(1:???1))


我們按照全概率空間展開,可以表示為第一個(gè)詞出現(xiàn)的概率??(??1)乘以第一個(gè)詞出現(xiàn)之后,第二個(gè)詞的概率??(??2│??1 ),以此類推一直到第n個(gè)詞。



對(duì)于這樣一個(gè)全概率空間,我們對(duì)它進(jìn)行N-階馬爾科夫假設(shè),即每個(gè)詞出現(xiàn)的概率只和最近的N個(gè)歷史詞有關(guān),根據(jù)這樣一個(gè)假設(shè),上面表示先驗(yàn)概率中的每一項(xiàng)都可以做這樣一個(gè)近似:



比如我們需要求1-階馬爾科夫假設(shè),用以下公式即可很方便的算出結(jié)果:




這樣一種看似很簡(jiǎn)單的非參數(shù)的計(jì)算方法,卻從20世紀(jì)的80年代一直沿用到今天。


在深度學(xué)習(xí)出現(xiàn)之后,逐漸出現(xiàn)了另一種語言模型——RNNLM。


RNNLM語言模型的流程,之前我們提到過先驗(yàn)概率可以按照全概率空間進(jìn)行展開,我們對(duì)公式中間的每一項(xiàng)都采用同一種深度學(xué)習(xí)模型來建模,就可以表達(dá)成如下結(jié)構(gòu):



說完了語言模型建模,接下來我們來說下聲學(xué)模型建模,給定了相應(yīng)的文本序列之后,生成相應(yīng)的語音,這是語音識(shí)別技術(shù)中最核心的也是最復(fù)雜的部分。


為了減少同音詞的數(shù)據(jù)共享問題,首先我們會(huì)將文本序列轉(zhuǎn)化成它的發(fā)音序列,做這一步的目的就是加強(qiáng)建模單元的共享性。


在我們對(duì)每一個(gè)發(fā)音單元,比如“xue”里面的韻母做建模的時(shí)候,我們的語音具有不定長(zhǎng)的特性,我們說的快和說的慢的時(shí)候,語音幀的時(shí)長(zhǎng)是不一樣的,對(duì)于這種不定長(zhǎng)的語音建模,這個(gè)時(shí)候就需要引入HMM模型。



HMM模型每一個(gè)語音幀讓我們的每一個(gè)語音幀都對(duì)應(yīng)到HMM模型中的每一個(gè)狀態(tài),不論多長(zhǎng)的語音都能夠表達(dá)為HMM模型的一個(gè)狀態(tài)序列。


最后只要將HMM模型中的序列和我們語音中的每一幀進(jìn)行一一對(duì)應(yīng)。再將這個(gè)對(duì)應(yīng)關(guān)系,用一個(gè)概率來表達(dá)就可以了。

 

我們知道語音其實(shí)是非常復(fù)雜多變的,不同的人在說同樣的句子的時(shí)候,會(huì)表現(xiàn)出非常大的差異性。


1980年代的時(shí)候,由于計(jì)算條件的限制,業(yè)內(nèi)一般采用GMM聲學(xué)模型,到了2010年深度學(xué)習(xí)技術(shù)興起,DNN聲學(xué)建模開始取代GMM聲學(xué)建模。



03

語音識(shí)別技術(shù)的典型應(yīng)用


語音識(shí)別技術(shù)早期的應(yīng)用主要是語音聽寫,用戶說一句,機(jī)器識(shí)別一句。后來發(fā)展成語音轉(zhuǎn)寫,隨著AI的發(fā)展,語音識(shí)別開始作為智能交互應(yīng)用中的一環(huán)。


下面我們就來一一介紹這些應(yīng)用:


首先我們來看下語音聽寫,語音聽寫中最為典型的案例就是訊飛輸入法,除此之外,語音聽寫的應(yīng)用還有語音病例系統(tǒng)。


醫(yī)生佩戴上訊飛定制的麥克風(fēng),在給病人診斷時(shí),會(huì)將病情、用藥、需要注意事項(xiàng)等信息說出來,機(jī)器將醫(yī)生說的話自動(dòng)識(shí)別出來,生成病例。



關(guān)于語音轉(zhuǎn)寫的應(yīng)用,我們也舉兩個(gè)產(chǎn)品的例子,一是訊飛語記,另一個(gè)是訊飛聽見


訊飛語記是一款A(yù)PP,它能夠?qū)⑽覀兯f的語音記錄成文字,訊飛聽見會(huì)議系統(tǒng)能夠?qū)崟r(shí)的根據(jù)演講者所說的內(nèi)容準(zhǔn)確識(shí)別出來,并且實(shí)時(shí)投影在我們的大屏幕上。


關(guān)于語音交互的產(chǎn)品有很多,比如訊飛推出的訊飛翻譯機(jī)、能夠和小朋友進(jìn)行互動(dòng)的阿法蛋、以及可以進(jìn)行聊天交流的叮咚音箱等。


本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
語音識(shí)別技術(shù)概述
Android本地語音識(shí)別
語音識(shí)別關(guān)鍵技術(shù)研究
干貨總結(jié) | 58同城語音識(shí)別技術(shù)的探索和實(shí)踐
【回顧】剖析語音識(shí)別技術(shù)優(yōu)勢(shì)及產(chǎn)品落地之路丨AI公開課
【贈(zèng)書】高質(zhì)量語音處理新書,送6本!
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服