国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
【好文解析】ICASSP最佳學(xué)生論文:深度對(duì)抗聲學(xué)模型訓(xùn)練框架
CASIA

今日聚焦

自動(dòng)化所智能交互團(tuán)隊(duì)劉斌、聶帥、劉文舉等針對(duì)語音識(shí)別系統(tǒng)在噪聲環(huán)境下識(shí)別性能下降的問題,提出了深度對(duì)抗聲學(xué)模型訓(xùn)練框架,有效減小了噪聲環(huán)境語音數(shù)據(jù)和真實(shí)訓(xùn)練數(shù)據(jù)的分布差異,提升了聲學(xué)模型的魯棒性。該框架不需要一一對(duì)應(yīng)的帶噪數(shù)據(jù)和純凈數(shù)據(jù),可作為通用訓(xùn)練框架提升已有聲學(xué)模型。同時(shí),相關(guān)研究論文獲得了ICASSP2018最佳學(xué)生論文。

在互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代,以PC和智能手機(jī)為載體的圖形視覺交互是最主要的人機(jī)交互方式,占據(jù)了絕大部分用戶流量入口。而在智能設(shè)備更為復(fù)雜的物聯(lián)網(wǎng)時(shí)代,除觸屏之外,語音交互被公認(rèn)最可能成為下一代信息、內(nèi)容以及服務(wù)的核心入口。

目前,“語音交互”這一賽道已經(jīng)匯集了互聯(lián)網(wǎng)巨頭、知名硬件企業(yè)、傳統(tǒng)家電廠商、電商平臺(tái)以及各類人工智能初創(chuàng)公司;近年來以智能音箱為代表的語音交互產(chǎn)品在國(guó)內(nèi)外的火爆,更是極大地刺激了語音交互技術(shù)的應(yīng)用與發(fā)展。此外,深度學(xué)習(xí)技術(shù)的突破也極大地促進(jìn)了語音識(shí)別技術(shù)的發(fā)展。

當(dāng)前,語音識(shí)別系統(tǒng)在近場(chǎng)環(huán)境下已呈現(xiàn)出相當(dāng)好的性能,甚至超過了人類水平。然而在真實(shí)環(huán)境中,語音信號(hào)不可避免會(huì)受到噪聲和混響的干擾;特別是在遠(yuǎn)場(chǎng)條件下,由于聲波在傳播過程中能量隨傳播距離呈指數(shù)衰減,語音信號(hào)受到噪聲和混響的干擾更加嚴(yán)重,極大地影響了語音識(shí)別等語音交互應(yīng)用的性能。下圖分別展示一段純凈語音和帶噪語音的語譜圖,可以看出,帶噪語音的信號(hào)已被嚴(yán)重干擾,因此很難直接得到令人滿意的語音識(shí)別效果。


圖1 純凈和帶噪語音的語譜圖對(duì)比


傳統(tǒng)解決模式及其弊端

為了提高語音識(shí)別系統(tǒng)的噪聲魯棒性,最直接的手段就是收集大量真實(shí)環(huán)境的語音數(shù)據(jù)進(jìn)行帶噪訓(xùn)練。這種方法雖然簡(jiǎn)單,但真實(shí)環(huán)境復(fù)雜多變,數(shù)據(jù)收集和訓(xùn)練的代價(jià)比較大,很難覆蓋所有應(yīng)用場(chǎng)景,性能提升比較有限。

另一種重要方法是采用“語音增強(qiáng)”作為語音識(shí)別系統(tǒng)的前端處理模塊。但此種方法一方面會(huì)導(dǎo)致處理流程和計(jì)算消耗的增加,甚至可能增加硬件成本(基于麥克風(fēng)陣列的多通道語音增強(qiáng));另一方面,語音增強(qiáng)算法一般會(huì)基于自身的優(yōu)化準(zhǔn)則,并不會(huì)直接優(yōu)化語音識(shí)別目標(biāo),消除噪聲的同時(shí)可能會(huì)造成語音畸變。

簡(jiǎn)言之,語音識(shí)別模型的噪聲魯棒性問題主要來源于純凈訓(xùn)練數(shù)據(jù)和帶噪測(cè)試數(shù)據(jù)的分布差異。下圖2(a)示意純凈語音數(shù)據(jù)的分布;帶噪語音的分布可能是圖2(b);語音增強(qiáng),例如基于二值掩蔽的語音增強(qiáng),可以消除一定程度的噪聲,但同時(shí)也會(huì)帶來降噪語音分布的不連續(xù)性,如圖2(c)。顯然,以更大尺度、直接從整體上連續(xù)調(diào)整帶噪語音數(shù)據(jù)的分布可能是更好的方法。

    

2 純凈、帶噪、增強(qiáng)的語音分布示意圖


無監(jiān)督生成模型:GAN

生成對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks)是最近極為流行的無監(jiān)督生成模型。通過對(duì)抗訓(xùn)練的方式,它能夠連續(xù)逼近指定的數(shù)據(jù)分布。GAN通常由生成器判別器組成,生成器用來生成樣本,判別器用來判斷樣本是否來自真實(shí)訓(xùn)練集;二者進(jìn)行對(duì)抗訓(xùn)練,使得生成器生成的樣本盡可能逼近真實(shí)訓(xùn)練數(shù)據(jù),如圖3所示。GAN不僅在圖像領(lǐng)域取得了巨大的成功,在語音領(lǐng)域也有許多應(yīng)用,例如語音轉(zhuǎn)換、合成、增強(qiáng)等。


圖3 生成式對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)示意圖


聯(lián)合訓(xùn)練框架:多種問題,一種對(duì)策

針對(duì)語音識(shí)別系統(tǒng)在噪聲環(huán)境下識(shí)別性能下降的問題,本文提出了深度對(duì)抗聲學(xué)模型聯(lián)合訓(xùn)練框架。該框架由生成器(G)、判別器(D)以及分類器(C)組成:生成器用來把帶噪語音數(shù)據(jù)分布變成純凈語音;判別器用來判定語音信號(hào)是否來自真實(shí)純凈訓(xùn)練集;聲學(xué)模型作為分類器,指導(dǎo)生成器提取區(qū)分性特征。生成器、判別器和聲學(xué)模型進(jìn)行聯(lián)合對(duì)抗訓(xùn)練,三者相互配合相互促進(jìn)。


       圖4 深度對(duì)抗訓(xùn)練框架


深度對(duì)抗的聯(lián)合訓(xùn)練策略有效減小了噪聲環(huán)境語音數(shù)據(jù)和真實(shí)訓(xùn)練數(shù)據(jù)的分布差異,提升了聲學(xué)模型的魯棒性。相較于語音增強(qiáng)方法,該框架沒有增加計(jì)算的流程和復(fù)雜度,并且不需要一一對(duì)應(yīng)的帶噪數(shù)據(jù)和純凈數(shù)據(jù),可作為通用訓(xùn)練框架提升已有聲學(xué)模型的噪聲魯棒性。

我們將提出的方法在Chime-4數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),評(píng)價(jià)標(biāo)準(zhǔn)為詞錯(cuò)誤率。結(jié)果顯示:測(cè)試集上超過了基線系統(tǒng)(29.29 vs 33.11),效果良好,驗(yàn)證了該方法的有效性。

此外,劉文舉研究組在基于深度對(duì)抗訓(xùn)練的領(lǐng)域自適應(yīng)問題上進(jìn)行了系列深入研究,目前已在OCR、魯棒性語音識(shí)別和語音增強(qiáng)等領(lǐng)域取得多項(xiàng)優(yōu)秀成果。



參考文獻(xiàn)

[1]Bin Liu, Shuai Nie*, Yaping Zhang, Dengfeng Ke, Shan Liang, Wenju Liu, “Boosting Noise Robustness of Acoustic Model via Deep Adversarial Training,”ICASSP, 2018.(Best Student Paper Award)

[2]Zhang, Y., Liang, S., Nie, S*., Liu, W., & Peng, S,“Robust offline handwritten character recognition through exploring writer-independent features under the guidance of printed data,”Pattern Recognition Letters, 2018,106, 20-26.

[3]Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, “Generative adversarial nets,”NIPS, 2014, pp. 2672–2680.

[4]Bajibabu Bollepalli, Lauri Juvela, and Paavo Alku, “Generative adversarial network-based glottal waveform model for statistical parametric speech synthesis,”INTERSPEECH, 2017.

[5] Xudong Mao, Qing Li, Haoran Xie, Raymond Y. K Lau, Zhen Wang, and Stephen Paul Smolley, “Least squares generative adversarial networks,” ICCV,2016.



作者:劉斌、聶帥、劉文舉等

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
一文讀懂語音識(shí)別技術(shù)
深度解讀:GAN模型及其在2016年度的進(jìn)展
字節(jié)跳動(dòng)將音樂檢索速度提高8倍,多篇論文入選語音頂會(huì)
生成對(duì)抗網(wǎng)絡(luò)(GANs)的進(jìn)展與應(yīng)用:從圖像生成到文本生成
車載智能語音:語音識(shí)別的核心技術(shù)
智能語音快速發(fā)展需跨越三座“大山”
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服