今日聚焦
自動(dòng)化所智能交互團(tuán)隊(duì)劉斌、聶帥、劉文舉等針對(duì)語音識(shí)別系統(tǒng)在噪聲環(huán)境下識(shí)別性能下降的問題,提出了深度對(duì)抗聲學(xué)模型訓(xùn)練框架,有效減小了噪聲環(huán)境語音數(shù)據(jù)和真實(shí)訓(xùn)練數(shù)據(jù)的分布差異,提升了聲學(xué)模型的魯棒性。該框架不需要一一對(duì)應(yīng)的帶噪數(shù)據(jù)和純凈數(shù)據(jù),可作為通用訓(xùn)練框架提升已有聲學(xué)模型。同時(shí),相關(guān)研究論文獲得了ICASSP2018最佳學(xué)生論文。
在互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代,以PC和智能手機(jī)為載體的圖形視覺交互是最主要的人機(jī)交互方式,占據(jù)了絕大部分用戶流量入口。而在智能設(shè)備更為復(fù)雜的物聯(lián)網(wǎng)時(shí)代,除觸屏之外,語音交互被公認(rèn)最可能成為下一代信息、內(nèi)容以及服務(wù)的核心入口。
目前,“語音交互”這一賽道已經(jīng)匯集了互聯(lián)網(wǎng)巨頭、知名硬件企業(yè)、傳統(tǒng)家電廠商、電商平臺(tái)以及各類人工智能初創(chuàng)公司;近年來以智能音箱為代表的語音交互產(chǎn)品在國(guó)內(nèi)外的火爆,更是極大地刺激了語音交互技術(shù)的應(yīng)用與發(fā)展。此外,深度學(xué)習(xí)技術(shù)的突破也極大地促進(jìn)了語音識(shí)別技術(shù)的發(fā)展。
當(dāng)前,語音識(shí)別系統(tǒng)在近場(chǎng)環(huán)境下已呈現(xiàn)出相當(dāng)好的性能,甚至超過了人類水平。然而在真實(shí)環(huán)境中,語音信號(hào)不可避免會(huì)受到噪聲和混響的干擾;特別是在遠(yuǎn)場(chǎng)條件下,由于聲波在傳播過程中能量隨傳播距離呈指數(shù)衰減,語音信號(hào)受到噪聲和混響的干擾更加嚴(yán)重,極大地影響了語音識(shí)別等語音交互應(yīng)用的性能。下圖分別展示一段純凈語音和帶噪語音的語譜圖,可以看出,帶噪語音的信號(hào)已被嚴(yán)重干擾,因此很難直接得到令人滿意的語音識(shí)別效果。
圖1 純凈和帶噪語音的語譜圖對(duì)比
為了提高語音識(shí)別系統(tǒng)的噪聲魯棒性,最直接的手段就是收集大量真實(shí)環(huán)境的語音數(shù)據(jù)進(jìn)行帶噪訓(xùn)練。這種方法雖然簡(jiǎn)單,但真實(shí)環(huán)境復(fù)雜多變,數(shù)據(jù)收集和訓(xùn)練的代價(jià)比較大,很難覆蓋所有應(yīng)用場(chǎng)景,性能提升比較有限。
另一種重要方法是采用“語音增強(qiáng)”作為語音識(shí)別系統(tǒng)的前端處理模塊。但此種方法一方面會(huì)導(dǎo)致處理流程和計(jì)算消耗的增加,甚至可能增加硬件成本(基于麥克風(fēng)陣列的多通道語音增強(qiáng));另一方面,語音增強(qiáng)算法一般會(huì)基于自身的優(yōu)化準(zhǔn)則,并不會(huì)直接優(yōu)化語音識(shí)別目標(biāo),消除噪聲的同時(shí)可能會(huì)造成語音畸變。
簡(jiǎn)言之,語音識(shí)別模型的噪聲魯棒性問題主要來源于純凈訓(xùn)練數(shù)據(jù)和帶噪測(cè)試數(shù)據(jù)的分布差異。下圖2(a)示意純凈語音數(shù)據(jù)的分布;帶噪語音的分布可能是圖2(b);語音增強(qiáng),例如基于二值掩蔽的語音增強(qiáng),可以消除一定程度的噪聲,但同時(shí)也會(huì)帶來降噪語音分布的不連續(xù)性,如圖2(c)。顯然,以更大尺度、直接從整體上連續(xù)調(diào)整帶噪語音數(shù)據(jù)的分布可能是更好的方法。
圖2 純凈、帶噪、增強(qiáng)的語音分布示意圖
生成式對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks)是最近極為流行的無監(jiān)督生成模型。通過對(duì)抗訓(xùn)練的方式,它能夠連續(xù)逼近指定的數(shù)據(jù)分布。GAN通常由生成器和判別器組成,生成器用來生成樣本,判別器用來判斷樣本是否來自真實(shí)訓(xùn)練集;二者進(jìn)行對(duì)抗訓(xùn)練,使得生成器生成的樣本盡可能逼近真實(shí)訓(xùn)練數(shù)據(jù),如圖3所示。GAN不僅在圖像領(lǐng)域取得了巨大的成功,在語音領(lǐng)域也有許多應(yīng)用,例如語音轉(zhuǎn)換、合成、增強(qiáng)等。
圖3 生成式對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)示意圖
聯(lián)合訓(xùn)練框架:多種問題,一種對(duì)策
針對(duì)語音識(shí)別系統(tǒng)在噪聲環(huán)境下識(shí)別性能下降的問題,本文提出了深度對(duì)抗和聲學(xué)模型聯(lián)合訓(xùn)練的框架。該框架由生成器(G)、判別器(D)以及分類器(C)組成:生成器用來把帶噪語音數(shù)據(jù)分布變成純凈語音;判別器用來判定語音信號(hào)是否來自真實(shí)純凈訓(xùn)練集;聲學(xué)模型作為分類器,指導(dǎo)生成器提取區(qū)分性特征。生成器、判別器和聲學(xué)模型進(jìn)行聯(lián)合對(duì)抗訓(xùn)練,三者相互配合相互促進(jìn)。
圖4 深度對(duì)抗訓(xùn)練框架
深度對(duì)抗的聯(lián)合訓(xùn)練策略有效減小了噪聲環(huán)境語音數(shù)據(jù)和真實(shí)訓(xùn)練數(shù)據(jù)的分布差異,提升了聲學(xué)模型的魯棒性。相較于語音增強(qiáng)方法,該框架沒有增加計(jì)算的流程和復(fù)雜度,并且不需要一一對(duì)應(yīng)的帶噪數(shù)據(jù)和純凈數(shù)據(jù),可作為通用訓(xùn)練框架提升已有聲學(xué)模型的噪聲魯棒性。
我們將提出的方法在Chime-4數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),評(píng)價(jià)標(biāo)準(zhǔn)為詞錯(cuò)誤率。結(jié)果顯示:測(cè)試集上超過了基線系統(tǒng)(29.29 vs 33.11),效果良好,驗(yàn)證了該方法的有效性。
此外,劉文舉研究組在基于深度對(duì)抗訓(xùn)練的領(lǐng)域自適應(yīng)問題上進(jìn)行了系列深入研究,目前已在OCR、魯棒性語音識(shí)別和語音增強(qiáng)等領(lǐng)域取得多項(xiàng)優(yōu)秀成果。
參考文獻(xiàn)
[1]Bin Liu, Shuai Nie*, Yaping Zhang, Dengfeng Ke, Shan Liang, Wenju Liu, “Boosting Noise Robustness of Acoustic Model via Deep Adversarial Training,”ICASSP, 2018.(Best Student Paper Award)
[2]Zhang, Y., Liang, S., Nie, S*., Liu, W., & Peng, S,“Robust offline handwritten character recognition through exploring writer-independent features under the guidance of printed data,”Pattern Recognition Letters, 2018,106, 20-26.
[3]Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, “Generative adversarial nets,”NIPS, 2014, pp. 2672–2680.
[4]Bajibabu Bollepalli, Lauri Juvela, and Paavo Alku, “Generative adversarial network-based glottal waveform model for statistical parametric speech synthesis,”INTERSPEECH, 2017.
[5] Xudong Mao, Qing Li, Haoran Xie, Raymond Y. K Lau, Zhen Wang, and Stephen Paul Smolley, “Least squares generative adversarial networks,” ICCV,2016.
作者:劉斌、聶帥、劉文舉等
聯(lián)系客服