杨幂激情视频,刘诗诗婚礼视频

【好文解析】ICASSP最佳學(xué)生論文：深度對(duì)抗聲學(xué)模型訓(xùn)練框架

2018.04.30

CASIA

今日聚焦

自動(dòng)化所智能交互團(tuán)隊(duì)劉斌、聶帥、劉文舉等針對(duì)語音識(shí)別系統(tǒng)在噪聲環(huán)境下識(shí)別性能下降的問題，提出了深度對(duì)抗聲學(xué)模型訓(xùn)練框架，有效減小了噪聲環(huán)境語音數(shù)據(jù)和真實(shí)訓(xùn)練數(shù)據(jù)的分布差異，提升了聲學(xué)模型的魯棒性。該框架不需要一一對(duì)應(yīng)的帶噪數(shù)據(jù)和純凈數(shù)據(jù)，可作為通用訓(xùn)練框架提升已有聲學(xué)模型。同時(shí)，相關(guān)研究論文獲得了ICASSP2018最佳學(xué)生論文。

在互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代，以PC和智能手機(jī)為載體的圖形視覺交互是最主要的人機(jī)交互方式，占據(jù)了絕大部分用戶流量入口。而在智能設(shè)備更為復(fù)雜的物聯(lián)網(wǎng)時(shí)代，除觸屏之外，語音交互被公認(rèn)最可能成為下一代信息、內(nèi)容以及服務(wù)的核心入口。

目前，“語音交互”這一賽道已經(jīng)匯集了互聯(lián)網(wǎng)巨頭、知名硬件企業(yè)、傳統(tǒng)家電廠商、電商平臺(tái)以及各類人工智能初創(chuàng)公司；近年來以智能音箱為代表的語音交互產(chǎn)品在國(guó)內(nèi)外的火爆，更是極大地刺激了語音交互技術(shù)的應(yīng)用與發(fā)展。此外，深度學(xué)習(xí)技術(shù)的突破也極大地促進(jìn)了語音識(shí)別技術(shù)的發(fā)展。

當(dāng)前，語音識(shí)別系統(tǒng)在近場(chǎng)環(huán)境下已呈現(xiàn)出相當(dāng)好的性能，甚至超過了人類水平。然而在真實(shí)環(huán)境中，語音信號(hào)不可避免會(huì)受到噪聲和混響的干擾；特別是在遠(yuǎn)場(chǎng)條件下，由于聲波在傳播過程中能量隨傳播距離呈指數(shù)衰減，語音信號(hào)受到噪聲和混響的干擾更加嚴(yán)重，極大地影響了語音識(shí)別等語音交互應(yīng)用的性能。下圖分別展示一段純凈語音和帶噪語音的語譜圖，可以看出，帶噪語音的信號(hào)已被嚴(yán)重干擾，因此很難直接得到令人滿意的語音識(shí)別效果。

圖1 純凈和帶噪語音的語譜圖對(duì)比

傳統(tǒng)解決模式及其弊端

為了提高語音識(shí)別系統(tǒng)的噪聲魯棒性，最直接的手段就是收集大量真實(shí)環(huán)境的語音數(shù)據(jù)進(jìn)行帶噪訓(xùn)練。這種方法雖然簡(jiǎn)單，但真實(shí)環(huán)境復(fù)雜多變，數(shù)據(jù)收集和訓(xùn)練的代價(jià)比較大，很難覆蓋所有應(yīng)用場(chǎng)景，性能提升比較有限。

另一種重要方法是采用“語音增強(qiáng)”作為語音識(shí)別系統(tǒng)的前端處理模塊。但此種方法一方面會(huì)導(dǎo)致處理流程和計(jì)算消耗的增加，甚至可能增加硬件成本（基于麥克風(fēng)陣列的多通道語音增強(qiáng)）；另一方面，語音增強(qiáng)算法一般會(huì)基于自身的優(yōu)化準(zhǔn)則，并不會(huì)直接優(yōu)化語音識(shí)別目標(biāo)，消除噪聲的同時(shí)可能會(huì)造成語音畸變。

簡(jiǎn)言之，語音識(shí)別模型的噪聲魯棒性問題主要來源于純凈訓(xùn)練數(shù)據(jù)和帶噪測(cè)試數(shù)據(jù)的分布差異。下圖2（a）示意純凈語音數(shù)據(jù)的分布；帶噪語音的分布可能是圖2（b）；語音增強(qiáng)，例如基于二值掩蔽的語音增強(qiáng)，可以消除一定程度的噪聲，但同時(shí)也會(huì)帶來降噪語音分布的不連續(xù)性，如圖2（c）。顯然，以更大尺度、直接從整體上連續(xù)調(diào)整帶噪語音數(shù)據(jù)的分布可能是更好的方法。

圖2 純凈、帶噪、增強(qiáng)的語音分布示意圖

無監(jiān)督生成模型：GAN

生成式對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks)是最近極為流行的無監(jiān)督生成模型。通過對(duì)抗訓(xùn)練的方式，它能夠連續(xù)逼近指定的數(shù)據(jù)分布。GAN通常由生成器和判別器組成，生成器用來生成樣本，判別器用來判斷樣本是否來自真實(shí)訓(xùn)練集；二者進(jìn)行對(duì)抗訓(xùn)練，使得生成器生成的樣本盡可能逼近真實(shí)訓(xùn)練數(shù)據(jù)，如圖3所示。GAN不僅在圖像領(lǐng)域取得了巨大的成功，在語音領(lǐng)域也有許多應(yīng)用，例如語音轉(zhuǎn)換、合成、增強(qiáng)等。

圖3 生成式對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)示意圖

聯(lián)合訓(xùn)練框架：多種問題，一種對(duì)策

針對(duì)語音識(shí)別系統(tǒng)在噪聲環(huán)境下識(shí)別性能下降的問題，本文提出了深度對(duì)抗和聲學(xué)模型聯(lián)合訓(xùn)練的框架。該框架由生成器（G）、判別器（D）以及分類器（C）組成：生成器用來把帶噪語音數(shù)據(jù)分布變成純凈語音；判別器用來判定語音信號(hào)是否來自真實(shí)純凈訓(xùn)練集；聲學(xué)模型作為分類器,指導(dǎo)生成器提取區(qū)分性特征。生成器、判別器和聲學(xué)模型進(jìn)行聯(lián)合對(duì)抗訓(xùn)練，三者相互配合相互促進(jìn)。

圖4 深度對(duì)抗訓(xùn)練框架

深度對(duì)抗的聯(lián)合訓(xùn)練策略有效減小了噪聲環(huán)境語音數(shù)據(jù)和真實(shí)訓(xùn)練數(shù)據(jù)的分布差異，提升了聲學(xué)模型的魯棒性。相較于語音增強(qiáng)方法，該框架沒有增加計(jì)算的流程和復(fù)雜度，并且不需要一一對(duì)應(yīng)的帶噪數(shù)據(jù)和純凈數(shù)據(jù)，可作為通用訓(xùn)練框架提升已有聲學(xué)模型的噪聲魯棒性。

我們將提出的方法在Chime-4數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，評(píng)價(jià)標(biāo)準(zhǔn)為詞錯(cuò)誤率。結(jié)果顯示：測(cè)試集上超過了基線系統(tǒng)（29.29 vs 33.11），效果良好，驗(yàn)證了該方法的有效性。

此外，劉文舉研究組在基于深度對(duì)抗訓(xùn)練的領(lǐng)域自適應(yīng)問題上進(jìn)行了系列深入研究，目前已在OCR、魯棒性語音識(shí)別和語音增強(qiáng)等領(lǐng)域取得多項(xiàng)優(yōu)秀成果。

參考文獻(xiàn)

[1]Bin Liu, Shuai Nie^*, Yaping Zhang, Dengfeng Ke, Shan Liang, Wenju Liu, “Boosting Noise Robustness of Acoustic Model via Deep Adversarial Training,”ICASSP, 2018.（Best Student Paper Award）

[2]Zhang, Y., Liang, S., Nie, S^*., Liu, W., & Peng, S,“Robust offline handwritten character recognition through exploring writer-independent features under the guidance of printed data,”Pattern Recognition Letters, 2018，106, 20-26.

[3]Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, “Generative adversarial nets,”NIPS, 2014, pp. 2672–2680.

[4]Bajibabu Bollepalli, Lauri Juvela, and Paavo Alku, “Generative adversarial network-based glottal waveform model for statistical parametric speech synthesis,”INTERSPEECH, 2017.

[5] Xudong Mao, Qing Li, Haoran Xie, Raymond Y. K Lau, Zhen Wang, and Stephen Paul Smolley, “Least squares generative adversarial networks,” ICCV，2016.

作者：劉斌、聶帥、劉文舉等

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

一文讀懂語音識(shí)別技術(shù)

深度解讀：GAN模型及其在2016年度的進(jìn)展

字節(jié)跳動(dòng)將音樂檢索速度提高8倍，多篇論文入選語音頂會(huì)

生成對(duì)抗網(wǎng)絡(luò)（GANs）的進(jìn)展與應(yīng)用：從圖像生成到文本生成

車載智能語音：語音識(shí)別的核心技術(shù)

智能語音快速發(fā)展需跨越三座“大山”

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看