大家好!感謝深藍學(xué)院的邀請!我代表西工大音頻語音與語言處理研究組向各位匯報一下我們實驗室在智能語音技術(shù)方面的一些進展,基于實驗室多位同學(xué)研究工作的總結(jié)。
針對人類語音的研究是一門典型的交叉學(xué)科,涉及聲學(xué)、聽覺、信號處理、語音語言學(xué)、生理學(xué)、認(rèn)知科學(xué)、統(tǒng)計學(xué)、機器學(xué)習(xí)等眾多領(lǐng)域。語音處理主要針對人類的語音作為研究載體,除此之外,對聲音的研究非常廣泛,比如環(huán)境聲、音樂等,統(tǒng)稱為聽覺(音頻)信息處理。如果把做和聲音相關(guān)研究的人員加在一起,會是一個特別龐大的群體,個人感覺規(guī)模不會少于CV領(lǐng)域。
關(guān)于今天的主題——智能語音交互,主要是人和機器通過語音作為媒介進行自然交互的形式,從語音交互圓環(huán)(speech circle)這張圖看,涉及到的核心技術(shù)主要包括四個方面,首先通過語音識別(ASR)轉(zhuǎn)成文字,如果語音信號質(zhì)量不好的話,前端會有一個語音增強模塊;然后是口語語言理解,接下來是對話管理和口語語言生成,而最終通過文語轉(zhuǎn)換(TTS)生成語音回饋給用戶。
回顧語音識別的發(fā)展,在2000年之前,語音識別的錯誤率有明顯的改善,而在2000年到2010年期間,我們做的很多努力很難再去進一步降低識別的錯誤率。在大概2010年后,在深度學(xué)習(xí)的推動下,利用大數(shù)據(jù)、機器學(xué)習(xí)和大算力這“三駕馬車”,語音識別的識別準(zhǔn)確度再一次明顯提升,錯誤率再一次下降,并且在一部分?jǐn)?shù)據(jù)集上實現(xiàn)了媲美人類語音識別的精度。
語音識別是智能語音范疇內(nèi)的一個典型任務(wù),除此之外,智能語音的任務(wù)還包括語音編碼、語音增強、關(guān)鍵詞檢出、聲紋識別等一系列任務(wù),而智能語音技術(shù)能夠服務(wù)的方向主要包括三方面,一是自然人機交互,二是自然人人交互,還有就是內(nèi)容分析與挖掘,垂直落地的應(yīng)用非常多,場景廣泛,價值巨大。
智能語音涉及的具體方向眾多,而接下來我將圍繞著我們實驗室重點關(guān)注的三個方向——語音增強、語音識別和語音合成來展開介紹。
關(guān)于語音增強,這是一個非常經(jīng)典的研究課題,它的基本目的是減少噪聲干擾,提高語音質(zhì)量。在麥克風(fēng)拾音時,會遇到語音隨距離增加而造成的衰減、信道畸變、房間混響、聲學(xué)回聲,各種噪聲干擾和人聲干擾等眾多問題。傳統(tǒng)的基于統(tǒng)計信號處理的語音增強可以提供良好的平穩(wěn)噪聲抑制能力,而以數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法則將非平穩(wěn)的噪聲的抑制成為了可能。
關(guān)于深度學(xué)習(xí)在語音增強中的應(yīng)用大致可以分為三個階段,開始的研究工作主要圍繞基礎(chǔ)的Masking和Regression范式,當(dāng)時的網(wǎng)絡(luò)的結(jié)構(gòu)比較簡單,主要針對幅度譜建模,損失函數(shù)主要是MSE。
在第二階段,研究者們展開了更大膽的嘗試,這體現(xiàn)在網(wǎng)絡(luò)結(jié)構(gòu)的多樣化,包括CRN,Tasnet,生成對抗網(wǎng)絡(luò)(GAN)的使用和最近的Transfomer結(jié)構(gòu);而建模也從時頻域延伸到直接在時域建模;損失函數(shù)更更多樣化,包括MSE、SI-SNR和PESQ等形式。
而在現(xiàn)階段,AI降噪開始落地應(yīng)用,包括TWS耳機、在線會議系統(tǒng)等場景,在線會議和直播后臺等應(yīng)用中,可能都已經(jīng)有了AI語音增強網(wǎng)絡(luò)的嵌入,技術(shù)方面還出現(xiàn)了復(fù)數(shù)形式的網(wǎng)絡(luò)和各種更為精細化設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)。此外,還有利用聲紋先驗信息的個性化語音增強或稱之為目標(biāo)說話人提取。
基于DCCRN復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)的語音增強
關(guān)于語音增強,我們實驗室的同學(xué)在去年的Interspeech上發(fā)表了Deep Complex Convolution Recurrent Network(DCCRN)這個工作,DCCRN采用經(jīng)典的U-Net結(jié)構(gòu),在CRN的基礎(chǔ)上綜合了復(fù)數(shù)卷積以及LSTM瞬態(tài)建模的優(yōu)勢。
它在模型復(fù)雜度和低延時(40ms)的要求下,具有高性能降噪能力。在去年的Interspeech深度噪聲抑制競賽(DNS)的實時賽道中,取得了第一名的成績,這篇論文當(dāng)前在google scholar上的引用已經(jīng)達到了100次?;谏疃葘W(xué)習(xí)語音增強的一個問題在于需要做降噪量和語譜保真上的折中。
在今年,我們在DCCRN的基礎(chǔ)上又提出了同時兼顧聽感與降噪的復(fù)數(shù)增強網(wǎng)絡(luò)DCCRN+,在具有高降噪量的同時,提升語音的保真度。它的貢獻主要包括,一個基于”可學(xué)習(xí)”的子帶劃分與合并,減少模型大小和計算復(fù)雜度;二是實現(xiàn)了頻域和時域序列同時建模;三是通過“卷積通道”獲取編碼器每層輸出的更豐富的信息;四是以信噪比估計作為輔助任務(wù),降噪的同時提升聽感;五是在后處理中去除殘留噪聲。
DCCRN+:兼顧語音保真與降噪量的復(fù)數(shù)增強網(wǎng)絡(luò)
人們對于語音通話的體驗要求越來越高,比如更高采樣率、甚至具有空間方位感的沉浸式開會體驗。近期在DCCRN的基礎(chǔ)上,為了處理超帶寬的語音數(shù)據(jù),我們還提出了超帶寬語音增強模型S-DCCRN,用于增強32KHz采樣率的帶噪語音。它的主要貢獻包括:
1.首先利用子帶DCCRN精細化學(xué)習(xí)高低頻信息,然后全帶DCCRN結(jié)合高低頻信息,起到平滑銜接作用;
2.同時,通過網(wǎng)絡(luò)學(xué)習(xí)動態(tài)調(diào)整不同頻帶能量;
3.在和16K降噪模型保持相同的較低頻率分辨率的同時,通過復(fù)數(shù)特征編碼從譜上獲取更多的信息。
自去年推出DCCRN以來,目前已經(jīng)在這個上面有很多擴展性的工作,包括我們自己的DCCRN+,S-DCCRN,以及同時做去混、降噪和分離的DesNet,阿里、NTNU等單位也做了多通道上的擴展,值得注意的是近期微軟把DCCRN用于個性化語音增強即目標(biāo)說話人增強,推出了pDCCRN方案。除了DCCRN系列,近期我們也推出了Uformer,基于復(fù)數(shù)和實數(shù)Unet和卷積核膨脹雙路Conformer,具有更為強大的能力。
接下來我們展開關(guān)于深度學(xué)習(xí)語音增強發(fā)展的相關(guān)討論。目前,雖然基于AI的降噪已經(jīng)有一定的應(yīng)用,但是在很多場合,采用的還是基于信號處理的方案,而“AI降噪”在實際落地的時候,出于對于資源的考慮,很多精細設(shè)計的模型無法發(fā)揮優(yōu)勢。如何將信號處理和深度學(xué)習(xí)有機的結(jié)合在一起也是值得深度探索的。
此外,語音增強除了給人聽外,另一個重要目的是為了更好的服務(wù)于包括語音識別在內(nèi)的下游任務(wù),而現(xiàn)狀卻是深度學(xué)習(xí)語音增強給語音識別帶來的提升有限,甚至有些情況可能是副作用,這是因為語音識別通過多場景訓(xùn)練策略已經(jīng)考慮到了噪聲的影響,同時端到端語音識別模型的能力很強,深度學(xué)習(xí)語音增強處理過的語譜語音識別模型卻沒有見過。
我們可以嘗試在訓(xùn)練過程中,把增強后的數(shù)據(jù)和原始數(shù)據(jù)同時加入,進行聯(lián)合訓(xùn)練,甚至前后端聯(lián)合建模。但是在實際使用中,我們往往希望完全解耦前后端,不希望聯(lián)合訓(xùn)練。此外,更細致、全面和快捷的數(shù)據(jù)仿真方案也可能會提升模型訓(xùn)練后的效果。與此同時,而視覺、聲紋等先驗信息的有效利用也是提升語音增強模型效果的重要途徑,近期我們也看到了這個方向上非常多有益的探索甚至開始落地。
WeNet語音識別工具包
關(guān)于語音識別,端對端的方案在這兩年得到了更廣泛的認(rèn)可,大家可以關(guān)注下我們在解決領(lǐng)域適配或?qū)S忻~識別不佳的Cascade RNNT方案以及簡化Conformer計算復(fù)雜度的方案。此外,我們發(fā)布的WeNet作為一個輕量級端到端語音識別全棧解決方案,功能不斷豐富,包括對于語言模型的支持、端點檢測、時間戳對齊、以及預(yù)訓(xùn)練模型的支持等等。眾多學(xué)術(shù)界和工業(yè)界的同行們也在圍繞它展開更多的擴展。
語音識別雖然已經(jīng)在各個應(yīng)用領(lǐng)域落地,但是仍然不能說是一個完全解決了的問題,因為實際應(yīng)用場景面臨各種挑戰(zhàn),總結(jié)而言挑戰(zhàn)主要包括魯棒性、低資源和復(fù)雜場景三個方面。
魯棒性的典型問題包括口音方言、語種混雜或多語種、領(lǐng)域適配等;低資源是指系統(tǒng)部署的資源有限和標(biāo)注數(shù)據(jù)缺乏的場景,前者典型的是AIoT場景下各種端側(cè)設(shè)備部署對模型大小、算力的限制,而標(biāo)注數(shù)據(jù)缺乏也是限制語音識別走向各個垂域和語種的關(guān)鍵因素,因為垂域太多了,缺乏標(biāo)注數(shù)據(jù)的小語種太多了;語音識別在部署時面臨的場景可能非常復(fù)雜,例如多人會議、自然對話等場景,各類復(fù)雜噪聲干擾等。為了解決這些問題,無監(jiān)督自學(xué)習(xí)、前后端一體化、語音語義一體化提供了可能。
接下來分享的是我們在端側(cè)部署指令識別上的相關(guān)工作。在端側(cè)部署進行指令識別時,遇到的最大的問題之一就是指令混淆的問題,比如控制空調(diào)的“二十一度”可能誤識別成“十一度”,兩個指令發(fā)音上很接近,語速一快可能就識別錯了。
對此,我們近期提出了最小序列混淆錯誤準(zhǔn)則(Minimize sequential confusion error(MSCE) training)用于指令識別模型的判別式訓(xùn)練。MSCE通過增加指令間區(qū)分度,來緩解混淆詞錯誤。雖然語音任務(wù)本身是序列標(biāo)注任務(wù),但是指令詞之間可以認(rèn)為是單個分類任務(wù),對于分類任務(wù),可以使用MCE準(zhǔn)則進行區(qū)分性訓(xùn)練,增大類間區(qū)分性。
此外,使用CTC準(zhǔn)則作為序列到類別的橋梁,在此基礎(chǔ)上增加指令間的區(qū)分性。感興趣的同學(xué)可以關(guān)注我們后續(xù)發(fā)布的論文。實驗表明,MSCE在空調(diào)指令識別任務(wù)上有14--18%相對混淆錯誤的降低。第二個工作是關(guān)于多說話人的語音識別,我們提出了基于說話人條件鏈的非自回歸多說話人語音識別方案,迭代式地預(yù)測每個說話人的輸出,通過說話人條件鏈建模每個輸出之間依賴性, 每次迭代使用 Conformer-CTC 進行非自回歸并行解碼 ,該方案可以處理不同混合說話人混合數(shù)目的語音。
在對話語音識別中,有效利用上下文信息是非常直觀的想法。我們嘗試了進行跨句注意力機制建模,通過在Transfomer中引入殘差注意力編碼器和條件注意力解碼器,引入額外的歷史信息,從而在HKUST、Switchboard等數(shù)據(jù)集中實現(xiàn)了更好的識別效果。
還有一個工作的思路是通過語義去“反哺”語音,通過考慮對話局部連貫性、角色偏好、說話人輪轉(zhuǎn)等對話語音的獨特性,學(xué)習(xí)對話中的特征信息,在多個代表數(shù)據(jù)集上的結(jié)果也說明了這一方案的有效性。
接下來給大家分享的是我們牽頭開源的幾個數(shù)據(jù)集。第一個是AISHELL-4,它是用于語音增強、分離、識別和說話人日志的中文會議場景語料庫,有120小時左右的時長。
另一個是AiMeeting 120小時會議語音數(shù)據(jù)集。這兩個都是真實會議場景錄制的多通道語音數(shù)據(jù),特別適合會議場景的相關(guān)研究。基于這兩個語料庫,我們還在ICASSP2022上發(fā)起了M2MeT會議場景語音挑戰(zhàn)賽,包括說話人日志和多說話人語音識別兩個任務(wù),同時提供了對應(yīng)的基線系統(tǒng)。
還有一個就是新近開源的WenetSpeech數(shù)據(jù)集,它是全球最大的多領(lǐng)域中文語音識別數(shù)據(jù)集,通過從網(wǎng)絡(luò)上爬取內(nèi)容非常豐富的中文語音數(shù)據(jù),進行自動化標(biāo)注和置信度篩選,最終獲得了超過1萬小時的高質(zhì)量標(biāo)注數(shù)據(jù),利用該數(shù)據(jù)和WeNet工具包訓(xùn)練的端到端語音識別模型在SpeechIO的leaderboard上獲得了業(yè)界SOTA的識別性能。
最后來匯報一下我們在語音合成領(lǐng)域的一些探索。目前基于序列到序列模型和神經(jīng)聲碼器的方案已經(jīng)獲得了廣泛引用,甚至在一些限定領(lǐng)域獲得了媲美真人語音的效果,然而當(dāng)前離真正“復(fù)刻”人類語音還有很長的路要走。
比如篇章合成、表現(xiàn)力和可控性、低質(zhì)數(shù)據(jù)建模、少樣本和單樣本音色克隆、完全端到端建模、高表現(xiàn)力歌唱合成以及如何把說話和唱歌統(tǒng)一建模做到一個統(tǒng)一的發(fā)音模型等。在這些方面,我們實驗室近期典型的探索介紹如下。可控對話TTS——實現(xiàn)擬人化的對話語音合成,甚至可以控制合成口語對話的講話流利程度。
MsEmoTTS是我們近期提出的一個多層級的情感語音合成方案,可以在一個模型框架里實現(xiàn)情感遷移、預(yù)測和控制。我們的“單人千面”方案,在每個發(fā)音人只有一種風(fēng)格錄音的條件下,實現(xiàn)了有效的風(fēng)格解耦與交叉,例如朗讀風(fēng)格的發(fā)音人可以讀唐詩、做客服。
最后,我們在VITS端到端TTS的基礎(chǔ)上,做出了多方面的改進,進而又提出了一個端到端歌唱合成方案VISinger。另外,我們也將聯(lián)合網(wǎng)易伏羲等多家單位在Wenet開源社區(qū)開源一個中文歌唱合成數(shù)據(jù)庫,包括一個專業(yè)歌手100首左右的中文流行歌曲和高質(zhì)量的標(biāo)注,敬請關(guān)注。
基于端到端深度學(xué)習(xí)的語音合成:挑戰(zhàn)性問題