時隔65年,在近日Google Research軟件工程師Inbar Mosseri和Oran Lang發(fā)表的論文《Looking to Listen at the Cocktail Party》中,采用了一個全新的視聽模型為“雞尾酒會”問題提供了一個合適的解決之道,這一突破為語音識別不僅帶來了更多新可能,同時也成為該領(lǐng)域一個劃時代的分水嶺。
在嘈雜的室內(nèi)環(huán)境中,比如在雞尾酒會中,同時存在著許多不同的聲源:多個人同時說話的聲音、餐具的碰撞聲、音樂聲以及這些聲音經(jīng)墻壁和室內(nèi)的物體反射所產(chǎn)生的反射聲等。
在聲波傳遞過程中,不同聲源所發(fā)出的聲波之間以及直達(dá)聲和反射聲之間會在傳播介質(zhì)(通常是空氣)中相疊加而形成復(fù)雜的混合聲波。但在這種復(fù)雜的聲學(xué)環(huán)境下,聽者卻能夠在相當(dāng)?shù)某潭壬下牰⒁獾哪繕?biāo)語句。
聽者是如何從所接收到的混合聲波中分離出不同說話人的言語信號進(jìn)而聽懂目標(biāo)語句的呢?這就是英國的認(rèn)知科學(xué)家Edward Colin Cherry在1953年所提出的著名的“雞尾酒會”問題。
自Cherry提出“雞尾酒會”問題半個多世紀(jì)以來,大量的科學(xué)家試圖去解決這個問題,甚至試圖制造一個計算機(jī)言語識別的智能系統(tǒng)使其具有在嘈雜環(huán)境中識別目標(biāo)語句的功能。但到2017年,“雞尾酒會”問題還沒有得到滿意的解答。
音頻-視覺語音分離
解決“雞尾酒會效應(yīng)”
為了解決“雞尾酒會”效應(yīng),Google從YouTube上搜尋了10萬個高質(zhì)量講座和演講視頻生成訓(xùn)練樣本,谷歌研究團(tuán)隊解釋道,他們通過算法追蹤面部動作,通過學(xué)習(xí)YouTube上十萬份優(yōu)質(zhì)的講座和演講視頻,利用卷積神經(jīng)網(wǎng)絡(luò)模型將聲音分離出來。
所謂的音頻-視覺語音分離模型,就是加強(qiáng)選中人的語音,同時減弱同一時間其他人的音量。該方法適用于具有單一音軌的常見視頻,用戶也可以自行選擇傾聽對象來生成對其的單一音軌,或者基于語境由算法進(jìn)行對特定發(fā)聲對象進(jìn)行選擇。
在試驗(yàn)中,輸入是一名或多名發(fā)聲對象,同時被其他對象或嘈雜背景所干擾的視頻。輸出的是將輸入視頻的音軌分解成純凈的音軌,并對應(yīng)上相應(yīng)的說話者。
在模型訓(xùn)練過程中,網(wǎng)絡(luò)系統(tǒng)學(xué)習(xí)了視覺和音頻信號的編碼,然后將它們?nèi)诤显谝黄鹦纬梢粋€音頻-視覺表現(xiàn)。通過這種表現(xiàn),網(wǎng)絡(luò)系統(tǒng)可以學(xué)會為每位發(fā)聲對象對應(yīng)輸出時頻掩碼。輸出的時頻掩碼與噪聲輸入頻譜圖相乘,隨后轉(zhuǎn)換成時域波形,從而形成每一位說話者單獨(dú)純凈的音頻信號。
一般提到雞尾酒會問題,更普遍或默認(rèn)的情況是純音頻的分離,包括但不限于多人聲/聲源分離、降噪/增強(qiáng)等,而視環(huán)境情況不同也分為單通道/多通道,近場/遠(yuǎn)場,有噪聲/無噪聲等。
每一個子問題都是一個研究領(lǐng)域,而不同子問題之間并不完全重合,使得研究者一般只能將重心放在其中某些問題的某些情況的解決方案上。
“雞尾酒會效應(yīng)”難題的解決為語音識別領(lǐng)域的許多問題提供了思考路徑,同時視覺-音頻網(wǎng)絡(luò)識別系統(tǒng)的提出,也為人聲分離提供了視覺+聽覺的解決方式。
為人工智能提供啟示
通用人聲分離技術(shù)任重道遠(yuǎn)
那么人聲分離技術(shù)真正應(yīng)用于市場中會對產(chǎn)品產(chǎn)生哪些改變呢?首先智能音箱的語音識別精確度將大幅提升。目前,智能音箱的技術(shù)難題在于語音識別技術(shù)如何在嘈雜的環(huán)境中識別語音指令,包括酒吧和體育場等人聲鼎沸的場景。
為此,微軟在Xbox上部署了一款名為Voice Studio的應(yīng)用,專門收集人們在玩游戲或看電影時的對話信息。為了吸引用戶貢獻(xiàn)自己在玩游戲過程中的對話內(nèi)容,該公司為參與其中的用戶提供了各種各樣的獎勵,包括點(diǎn)卡和游戲道具。
但是,效果并不盡如人意。如何在嘈雜環(huán)境識別人聲、如何分別多人聲音依然是智能音箱的難題。日后,隨著智能家居的普及,智能音響成為了物聯(lián)網(wǎng)環(huán)境下與其他家居溝通的“鑰匙”,而AI人聲分離技術(shù)的應(yīng)用,攻克技術(shù)問題的同時也為智能音響提供了一個安全性較強(qiáng)的“保險箱”。
其次,“雞尾酒會效應(yīng)”在動物界的應(yīng)用為無人駕駛提供一定啟示。以蝙蝠躲避障礙和捕食為例,其在飛行過程中會發(fā)射一系列超聲波,超聲波遇到障礙后反射回來,蝙蝠通過感知反射信號到達(dá)兩耳的時間差來判斷障礙物的方向,通過感知反射信號的強(qiáng)度來判斷障礙物的距離。
科學(xué)家通過研究發(fā)現(xiàn),蝙蝠并沒有改變發(fā)出的超聲頻率,而是通過叫聲變大,持續(xù)時間變長,發(fā)射頻率增多等方式來解決。
想提高雷達(dá)的定位精度,提高信噪比是根本。比如蝙蝠叫聲變大,相當(dāng)于提高了信號的能量;而叫聲持續(xù)時間變長和叫聲頻率增多,則是增加了信號的樣本點(diǎn)數(shù)。在噪聲不相關(guān)的情況下,經(jīng)過簡單的平均就可以降低噪聲的影響。
隨著日后無人駕駛的普及,人聲分離模式或可衍生出“雷聲分離”,將雷達(dá)誤收風(fēng)險降到最低,從而保證無人駕駛障礙識別方面的安全性。
在更大的范圍里,業(yè)界研究的還是只從音頻出發(fā)的分離,因?yàn)檫@種是最普遍存在、最容易推廣的情況。在最近三年里有很多基于深度學(xué)習(xí)的、只從音頻進(jìn)行分離的研究,相對于傳統(tǒng)方法已經(jīng)有了非常大的提升,但距離一個通用的、在任何環(huán)境下都接近人腦性能的分離系統(tǒng),還有很大距離。