作者:謝磊
語(yǔ)音是語(yǔ)言的物質(zhì)外殼,是人類區(qū)別與其他動(dòng)物從而能夠主宰世界的一種強(qiáng)大能力,是最直接、高效的信息溝通方式。在萬(wàn)物互聯(lián)時(shí)代,隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,大規(guī)模場(chǎng)景數(shù)據(jù)的不斷積累,算力的指數(shù)級(jí)提升, 語(yǔ)音逐漸成為人機(jī)交互的全新入口。從手機(jī)端語(yǔ)音助手到智能音響、智能車載設(shè)備……智能語(yǔ)音已經(jīng)由最初消費(fèi)者娛樂時(shí)的調(diào)侃型應(yīng)用,發(fā)展到如今可解決各種實(shí)際問題的功能性平臺(tái)。語(yǔ)音技術(shù)的賦能(即Speech+),為各個(gè)垂直領(lǐng)域開辟出了全新價(jià)值。
IDC(國(guó)際數(shù)據(jù)公司)最新發(fā)布的報(bào)告《2019年全球IT產(chǎn)業(yè)預(yù)測(cè)》中指出,AI將成為全新的用戶接口,到2024年,支持AI的用戶界面和流程自動(dòng)化將取代目前三分之一基于屏幕的應(yīng)用程序;到2022年, 至少30%的企業(yè)將使用會(huì)話語(yǔ)音技術(shù)進(jìn)行客戶維護(hù)工作。
近年來(lái)智能語(yǔ)音技術(shù)的飛速發(fā)展背后有三個(gè)推動(dòng)力,這三大因素的組合造就了人工智能和智能語(yǔ)音技術(shù)的發(fā)展:
第一,隨著互聯(lián)網(wǎng)技術(shù)以及手機(jī)等移動(dòng)終端的普及應(yīng)用,大量的真實(shí)場(chǎng)景和用戶語(yǔ)料資源得到積累和沉淀,這為語(yǔ)音識(shí)別中的語(yǔ)言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建大規(guī)模語(yǔ)言模型和聲學(xué)模型成為可能。
第二,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)和人工智能的發(fā)展和突破, 使得語(yǔ)音識(shí)別模型對(duì)復(fù)雜數(shù)據(jù)的挖掘和學(xué)習(xí)能力得到了空前的提升,使得更大規(guī)模的海量數(shù)據(jù)的作用得以充分的發(fā)揮。
第三,支持大數(shù)據(jù)和深度學(xué)習(xí)的大計(jì)算能力提升,規(guī)模計(jì)算能力為技術(shù)變革奠定了基礎(chǔ)。
在以上三大助力的賦能之下,智能語(yǔ)音在技術(shù)層面已具備根基,但若要在人機(jī)交互領(lǐng)域取得絕對(duì)性主導(dǎo)地位,拋開語(yǔ)義理解這個(gè)挑戰(zhàn)不談,目前的智能語(yǔ)音發(fā)展還面臨語(yǔ)音識(shí)別“魯棒性”、個(gè)性化、低資源三大主要瓶頸, 在性能、成本、智能程度上仍需繼續(xù)深耕。
語(yǔ)音識(shí)別“魯棒性”問題。在生物學(xué)中,有個(gè)術(shù)語(yǔ)叫做“魯棒性”,是指系統(tǒng)在擾動(dòng)或不確定的情況下,仍能保持它的特征行為。這一問題在包括語(yǔ)音識(shí)別領(lǐng)域在內(nèi)的眾多AI領(lǐng)域也同樣存在。
語(yǔ)音識(shí)別整個(gè)過(guò)程包含語(yǔ)音信號(hào)處理、語(yǔ)音檢測(cè)與增強(qiáng)、聲學(xué)特征提取、聲學(xué)建模、語(yǔ)言模型、解碼搜索等多個(gè)環(huán)節(jié)。語(yǔ)音信號(hào)的多樣性和復(fù)雜性對(duì)每個(gè)模塊都有影響,因此在真實(shí)使用場(chǎng)景中,語(yǔ)音識(shí)別的“魯棒性”(穩(wěn)健性)是非常重要的挑戰(zhàn)。特別是語(yǔ)音交互從近講走向遠(yuǎn)講,場(chǎng)景發(fā)生了變化,語(yǔ)音交互跨界聲學(xué)、信號(hào)處理和機(jī)器學(xué)習(xí)三個(gè)領(lǐng)域。聲學(xué)上帶來(lái)的影響眾多,包括聲學(xué)回波、目標(biāo)移動(dòng)、房間混響、各種背景噪音、干擾聲源等, 語(yǔ)音識(shí)別的準(zhǔn)確率會(huì)大打折扣。
個(gè)性化。基礎(chǔ)語(yǔ)音識(shí)別和合成效果穩(wěn)定后,下一步就是追求差異化或個(gè)性化。語(yǔ)音服務(wù)應(yīng)該為每個(gè)場(chǎng)景、每個(gè)用戶來(lái)深度定制,提高交互服務(wù)的粘合度。例如,開車導(dǎo)航時(shí),男性就可能喜歡用林志玲的聲音,女性可能就喜歡用岳云鵬的聲音。如果語(yǔ)音合成只有一個(gè)聲音,大家就會(huì)覺得很無(wú)聊,因此需要做出個(gè)性化的聲音來(lái)滿足大家個(gè)性化需求,這對(duì)技術(shù)也有非常大的考驗(yàn)。
低資源場(chǎng)景的挑戰(zhàn)。人工智能行業(yè)內(nèi)流傳一句話:“有多少人工,就有多少智能。”智能語(yǔ)音作為人工智能的重要分支,在數(shù)據(jù)標(biāo)注、計(jì)算資源、模型自適應(yīng)等方面也都需要大量的人力財(cái)力投入。如何投入更少的資源來(lái)獲取更多更有效的成果,也是目前智能語(yǔ)音技術(shù)需要探索的一大重點(diǎn)。
瞄準(zhǔn)智能語(yǔ)音技術(shù)的三大挑戰(zhàn), 同盾智能語(yǔ)音實(shí)驗(yàn)室做了眾多探索, 包括智能語(yǔ)音降噪、小數(shù)據(jù)遷移學(xué)習(xí)、低資源關(guān)鍵詞檢出等方面,有效提高了智能語(yǔ)音交互的體驗(yàn)。
基于深度學(xué)習(xí)的智能語(yǔ)音降噪。在各種實(shí)際語(yǔ)音交互場(chǎng)景(比如智能客服)中,用戶語(yǔ)音不可避免的帶有噪聲,噪聲嚴(yán)重影響語(yǔ)音識(shí)別的準(zhǔn)確率。傳統(tǒng)基于統(tǒng)計(jì)信號(hào)處理的方法很難解決一些棘手的突發(fā)或非平穩(wěn)噪聲。通過(guò)深度學(xué)習(xí)的方法,用數(shù)據(jù)驅(qū)動(dòng)的思路來(lái)降噪,借助大數(shù)據(jù)有效地去學(xué)習(xí)語(yǔ)音和非語(yǔ)音之間的結(jié)構(gòu)關(guān)系,從而可以獲得非常理想的降噪效果。此外,同盾語(yǔ)音團(tuán)隊(duì)還嘗試把人的“注意力機(jī)制”引入到深度學(xué)習(xí)算法中, 更好地解決突發(fā)噪聲問題。
基于深度學(xué)習(xí)的語(yǔ)音識(shí)別說(shuō)話人自適應(yīng)。在很多時(shí)候,通用語(yǔ)音識(shí)別的測(cè)試準(zhǔn)確率已經(jīng)較為理想,但是“千人千音”,每個(gè)人的口音造成了每個(gè)人機(jī)器語(yǔ)音識(shí)別性能的差異。通過(guò)深度學(xué)習(xí)的方法,基于小樣本遷移學(xué)習(xí), 讓模型適應(yīng)不同人的口音,實(shí)現(xiàn)通過(guò)少量目標(biāo)說(shuō)話人數(shù)據(jù)提升語(yǔ)音識(shí)別性能的目標(biāo),提升模型效率。
低資源關(guān)鍵詞檢出。關(guān)鍵詞檢出是指從一段語(yǔ)音流中檢測(cè)出關(guān)注的部分,在語(yǔ)音內(nèi)容理解與信息挖掘中具有重要的作用。例如,在智能客服對(duì)話中,通過(guò)檢測(cè)一些關(guān)鍵詞,來(lái)挖掘用戶的需求,理解用戶。同樣的,智能音箱交互的“喚醒詞”、命令控制都是屬于關(guān)鍵詞檢出任務(wù),通過(guò)比較輕量級(jí)的資源去做關(guān)鍵詞檢出,并不斷提升關(guān)鍵詞檢出的魯棒性和適應(yīng)性, 來(lái)提高交互準(zhǔn)確率。
來(lái)源:中國(guó)航空?qǐng)?bào)
聯(lián)系客服