過去一周,科技巨頭蘋果發(fā)表了一系列預(yù)印本研究論文,旨在優(yōu)化語音觸發(fā)檢測、說話者識別和多個(gè)說話者語言識別的技術(shù)。
(編者注:預(yù)印本研究論文是指科研工作者的研究成果指尚未經(jīng)過同行評議,還未在正式出版物上發(fā)表,而出于和同行交流目的自愿先在學(xué)術(shù)會議上或通過互聯(lián)網(wǎng)發(fā)布的科研論文、科技報(bào)告等文章)
在論文的第一部分,蘋果研究人員提出了一種訓(xùn)練好的 AI 模型,可同時(shí)執(zhí)行自動(dòng)語音識別和說話者識別的任務(wù)。正如研究人員在論文摘要中所解釋的那樣,基于語音個(gè)人助手識別的指令通常以觸發(fā)短語(例如,“嘿,Siri”)為前綴,檢測該觸發(fā)短語涉及兩個(gè)步驟:首先,AI 需要判斷輸入音頻中的語音內(nèi)容是否與觸發(fā)短語的語音內(nèi)容相匹配(語音觸發(fā)檢測);其次,AI 還需判斷說話者的語音與注冊用戶或用戶的語音是否匹配(說話者識別)。
這兩個(gè)任務(wù)通常被分開來看,但是論文的合著者認(rèn)為,對說話者的了解可能有助于判斷聲音信號中的語音內(nèi)容,反之亦然,這有助于對這兩種屬性進(jìn)行評估。
研究人員設(shè)計(jì)了三套能夠?qū)W習(xí)語音和說話者信息的模型,并對一組數(shù)據(jù)集進(jìn)行訓(xùn)練,這組數(shù)據(jù)集包含 1.6 萬多小時(shí)的帶注釋的樣本,其中 5000 小時(shí)的音頻帶有語音標(biāo)簽(其余的僅帶有說話者標(biāo)簽)。
此外,實(shí)驗(yàn)還邀請了 100 多位說話者使用智能揚(yáng)聲器設(shè)備在一系列聲學(xué)設(shè)置中為語料庫貢獻(xiàn)聲音,包括安靜的房間、來自房間內(nèi)電視或廚房設(shè)備的外部噪音,以及用錄音機(jī)大聲播放音樂。同時(shí),來自電視和廣播的 2000 個(gè)小時(shí)不包含觸發(fā)短語的連續(xù)音頻記錄也被添加進(jìn)來,以此來測量“誤報(bào)”率。
經(jīng)過測試,這類模型展示出了學(xué)習(xí)語音和說話者信息的能力,且在同等數(shù)量參數(shù)條件下,每個(gè)任務(wù)的精準(zhǔn)性與基線模型相差無幾。實(shí)際上,在提出的三個(gè)模型中,其中一個(gè)在“多個(gè)”設(shè)置中的表現(xiàn)優(yōu)于說話者識別基線,在執(zhí)行與本文不相關(guān)的任務(wù)時(shí)比基線提高了 7.6%。
研究人員寫道:“這些結(jié)果有個(gè)有趣的特征——訓(xùn)練模型時(shí)使用的是不相交的數(shù)據(jù)集,即每個(gè)音頻樣本要么具有語音標(biāo)簽,要么具有說話者標(biāo)簽,每個(gè)音頻樣本不會同時(shí)具有兩個(gè)標(biāo)簽。通過對結(jié)果的觀察,研究人員提出了一種靈活的設(shè)計(jì),可以通過連接不同任務(wù)的訓(xùn)練數(shù)據(jù)去訓(xùn)練多個(gè)相關(guān)任務(wù)的模型,而不是為每個(gè)訓(xùn)練樣本獲取多個(gè)標(biāo)簽。從實(shí)際的角度來看,這樣做能實(shí)現(xiàn)兩個(gè)任務(wù)之間的計(jì)算共享,從而節(jié)省設(shè)備上的內(nèi)存、縮短計(jì)算時(shí)間或等待時(shí)間,并能節(jié)省消耗的電量 / 電池。”
一項(xiàng)補(bǔ)充研究中減少了錯(cuò)誤觸發(fā)的出現(xiàn),在任務(wù)中,語音助手有意忽略了像 Siri 這樣的語音助手的語音。
合著者表示,他們使用了一種運(yùn)行在圖結(jié)構(gòu)上的 AI 模型——圖神經(jīng)網(wǎng)絡(luò)(GNN),其中每個(gè)節(jié)點(diǎn)都與標(biāo)簽相關(guān)聯(lián),目標(biāo)是在沒有實(shí)際事實(shí)的情況下預(yù)測節(jié)點(diǎn)的標(biāo)簽,這樣做能減少 87%的錯(cuò)誤觸發(fā)。他們寫道:“語音觸發(fā)的智能助手在開始收聽用戶請求之前通常依賴于對觸發(fā)短語的檢測……錯(cuò)誤觸發(fā)通常源自背景噪聲或聽起來與觸發(fā)短語相似的語音?!?“減少錯(cuò)誤觸發(fā)是構(gòu)建以隱私為中心的非侵入式智能助手的重要一環(huán)?!?/p>
未來,該團(tuán)隊(duì)計(jì)劃將基于 GNN 的處理擴(kuò)展到用戶意圖分類等其他任務(wù)中。
在另一篇論文中,蘋果研究人員探索了一種專門針對多語言說話者的語音識別系統(tǒng)。他們表示,語言識別系統(tǒng)對大多數(shù)語言的識別準(zhǔn)確率比較高,但是,當(dāng)同時(shí)識別多種語言時(shí),語音識別系統(tǒng)的表現(xiàn)就差強(qiáng)人意了。
事實(shí)也的確如此。在《華盛頓郵報(bào)》委托進(jìn)行的一項(xiàng)研究中顯示,市面上流行的由谷歌和亞馬遜開發(fā)的智能音箱,識別本土用戶的語音準(zhǔn)確度比識別非美式口音準(zhǔn)確度高出了 30%。事實(shí)證明,像 Switchboard 這樣的語料庫更偏向于測量來自本國特定地區(qū)的說話者的語音,該語料庫是 IBM 和 Microsoft 等公司用來評估語音模型錯(cuò)誤率的數(shù)據(jù)集。
為解決這一問題,合著者將使用模式相關(guān)內(nèi)容整合到聽寫系統(tǒng)中,該聽寫系統(tǒng)能識別出 60 多個(gè)地區(qū)的說話者的語音。聲學(xué)子模型將根據(jù)語音信號傳遞的內(nèi)容進(jìn)行預(yù)測,上下文感知預(yù)測組件分析各種交互上下文信號,通過這兩方面的預(yù)測,來選擇最佳的單語種自動(dòng)語音識別系統(tǒng)。
包含了發(fā)出聽寫請求情況下的相關(guān)信息,包括有關(guān)已劃定聽寫區(qū)域、當(dāng)前選擇的聽寫區(qū)域以及用戶在發(fā)出請求之前是否切換了聽寫區(qū)域的信息。重要的是,在語音信號很短的情況下,它們能依靠聲學(xué)模型生成可靠的預(yù)測。例如,如果用戶安裝了英語和德語,那么像“naln”這樣的短且模糊的語句在德語中可能被識別為否定詞“nein”,而在英語中被識別成數(shù)字“nine'。
為了評估該系統(tǒng),研究人員開發(fā)了一個(gè)稱為“平均用戶準(zhǔn)確度”(AUA)的自定義指標(biāo),他們表示,該指標(biāo)可以更好地反映模型中的“說話者發(fā)音水平”使用模式。通過對多語言說話者的 12.8 萬個(gè)帶有相應(yīng)交互上下文的口述話語內(nèi)部語料庫進(jìn)行嚴(yán)格訓(xùn)練,在所有語言組合中,它的平均準(zhǔn)確率達(dá)到 87%,而相對于基線,最壞情況下的準(zhǔn)確率也提高了 60%以上。值得一提的是,為平衡設(shè)備上運(yùn)行模型的計(jì)算負(fù)載的準(zhǔn)確性和延遲,研究團(tuán)隊(duì)對參數(shù)進(jìn)行了調(diào)整,調(diào)整后,平均延遲從 2 秒減少到 1.2 秒,而對 AUA 的影響不超過 0.05%。