主播美女视频,动漫美女被搞视频,美女视频软件下载免费

基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音喚醒 | 論文解讀

2020.12.03

1. 概述

人工智能技術(shù)迅猛發(fā)展，人機語音交互更加自然，搭載語音喚醒、識別技術(shù)的智能設(shè)備也越來越多。語音喚醒在學(xué)術(shù)上稱為 keyword spotting(簡稱 KWS)，即在連續(xù)語流中實時檢測出說話人特定片段（比如：叮當(dāng)叮當(dāng)、Hi Siri 等），是一種小資源的關(guān)鍵詞檢索任務(wù)，也可以看作是一類特殊的語音識別，應(yīng)用在智能設(shè)備上起到了保護用戶隱私、降低設(shè)備功耗的作用，經(jīng)常扮演一個激活設(shè)備、開啟系統(tǒng)的入口角色，在手機助手、車載、可穿戴設(shè)備、智能家居、機器人等運用得尤其普遍。

喚醒效果好壞的判定指標主要有召回率 (recall，俗稱喚醒率)、虛警率 (false alarm，俗稱誤喚醒)、響應(yīng)時間和功耗四個指標。召回率表示正確被喚醒的次數(shù)占總的應(yīng)該被喚醒次數(shù)的比例。虛警率表示不該被喚醒卻被喚醒的概率，工業(yè)界常以 12 或者 24 小時的誤喚醒次數(shù)作為系統(tǒng)虛警率的評價指標。響應(yīng)時間是指用戶說出喚醒詞后，設(shè)備的反應(yīng)時間，過大的響應(yīng)時間會造成較差的用戶體驗。功耗是指喚醒系統(tǒng)的耗電情況，多數(shù)智能設(shè)備都是電池供電，且需要保證長時續(xù)航，要求喚醒系統(tǒng)必須是低耗能的。一個好的喚醒系統(tǒng)應(yīng)該保證較高的召回率、較低的虛警率、響應(yīng)延時短、功耗低。

喚醒技術(shù)落地的難點是要求在低功耗下達到高性能要求。一方面是目前很多智能設(shè)備為了控制成本，搭載的都是一些低端芯片，計算能力有限，需要喚醒模塊盡可能的減少計算計算量以減少能源消耗；一方面用戶使用場景多種多樣，設(shè)備也常沒有經(jīng)過專業(yè)聲學(xué)設(shè)計，遠場、大噪聲、強干擾、高回聲、高混響等情況下仍然面臨召回率低、虛警率高的問題。

針對此問題，騰訊 AI Lab 近期發(fā)表一篇論文，針對復(fù)雜聲學(xué)環(huán)境，特別是噪聲和干擾人聲場景，對送給喚醒模型的聲學(xué)信號進行前處理，以提升其語音信號質(zhì)量。本論文已被 Interspeech 2020 接收。

很多智能設(shè)備安裝有多個麥克風(fēng)，因此多通道的前端處理技術(shù)被應(yīng)用到喚醒的前端信號處理中。當(dāng)目標說話人與干擾聲源分布在不同方向時，多通道的語音增強技術(shù)，例如波束形成 (beamformer), 能夠有效的增強目標說話人，抑制其它干擾聲源。但是這一做法依賴較準確的目標說話人方向定位。在實際環(huán)境中，由于有干擾聲源的存在，使得很難從帶噪數(shù)據(jù)中準確估計目標說話人的方位，特別是當(dāng)有多人在同時說話時，也無法判斷哪一個是目標說話人。因此本文采用“耳聽八方” （多音區(qū)) 的思路，在空間中設(shè)定若干待增強的方向（look direction)，然后區(qū)別于傳統(tǒng)的波束形成做法（這個做法已發(fā)表于 ICASSP 2020 [1]），本文提出了一個基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)（multi-look）語音增強模型，可同時增強多個指定的方向聲源。這些多個方向增強輸出的信號再通過注意力機制進行特征融合送予喚醒模型。由于前端的增強是通過神經(jīng)網(wǎng)絡(luò)處理的，這樣多音區(qū)的增強模型與喚醒模型可以進行聯(lián)合優(yōu)化，實現(xiàn)真正的前后端一體的多音區(qū)語音喚醒。

基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強模型是首個完全基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強模型。相比于特定方向的語音增強，本文提出的模型可同時增強多個方向聲源。同時這種基于神經(jīng)網(wǎng)絡(luò)的方法，在性能上顯著優(yōu)于基于傳統(tǒng)的波束形成做法。完全基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)前端，與喚醒模型聯(lián)合訓(xùn)練，前后一體的做法進一步提升模型的魯棒性和穩(wěn)定性。此模型適用于多麥克風(fēng)設(shè)備的語音喚醒。

以下為方案詳細解讀。

2. 方案詳解

傳統(tǒng)的多音區(qū)語音處理的思路，是在空間中設(shè)定若干待增強的方向（look direction)，每個方向分別應(yīng)用一個波束形成，增強這個方向的聲源，最終本文將每個方向增強輸出的信號輪流送給喚醒模塊，只要有一個方向觸發(fā)喚醒，則喚醒成功。這種基于多音區(qū)的多波束喚醒技術(shù)大大提高了噪聲下的喚醒性能，然而需要多次調(diào)用喚醒模塊，因此計算量較單路喚醒也成倍增加，功耗變大制約了應(yīng)用。針對這一情況，作者在早前一點的工作中 [1] 將注意力 (attention) 機制引入到喚醒框架下，如圖 1 所示，多個 look-direction 增強的信號提取特征后通過 attention 層映射成單通道輸入特征，再送入單路喚醒網(wǎng)絡(luò)層，與單路喚醒相比僅僅增加了一層網(wǎng)絡(luò)，既保證了喚醒性能，計算量又大大降低。

圖 1：基于多波束特征融合的喚醒模型 [1]

以上介紹的基于波束形成的多音區(qū)喚醒 [1]，前端的信號處理（波束形成）和喚醒模塊還沒有做到聯(lián)合調(diào)優(yōu)。因此本文提出了一個基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強模型。該模型讀取單個通道的語譜特征和多通道的相位差特征，同時根據(jù)預(yù)設(shè)的若干音區(qū)方向（look direction），作者分別提取對應(yīng)的方向特征 (directionalfeature)。這些方向特征表征每個時頻點是否被特定音區(qū)方向的聲源信號占據(jù)，從而驅(qū)動網(wǎng)絡(luò)在輸出端增強距離每個音區(qū)方向最近的那個說話人。為了避免因為音區(qū)和說話人的空間分布導(dǎo)致目標說話人經(jīng)過多音區(qū)增強模型處理后失真，實驗中使用一個原始麥克風(fēng)信號與多個方向增強輸出的信號一起通過注意力機制進行特征融合送予喚醒模型，由于前端的增強是通過神經(jīng)網(wǎng)絡(luò)處理的，這樣多音區(qū)的增強模型與喚醒模型可以進行聯(lián)合優(yōu)化，實現(xiàn)真正的前后端一體的多音區(qū)語音喚醒。完整的模型結(jié)構(gòu)在圖 2 中描述。

圖 2: 本文提出的基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強和喚醒模型 [2]

圖 3 是一個多音區(qū)增強的實例。兩個說話人分別位于圖 (a) 所示位置，麥克風(fēng)采集的兩人同時說話信號譜如圖 (b). 作者設(shè)定了 4 個待增強的方向（0 度，90 度，180 度和 270 度）。多音區(qū)增強模型將會在 0 度和 90 度方向增強藍色說話人，180 度和 270 度方向?qū)鰪姾谏f話人, 增強后的 4 個方向語譜如圖 (c)。

圖 3: 多音區(qū)增強網(wǎng)絡(luò)輸出實例

在圖 4 中，作者對比了基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)增強喚醒模型與基于波束形成的多音區(qū)增強喚醒模型和基線的單通道喚醒模型。可以看出特別是在小于 6dB 的信干比聲學(xué)環(huán)境下，本文提出的做法顯著超越其它方法。不同方法喚醒率測試均在控制誤喚醒為連續(xù) 12 小時干擾噪聲下 1 次的條件下進行的。

圖 4: 多音區(qū)喚醒模型的性能對比

3.總結(jié)及展望

本文提出的多音區(qū)語音增強和喚醒的做法，大幅降級了喚醒前端語音增強與喚醒結(jié)合使用的計算量，在未知目標聲源方位的情形下，同時增強的多個方向聲源信號的特征融合可保證目標語音得到增強，給準確的喚醒提供了保障。在論文中測試的多說話人帶噪聲的復(fù)雜聲學(xué)環(huán)境下，喚醒率達到 95%。

多音區(qū)的語音增強模型已經(jīng)與聲紋模型結(jié)合，形成多音區(qū)的說話人驗證，提升聲紋系統(tǒng)在復(fù)雜遠場聲學(xué)環(huán)境下的魯棒性。未來這一工作可與語音識別等其它語音任務(wù)相結(jié)合。

參考文獻：

[1] Integration ofMulti-Look Beamformers for Multi-Channel Keyword Spotting,Xuan Ji, Meng Yu, JieChen, Jimeng Zheng, Dan Su, Dong Yu, ICASSP 2020

[2] End-to-EndMulti-Look Keyword Spotting, Meng Yu, Xuan Ji, Bo Wu, Dan Su, Dong Yu, Interspeech2020

你也「在看」嗎？??

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

遠場語音識別，性能提升 30%，百度怎么做到的？

語音識別現(xiàn)狀與工程師必備技能

一顆芯片解決所有語音交互，百度做了一項改變行業(yè)的技術(shù)革新 | 雷鋒網(wǎng)

打通語音識別全鏈路探境芯片實現(xiàn)百萬級出貨

拆解阿里/亞馬遜/谷歌的智能音箱，發(fā)現(xiàn)了四個問題

麥克風(fēng)陣列是什么有哪些關(guān)鍵技術(shù)？

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看