不語有兩個(gè)意思,一方面,比起深度學(xué)習(xí)等大紅大熱的前沿?zé)狳c(diǎn),基礎(chǔ)的語音信號(hào)處理技術(shù)大多是在默默做出貢獻(xiàn),顯得有些低調(diào),好似不語;另一方面,時(shí)刻提醒自我,應(yīng)當(dāng)靜下心認(rèn)真吸收學(xué)習(xí)知識(shí),行而不語。
今天將對(duì)語音信號(hào)處理的基本概念、基本特征以及應(yīng)用場(chǎng)景進(jìn)行概括性的介紹。
作者&編輯 | 小米粥
編輯 | 言有三
1. 語音基本概念
語音是指人們講話時(shí)發(fā)出的話語,是一種人們進(jìn)行信息交流的聲音,是由一連串的音組成語言的聲音,我們可以理解為語音(speech)=聲音(acoustic)+語言(language)。
關(guān)于語音研究主要可分為兩個(gè)方面:語言學(xué)和語音學(xué)。
①由于語音中各個(gè)音的排列由規(guī)則所控制的,語言學(xué)主要研究其中的規(guī)則和含義。語言學(xué)是語音信號(hào)處理的基礎(chǔ),例如利用句法和語義信息減少語音識(shí)別中的搜索匹配范圍。
②語音學(xué)主要對(duì)語音中各個(gè)音的物理特征和分類進(jìn)行研究,具體包括發(fā)音語音學(xué)、聲學(xué)語音學(xué)和聽覺語音學(xué)。發(fā)音語音學(xué)從生理的角度對(duì)發(fā)音機(jī)理進(jìn)行研究;聲學(xué)語音學(xué)從聲學(xué)角度研究語音的物理性質(zhì),考察語音物理性質(zhì)和發(fā)聲器官的關(guān)系,并使用信號(hào)分析理論解釋語音現(xiàn)象;聽覺語音學(xué)的主要目的是探索大腦對(duì)語音的發(fā)出和接受機(jī)制,以及語音信息在大腦中的儲(chǔ)存。
語音交流是通過聯(lián)結(jié)說話人和聽話人的一連串生理、物理和心理轉(zhuǎn)換過程實(shí)現(xiàn)的。主要由“想說-說出-傳送-接受-理解”五個(gè)階段構(gòu)成。
①在想說階段,說話人在頭腦中產(chǎn)生想要用語言表達(dá)的信息,然后將其進(jìn)行編碼,即將信息所包含的音素序列、韻律、響等表示出來。
②在說出階段,說話人使用神經(jīng)肌肉命令對(duì)聲帶、聲道、調(diào)音相關(guān)的部位(唇、舌頭等)進(jìn)行控制,發(fā)出聲音。
③在傳送階段,語音以聲波的方式在空氣中傳播,聲波是一種縱波,振動(dòng)方向和傳播方向一致。
④在接受階段,聽話人耳內(nèi)的基底膜對(duì)語音信號(hào)進(jìn)行頻譜分析并進(jìn)一步轉(zhuǎn)換成為聽覺神經(jīng)的觸動(dòng)信號(hào)。
⑤在理解階段,聽覺神經(jīng)的觸動(dòng)信號(hào)在大腦更高層的中樞轉(zhuǎn)換為語言編碼,并產(chǎn)生語義信息。
由于語音是發(fā)聲器官發(fā)出的一種聲波,因而具有一定的音色、音調(diào)、音強(qiáng)和音長(zhǎng)等基本特征。
音調(diào):表示聲音的高低,由于聲波的頻率決定。
音強(qiáng):表示聲音的強(qiáng)弱,由聲波的振動(dòng)幅度決定。
音色:即音質(zhì),是一種聲音區(qū)別于另一種聲音的基本特征,其與聲帶的振動(dòng)頻率、發(fā)音器官的送氣方式,聲道的形狀尺寸等因素密切相關(guān),是一種對(duì)各種頻率、強(qiáng)度的聲波的綜合反應(yīng),
音長(zhǎng):發(fā)音時(shí)間的長(zhǎng)短
2. 語音基本特征
在實(shí)際處理語音信號(hào)時(shí),我們首先要進(jìn)行短時(shí)加窗處理。由于人在發(fā)聲時(shí)聲道處于變化狀態(tài),因而語音信號(hào)產(chǎn)生系統(tǒng)近似是一個(gè)線性時(shí)變系統(tǒng),然而在10至30毫秒的短時(shí)間內(nèi)是平穩(wěn)的(即信號(hào)的某些統(tǒng)計(jì)特性短時(shí)間內(nèi)保持不變),因而我們要對(duì)所有的語音信號(hào)先進(jìn)行分幀加窗,再對(duì)逐幀地對(duì)幀內(nèi)信號(hào)進(jìn)一步處理。
對(duì)于采樣率為16kHz的語音(即1s信號(hào)包含16000個(gè)采樣點(diǎn)),設(shè)幀長(zhǎng)為25ms,則每幀將包括400個(gè)采樣點(diǎn)。另外,為了使幀與幀之間具有重疊,幀移往往小于幀長(zhǎng),例如幀移為10ms,其對(duì)應(yīng)160個(gè)采樣點(diǎn)。
對(duì)于語音信號(hào)(已加窗分幀),最自然、最直觀的方法是以時(shí)間為變量進(jìn)行時(shí)域特征分析,包括短時(shí)能量、短時(shí)平均過零率等。由于人類聽覺系統(tǒng)具有頻譜分析功能,因而對(duì)語音信號(hào)進(jìn)行頻譜分析也是重要方法,包括濾波器組方法、傅里葉分析方法等。另外一種常使用的特征為時(shí)頻特征,即使用離散傅里葉變換對(duì)每幀信號(hào)進(jìn)行離散傅里葉變換,然后將每幀的頻率處理結(jié)果沿時(shí)間排列,如下圖所示。其他特征,例如倒譜等也具有非常重要的應(yīng)用,我們將在以后的內(nèi)容中逐個(gè)說明。
3.語音信號(hào)處理的應(yīng)用
語音信號(hào)處理的目的主要是為了得到一些反映語音信號(hào)重要特征的參數(shù)或者通過某種運(yùn)算實(shí)現(xiàn)某種用途。在一系列語音信號(hào)處理的基礎(chǔ)技術(shù)上,常見的應(yīng)用有以下幾方面:
①語音增強(qiáng):語音增強(qiáng)是指當(dāng)語音信號(hào)被各種各樣的噪聲干擾、淹沒后,從背景噪聲中提取有用的語音信號(hào),抑制、降低噪聲干擾的技術(shù)。然后,由于干擾具有隨機(jī)性,從帶噪語音中提取完全純凈的語音幾乎不可能。語音增強(qiáng)的目的主要有兩個(gè):1.改進(jìn)語音質(zhì)量,消除背景噪聲,使得聽者樂于接受,不感覺疲勞;2.提升語音客觀質(zhì)量。
②語音編碼:編碼、輸出、儲(chǔ)存和譯碼是語音數(shù)字傳輸和儲(chǔ)存的必要過程。語音編碼就是對(duì)模擬的語音信號(hào)進(jìn)行編碼,將模擬信號(hào)轉(zhuǎn)為數(shù)字信號(hào),從而降低傳輸碼率并進(jìn)行數(shù)字傳輸。隨著語音通信技術(shù)的發(fā)展,壓縮語音信號(hào)的傳輸帶寬,增加信道的傳輸效率,使表達(dá)語音信號(hào)的比特?cái)?shù)目最小。
③語音合成與轉(zhuǎn)換:語音合成(文語轉(zhuǎn)換text to speech)技術(shù),能將任意文字信息轉(zhuǎn)換為標(biāo)準(zhǔn)流暢的語音并朗讀出來,其研究目的是制造會(huì)說話的機(jī)器,使一些以其他方式表達(dá)或者儲(chǔ)存的信息能轉(zhuǎn)換為語音。語音合成的應(yīng)用領(lǐng)域十分廣泛,例如自動(dòng)報(bào)時(shí)、報(bào)警、公共汽車、語音咨詢、文本校對(duì)、語音閱讀等等。
語音合成根據(jù)參數(shù)特征合成語音,而語音轉(zhuǎn)換是將某種特征的語音轉(zhuǎn)換為另一種特征的語音,即將A說話者的語音轉(zhuǎn)換為B說話者的語音,保持語音內(nèi)容不變。
④語音隱藏:在基于數(shù)字水印的版權(quán)保護(hù)和隱蔽通信兩個(gè)方面,信息隱藏技術(shù)具有重要的應(yīng)用價(jià)值。語音隱藏技術(shù)是指將特定的信息嵌入到數(shù)字化的語音中。由于語音通信在世界范圍內(nèi)存在充分的硬件基礎(chǔ)和通信次數(shù),也是人類交流的主要方式,因而在軍事、安全和商業(yè)領(lǐng)域具有廣泛應(yīng)用需求。
⑤語音識(shí)別:語音識(shí)別的主要目的是讓機(jī)器聽懂人說的話,即將人類的語音信號(hào)轉(zhuǎn)換為相應(yīng)的文本和命令,從而進(jìn)一步地能夠理解人的意圖并作出反應(yīng)。目前語音識(shí)別已經(jīng)廣泛應(yīng)用在:語音輸入、語音搜索、語音指令、會(huì)議紀(jì)要等方面,是語音信號(hào)處理中討論最廣泛的技術(shù)。
⑥說話人識(shí)別:說話人識(shí)別技術(shù)通過對(duì)說話人的語音信號(hào)進(jìn)行分析處理,自動(dòng)確認(rèn)識(shí)別人是否在所記錄的說話者集合中,并進(jìn)一步確認(rèn)說話人是誰。該技術(shù)與語音識(shí)別技術(shù)比較相似,均需要對(duì)原始語音信號(hào)進(jìn)行特征處理,并進(jìn)行識(shí)別。區(qū)別在于,語音識(shí)別更注重語音中的文字符號(hào)和語義內(nèi)容,而說話人識(shí)別技術(shù)將語音中的語義信息平均化,盡可能挖掘說話人的個(gè)性因素,更注重個(gè)人特征。
⑦聲源定位:聲源定位技術(shù)的目標(biāo)是分析系統(tǒng)傳感器接受的語音信號(hào)來自于什么方向和什么距離,即方向估計(jì)和距離估計(jì)。聲源定位技術(shù)的應(yīng)用場(chǎng)景非常廣泛,例如提升軍事武器的精確打擊能力,利用聲源定位實(shí)現(xiàn)說話人的實(shí)時(shí)跟蹤,故障檢測(cè)以及地震預(yù)測(cè)分析等。
⑧情感識(shí)別:情感識(shí)別是指計(jì)算機(jī)對(duì)語音信號(hào)進(jìn)行分析處理,判別說話人的情感狀態(tài)即為感情識(shí)別,是實(shí)現(xiàn)人機(jī)語音智能交互的關(guān)鍵技術(shù)。目前語音情感識(shí)別的主要應(yīng)用場(chǎng)景有:受害人呼救、心理檢測(cè)、互動(dòng)電影、情感翻譯等。
[1] 韓紀(jì)慶, 張磊, 鄭鐵然. 語音信號(hào)處理.第2版[M]. 清華大學(xué)出版社, 2013.
[2] 趙力. 語音信號(hào)處理: 機(jī)械工業(yè)出版社[M]. 機(jī)械工業(yè)出版社, 2016.
這一節(jié)講解了基本的語音學(xué)研究范圍,對(duì)基本的語音特征進(jìn)行了簡(jiǎn)單的介紹,最后對(duì)語音信號(hào)處理技術(shù)的應(yīng)用進(jìn)行了相關(guān)介紹。
下一節(jié),我們將介紹語音信號(hào)的數(shù)字化和預(yù)處理的相關(guān)知識(shí),包括量化、加窗、預(yù)加重等內(nèi)容。
有三AI-語音群
聯(lián)系客服