999美女视频,动漫美女xb视频,美女柔术视频性感

不語有兩個(gè)意思，一方面，比起深度學(xué)習(xí)等大紅大熱的前沿?zé)狳c(diǎn)，基礎(chǔ)的語音信號(hào)處理技術(shù)大多是在默默做出貢獻(xiàn)，顯得有些低調(diào)，好似不語；另一方面，時(shí)刻提醒自我，應(yīng)當(dāng)靜下心認(rèn)真吸收學(xué)習(xí)知識(shí)，行而不語。

今天將對(duì)語音信號(hào)處理的基本概念、基本特征以及應(yīng)用場(chǎng)景進(jìn)行概括性的介紹。

作者&編輯 | 小米粥

編輯 | 言有三

1. 語音基本概念

語音是指人們講話時(shí)發(fā)出的話語，是一種人們進(jìn)行信息交流的聲音，是由一連串的音組成語言的聲音，我們可以理解為語音(speech)=聲音(acoustic)+語言(language)。

關(guān)于語音研究主要可分為兩個(gè)方面：語言學(xué)和語音學(xué)。

①由于語音中各個(gè)音的排列由規(guī)則所控制的，語言學(xué)主要研究其中的規(guī)則和含義。語言學(xué)是語音信號(hào)處理的基礎(chǔ)，例如利用句法和語義信息減少語音識(shí)別中的搜索匹配范圍。

②語音學(xué)主要對(duì)語音中各個(gè)音的物理特征和分類進(jìn)行研究，具體包括發(fā)音語音學(xué)、聲學(xué)語音學(xué)和聽覺語音學(xué)。發(fā)音語音學(xué)從生理的角度對(duì)發(fā)音機(jī)理進(jìn)行研究；聲學(xué)語音學(xué)從聲學(xué)角度研究語音的物理性質(zhì)，考察語音物理性質(zhì)和發(fā)聲器官的關(guān)系，并使用信號(hào)分析理論解釋語音現(xiàn)象；聽覺語音學(xué)的主要目的是探索大腦對(duì)語音的發(fā)出和接受機(jī)制，以及語音信息在大腦中的儲(chǔ)存。

語音交流是通過聯(lián)結(jié)說話人和聽話人的一連串生理、物理和心理轉(zhuǎn)換過程實(shí)現(xiàn)的。主要由“想說-說出-傳送-接受-理解”五個(gè)階段構(gòu)成。

①在想說階段，說話人在頭腦中產(chǎn)生想要用語言表達(dá)的信息，然后將其進(jìn)行編碼，即將信息所包含的音素序列、韻律、響等表示出來。

②在說出階段，說話人使用神經(jīng)肌肉命令對(duì)聲帶、聲道、調(diào)音相關(guān)的部位（唇、舌頭等）進(jìn)行控制，發(fā)出聲音。

③在傳送階段，語音以聲波的方式在空氣中傳播，聲波是一種縱波，振動(dòng)方向和傳播方向一致。

④在接受階段，聽話人耳內(nèi)的基底膜對(duì)語音信號(hào)進(jìn)行頻譜分析并進(jìn)一步轉(zhuǎn)換成為聽覺神經(jīng)的觸動(dòng)信號(hào)。

⑤在理解階段，聽覺神經(jīng)的觸動(dòng)信號(hào)在大腦更高層的中樞轉(zhuǎn)換為語言編碼，并產(chǎn)生語義信息。

由于語音是發(fā)聲器官發(fā)出的一種聲波，因而具有一定的音色、音調(diào)、音強(qiáng)和音長(zhǎng)等基本特征。

音調(diào)：表示聲音的高低，由于聲波的頻率決定。

音強(qiáng)：表示聲音的強(qiáng)弱，由聲波的振動(dòng)幅度決定。

音色：即音質(zhì)，是一種聲音區(qū)別于另一種聲音的基本特征，其與聲帶的振動(dòng)頻率、發(fā)音器官的送氣方式，聲道的形狀尺寸等因素密切相關(guān)，是一種對(duì)各種頻率、強(qiáng)度的聲波的綜合反應(yīng)，

音長(zhǎng)：發(fā)音時(shí)間的長(zhǎng)短

2. 語音基本特征

在實(shí)際處理語音信號(hào)時(shí)，我們首先要進(jìn)行短時(shí)加窗處理。由于人在發(fā)聲時(shí)聲道處于變化狀態(tài)，因而語音信號(hào)產(chǎn)生系統(tǒng)近似是一個(gè)線性時(shí)變系統(tǒng)，然而在10至30毫秒的短時(shí)間內(nèi)是平穩(wěn)的（即信號(hào)的某些統(tǒng)計(jì)特性短時(shí)間內(nèi)保持不變），因而我們要對(duì)所有的語音信號(hào)先進(jìn)行分幀加窗，再對(duì)逐幀地對(duì)幀內(nèi)信號(hào)進(jìn)一步處理。

對(duì)于采樣率為16kHz的語音（即1s信號(hào)包含16000個(gè)采樣點(diǎn)），設(shè)幀長(zhǎng)為25ms，則每幀將包括400個(gè)采樣點(diǎn)。另外，為了使幀與幀之間具有重疊，幀移往往小于幀長(zhǎng)，例如幀移為10ms，其對(duì)應(yīng)160個(gè)采樣點(diǎn)。

對(duì)于語音信號(hào)（已加窗分幀），最自然、最直觀的方法是以時(shí)間為變量進(jìn)行時(shí)域特征分析，包括短時(shí)能量、短時(shí)平均過零率等。由于人類聽覺系統(tǒng)具有頻譜分析功能，因而對(duì)語音信號(hào)進(jìn)行頻譜分析也是重要方法，包括濾波器組方法、傅里葉分析方法等。另外一種常使用的特征為時(shí)頻特征，即使用離散傅里葉變換對(duì)每幀信號(hào)進(jìn)行離散傅里葉變換，然后將每幀的頻率處理結(jié)果沿時(shí)間排列，如下圖所示。其他特征，例如倒譜等也具有非常重要的應(yīng)用，我們將在以后的內(nèi)容中逐個(gè)說明。

3.語音信號(hào)處理的應(yīng)用

語音信號(hào)處理的目的主要是為了得到一些反映語音信號(hào)重要特征的參數(shù)或者通過某種運(yùn)算實(shí)現(xiàn)某種用途。在一系列語音信號(hào)處理的基礎(chǔ)技術(shù)上，常見的應(yīng)用有以下幾方面：

①語音增強(qiáng)：語音增強(qiáng)是指當(dāng)語音信號(hào)被各種各樣的噪聲干擾、淹沒后，從背景噪聲中提取有用的語音信號(hào)，抑制、降低噪聲干擾的技術(shù)。然后，由于干擾具有隨機(jī)性，從帶噪語音中提取完全純凈的語音幾乎不可能。語音增強(qiáng)的目的主要有兩個(gè)：1.改進(jìn)語音質(zhì)量，消除背景噪聲，使得聽者樂于接受，不感覺疲勞；2.提升語音客觀質(zhì)量。

②語音編碼：編碼、輸出、儲(chǔ)存和譯碼是語音數(shù)字傳輸和儲(chǔ)存的必要過程。語音編碼就是對(duì)模擬的語音信號(hào)進(jìn)行編碼，將模擬信號(hào)轉(zhuǎn)為數(shù)字信號(hào)，從而降低傳輸碼率并進(jìn)行數(shù)字傳輸。隨著語音通信技術(shù)的發(fā)展，壓縮語音信號(hào)的傳輸帶寬，增加信道的傳輸效率，使表達(dá)語音信號(hào)的比特?cái)?shù)目最小。

③語音合成與轉(zhuǎn)換：語音合成（文語轉(zhuǎn)換text to speech）技術(shù)，能將任意文字信息轉(zhuǎn)換為標(biāo)準(zhǔn)流暢的語音并朗讀出來，其研究目的是制造會(huì)說話的機(jī)器，使一些以其他方式表達(dá)或者儲(chǔ)存的信息能轉(zhuǎn)換為語音。語音合成的應(yīng)用領(lǐng)域十分廣泛，例如自動(dòng)報(bào)時(shí)、報(bào)警、公共汽車、語音咨詢、文本校對(duì)、語音閱讀等等。

語音合成根據(jù)參數(shù)特征合成語音，而語音轉(zhuǎn)換是將某種特征的語音轉(zhuǎn)換為另一種特征的語音，即將A說話者的語音轉(zhuǎn)換為B說話者的語音，保持語音內(nèi)容不變。

④語音隱藏：在基于數(shù)字水印的版權(quán)保護(hù)和隱蔽通信兩個(gè)方面，信息隱藏技術(shù)具有重要的應(yīng)用價(jià)值。語音隱藏技術(shù)是指將特定的信息嵌入到數(shù)字化的語音中。由于語音通信在世界范圍內(nèi)存在充分的硬件基礎(chǔ)和通信次數(shù)，也是人類交流的主要方式，因而在軍事、安全和商業(yè)領(lǐng)域具有廣泛應(yīng)用需求。

⑤語音識(shí)別：語音識(shí)別的主要目的是讓機(jī)器聽懂人說的話，即將人類的語音信號(hào)轉(zhuǎn)換為相應(yīng)的文本和命令，從而進(jìn)一步地能夠理解人的意圖并作出反應(yīng)。目前語音識(shí)別已經(jīng)廣泛應(yīng)用在：語音輸入、語音搜索、語音指令、會(huì)議紀(jì)要等方面，是語音信號(hào)處理中討論最廣泛的技術(shù)。

⑥說話人識(shí)別：說話人識(shí)別技術(shù)通過對(duì)說話人的語音信號(hào)進(jìn)行分析處理，自動(dòng)確認(rèn)識(shí)別人是否在所記錄的說話者集合中，并進(jìn)一步確認(rèn)說話人是誰。該技術(shù)與語音識(shí)別技術(shù)比較相似，均需要對(duì)原始語音信號(hào)進(jìn)行特征處理，并進(jìn)行識(shí)別。區(qū)別在于，語音識(shí)別更注重語音中的文字符號(hào)和語義內(nèi)容，而說話人識(shí)別技術(shù)將語音中的語義信息平均化，盡可能挖掘說話人的個(gè)性因素，更注重個(gè)人特征。

⑦聲源定位：聲源定位技術(shù)的目標(biāo)是分析系統(tǒng)傳感器接受的語音信號(hào)來自于什么方向和什么距離，即方向估計(jì)和距離估計(jì)。聲源定位技術(shù)的應(yīng)用場(chǎng)景非常廣泛，例如提升軍事武器的精確打擊能力，利用聲源定位實(shí)現(xiàn)說話人的實(shí)時(shí)跟蹤，故障檢測(cè)以及地震預(yù)測(cè)分析等。

⑧情感識(shí)別：情感識(shí)別是指計(jì)算機(jī)對(duì)語音信號(hào)進(jìn)行分析處理，判別說話人的情感狀態(tài)即為感情識(shí)別，是實(shí)現(xiàn)人機(jī)語音智能交互的關(guān)鍵技術(shù)。目前語音情感識(shí)別的主要應(yīng)用場(chǎng)景有：受害人呼救、心理檢測(cè)、互動(dòng)電影、情感翻譯等。

[1] 韓紀(jì)慶, 張磊, 鄭鐵然. 語音信號(hào)處理.第2版[M]. 清華大學(xué)出版社, 2013.

[2] 趙力. 語音信號(hào)處理: 機(jī)械工業(yè)出版社[M]. 機(jī)械工業(yè)出版社, 2016.

總結(jié)

這一節(jié)講解了基本的語音學(xué)研究范圍，對(duì)基本的語音特征進(jìn)行了簡(jiǎn)單的介紹，最后對(duì)語音信號(hào)處理技術(shù)的應(yīng)用進(jìn)行了相關(guān)介紹。

下一節(jié)，我們將介紹語音信號(hào)的數(shù)字化和預(yù)處理的相關(guān)知識(shí)，包括量化、加窗、預(yù)加重等內(nèi)容。

有三AI-語音群

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看