国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
從不溫不火到炙手可熱:語(yǔ)音識(shí)別技術(shù)簡(jiǎn)史
【導(dǎo)讀】語(yǔ)音識(shí)別自半個(gè)世紀(jì)前誕生以來(lái),一直處于不溫不火的狀態(tài),直到 2009 年深度學(xué)習(xí)技術(shù)的長(zhǎng)足發(fā)展才使得語(yǔ)音識(shí)別的精度大大提高,雖然還無(wú)法進(jìn)行無(wú)限制領(lǐng)域、無(wú)限制人群的應(yīng)用,但也在大多數(shù)場(chǎng)景中提供了一種便利高效的溝通方式。本篇文章將從技術(shù)和產(chǎn)業(yè)兩個(gè)角度來(lái)回顧一下語(yǔ)音識(shí)別發(fā)展的歷程和現(xiàn)狀,并分析一些未來(lái)趨勢(shì),希望能幫助更多年輕技術(shù)人員了解語(yǔ)音行業(yè),并能產(chǎn)生興趣投身于這個(gè)行業(yè)。

語(yǔ)音識(shí)別,通常稱為自動(dòng)語(yǔ)音識(shí)別,英文是Automatic Speech Recognition,縮寫(xiě)為 ASR,主要是將人類語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,一般都是可以理解的文本內(nèi)容,也有可能是二進(jìn)制編碼或者字符序列。但是,我們一般理解的語(yǔ)音識(shí)別其實(shí)都是狹義的語(yǔ)音轉(zhuǎn)文字的過(guò)程,簡(jiǎn)稱語(yǔ)音轉(zhuǎn)文本識(shí)別( Speech To Text, STT )更合適,這樣就能與語(yǔ)音合成(Text To Speech, TTS )對(duì)應(yīng)起來(lái)。

語(yǔ)音識(shí)別是一項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語(yǔ)言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科和前沿學(xué)科,是人機(jī)自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。但是,語(yǔ)音識(shí)別自誕生以來(lái)的半個(gè)多世紀(jì),一直沒(méi)有在實(shí)際應(yīng)用過(guò)程得到普遍認(rèn)可,一方面這與語(yǔ)音識(shí)別的技術(shù)缺陷有關(guān),其識(shí)別精度和速度都達(dá)不到實(shí)際應(yīng)用的要求;另一方面,與業(yè)界對(duì)語(yǔ)音識(shí)別的期望過(guò)高有關(guān),實(shí)際上語(yǔ)音識(shí)別與鍵盤、鼠標(biāo)或觸摸屏等應(yīng)是融合關(guān)系,而非替代關(guān)系。

深度學(xué)習(xí)技術(shù)自 2009 年興起之后,已經(jīng)取得了長(zhǎng)足進(jìn)步。語(yǔ)音識(shí)別的精度和速度取決于實(shí)際應(yīng)用環(huán)境,但在安靜環(huán)境、標(biāo)準(zhǔn)口音、常見(jiàn)詞匯場(chǎng)景下的語(yǔ)音識(shí)別率已經(jīng)超過(guò) 95%,意味著具備了與人類相仿的語(yǔ)言識(shí)別能力,而這也是語(yǔ)音識(shí)別技術(shù)當(dāng)前發(fā)展比較火熱的原因。

隨著技術(shù)的發(fā)展,現(xiàn)在口音、方言、噪聲等場(chǎng)景下的語(yǔ)音識(shí)別也達(dá)到了可用狀態(tài),特別是遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別已經(jīng)隨著智能音箱的興起成為全球消費(fèi)電子領(lǐng)域應(yīng)用最為成功的技術(shù)之一。由于語(yǔ)音交互提供了更自然、更便利、更高效的溝通形式,語(yǔ)音必定將成為未來(lái)最主要的人機(jī)互動(dòng)接口之一。

當(dāng)然,當(dāng)前技術(shù)還存在很多不足,如對(duì)于強(qiáng)噪聲、超遠(yuǎn)場(chǎng)、強(qiáng)干擾、多語(yǔ)種、大詞匯等場(chǎng)景下的語(yǔ)音識(shí)別還需要很大的提升;另外,多人語(yǔ)音識(shí)別和離線語(yǔ)音識(shí)別也是當(dāng)前需要重點(diǎn)解決的問(wèn)題。雖然語(yǔ)音識(shí)別還無(wú)法做到無(wú)限制領(lǐng)域、無(wú)限制人群的應(yīng)用,但是至少?gòu)膽?yīng)用實(shí)踐中我們看到了一些希望。

本篇文章將從技術(shù)和產(chǎn)業(yè)兩個(gè)角度來(lái)回顧一下語(yǔ)音識(shí)別發(fā)展的歷程和現(xiàn)狀,并分析一些未來(lái)趨勢(shì),希望能幫助更多年輕技術(shù)人員了解語(yǔ)音行業(yè),并能產(chǎn)生興趣投身于這個(gè)行業(yè)。

語(yǔ)音識(shí)別的技術(shù)歷程

現(xiàn)代語(yǔ)音識(shí)別可以追溯到 1952 年,Davis 等人研制了世界上第一個(gè)能識(shí)別 10 個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),從此正式開(kāi)啟了語(yǔ)音識(shí)別的進(jìn)程。語(yǔ)音識(shí)別發(fā)展到今天已經(jīng)有 70 多年,但從技術(shù)方向上可以大體分為三個(gè)階段。

下圖是從 1993 年到 2017 年在 Switchboard 上語(yǔ)音識(shí)別率的進(jìn)展情況,從圖中也可以看出 1993 年到 2009 年,語(yǔ)音識(shí)別一直處于 GMM-HMM 時(shí)代,語(yǔ)音識(shí)別率提升緩慢,尤其是 2000 年到 2009 年語(yǔ)音識(shí)別率基本處于停滯狀態(tài);2009 年隨著深度學(xué)習(xí)技術(shù),特別是 DNN 的興起,語(yǔ)音識(shí)別框架變?yōu)?DNN-HMM,語(yǔ)音識(shí)別進(jìn)入了 DNN 時(shí)代,語(yǔ)音識(shí)別精準(zhǔn)率得到了顯著提升;2015 年以后,由于“端到端”技術(shù)興起,語(yǔ)音識(shí)別進(jìn)入了百花齊放時(shí)代,語(yǔ)音界都在訓(xùn)練更深、更復(fù)雜的網(wǎng)絡(luò),同時(shí)利用端到端技術(shù)進(jìn)一步大幅提升了語(yǔ)音識(shí)別的性能,直到 2017 年微軟在 Swichboard 上達(dá)到詞錯(cuò)誤率 5.1%,從而讓語(yǔ)音識(shí)別的準(zhǔn)確性首次超越了人類,當(dāng)然這是在一定限定條件下的實(shí)驗(yàn)結(jié)果,還不具有普遍代表性。

GMM-HMM時(shí)代

70 年代,語(yǔ)音識(shí)別主要集中在小詞匯量、孤立詞識(shí)別方面,使用的方法也主要是簡(jiǎn)單的模板匹配方法,即首先提取語(yǔ)音信號(hào)的特征構(gòu)建參數(shù)模板,然后將測(cè)試語(yǔ)音與參考模板參數(shù)進(jìn)行一一比較和匹配,取距離最近的樣本所對(duì)應(yīng)的詞標(biāo)注為該語(yǔ)音信號(hào)的發(fā)音。該方法對(duì)解決孤立詞識(shí)別是有效的,但對(duì)于大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別就無(wú)能為力。因此,進(jìn)入 80 年代后,研究思路發(fā)生了重大變化,從傳統(tǒng)的基于模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM)的技術(shù)思路。

HMM 的理論基礎(chǔ)在 1970 年前后就已經(jīng)由 Baum 等人建立起來(lái),隨后由 CMU 的 Baker 和 IBM 的 Jelinek 等人將其應(yīng)用到語(yǔ)音識(shí)別當(dāng)中。HMM 模型假定一個(gè)音素含有 3 到 5 個(gè)狀態(tài),同一狀態(tài)的發(fā)音相對(duì)穩(wěn)定,不同狀態(tài)間是可以按照一定概率進(jìn)行跳轉(zhuǎn);某一狀態(tài)的特征分布可以用概率模型來(lái)描述,使用最廣泛的模型是 GMM。因此 GMM-HMM 框架中,HMM 描述的是語(yǔ)音的短時(shí)平穩(wěn)的動(dòng)態(tài)性,GMM 用來(lái)描述 HMM 每一狀態(tài)內(nèi)部的發(fā)音特征。

基于 GMM-HMM 框架,研究者提出各種改進(jìn)方法,如結(jié)合上下文信息的動(dòng)態(tài)貝葉斯方法、區(qū)分性訓(xùn)練方法、自適應(yīng)訓(xùn)練方法、HMM/NN 混合模型方法等。這些方法都對(duì)語(yǔ)音識(shí)別研究產(chǎn)生了深遠(yuǎn)影響,并為下一代語(yǔ)音識(shí)別技術(shù)的產(chǎn)生做好了準(zhǔn)備。自上世紀(jì) 90 年代語(yǔ)音識(shí)別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法被提出以后,在很長(zhǎng)一段內(nèi)語(yǔ)音識(shí)別的發(fā)展比較緩慢,語(yǔ)音識(shí)別錯(cuò)誤率那條線一直沒(méi)有明顯下降。

DNN-HMM時(shí)代

2006年,Hinton 提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(DNN)研究的復(fù)蘇。2009 年,Hinton 將 DNN 應(yīng)用于語(yǔ)音的聲學(xué)建模,在 TIMIT 上獲得了當(dāng)時(shí)最好的結(jié)果。2011 年底,微軟研究院的俞棟、鄧力又把 DNN 技術(shù)應(yīng)用在了大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上,大大降低了語(yǔ)音識(shí)別錯(cuò)誤率。從此語(yǔ)音識(shí)別進(jìn)入 DNN-HMM 時(shí)代。

DNN-HMM主要是用 DNN 模型代替原來(lái)的 GMM 模型,對(duì)每一個(gè)狀態(tài)進(jìn)行建模,DNN 帶來(lái)的好處是不再需要對(duì)語(yǔ)音數(shù)據(jù)分布進(jìn)行假設(shè),將相鄰的語(yǔ)音幀拼接又包含了語(yǔ)音的時(shí)序結(jié)構(gòu)信息,使得對(duì)于狀態(tài)的分類概率有了明顯提升,同時(shí)DNN還具有強(qiáng)大環(huán)境學(xué)習(xí)能力,可以提升對(duì)噪聲和口音的魯棒性。

簡(jiǎn)單來(lái)說(shuō),DNN 就是給出輸入的一串特征所對(duì)應(yīng)的狀態(tài)概率。由于語(yǔ)音信號(hào)是連續(xù)的,不僅各個(gè)音素、音節(jié)以及詞之間沒(méi)有明顯的邊界,各個(gè)發(fā)音單位還會(huì)受到上下文的影響。雖然拼幀可以增加上下文信息,但對(duì)于語(yǔ)音來(lái)說(shuō)還是不夠。而遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的出現(xiàn)可以記住更多歷史信息,更有利于對(duì)語(yǔ)音信號(hào)的上下文信息進(jìn)行建模。

由于簡(jiǎn)單的 RNN 存在梯度爆炸和梯度消散問(wèn)題,難以訓(xùn)練,無(wú)法直接應(yīng)用于語(yǔ)音信號(hào)建模上,因此學(xué)者進(jìn)一步探索,開(kāi)發(fā)出了很多適合語(yǔ)音建模的 RNN 結(jié)構(gòu),其中最有名的就是 LSTM 。LSTM 通過(guò)輸入門、輸出門和遺忘門可以更好的控制信息的流動(dòng)和傳遞,具有長(zhǎng)短時(shí)記憶能力。雖然 LSTM 的計(jì)算復(fù)雜度會(huì)比 DNN 增加,但其整體性能比 DNN 有相對(duì) 20% 左右穩(wěn)定提升。

BLSTM 是在 LSTM 基礎(chǔ)上做的進(jìn)一步改進(jìn),不僅考慮語(yǔ)音信號(hào)的歷史信息對(duì)當(dāng)前幀的影響,還要考慮未來(lái)信息對(duì)當(dāng)前幀的影響,因此其網(wǎng)絡(luò)中沿時(shí)間軸存在正向和反向兩個(gè)信息傳遞過(guò)程,這樣該模型可以更充分考慮上下文對(duì)于當(dāng)前語(yǔ)音幀的影響,能夠極大提高語(yǔ)音狀態(tài)分類的準(zhǔn)確率。BLSTM 考慮未來(lái)信息的代價(jià)是需要進(jìn)行句子級(jí)更新,模型訓(xùn)練的收斂速度比較慢,同時(shí)也會(huì)帶來(lái)解碼的延遲,對(duì)于這些問(wèn)題,業(yè)屆都進(jìn)行了工程優(yōu)化與改進(jìn),即使現(xiàn)在仍然有很多大公司使用的都是該模型結(jié)構(gòu)。

圖像識(shí)別中主流的模型就是 CNN,而語(yǔ)音信號(hào)的時(shí)頻圖也可以看作是一幅圖像,因此 CNN 也被引入到語(yǔ)音識(shí)別中。要想提高語(yǔ)音識(shí)別率,就需要克服語(yǔ)音信號(hào)所面臨的多樣性,包括說(shuō)話人自身、說(shuō)話人所處的環(huán)境、采集設(shè)備等,這些多樣性都可以等價(jià)為各種濾波器與語(yǔ)音信號(hào)的卷積。而 CNN 相當(dāng)于設(shè)計(jì)了一系列具有局部關(guān)注特性的濾波器,并通過(guò)訓(xùn)練學(xué)習(xí)得到濾波器的參數(shù),從而從多樣性的語(yǔ)音信號(hào)中抽取出不變的部分,CNN 本質(zhì)上也可以看作是從語(yǔ)音信號(hào)中不斷抽取特征的一個(gè)過(guò)程。CNN 相比于傳統(tǒng)的 DNN 模型,在相同性能情況下,前者的參數(shù)量更少。

綜上所述,對(duì)于建模能力來(lái)說(shuō),DNN 適合特征映射到獨(dú)立空間,LSTM 具有長(zhǎng)短時(shí)記憶能力,CNN 擅長(zhǎng)減少語(yǔ)音信號(hào)的多樣性,因此一個(gè)好的語(yǔ)音識(shí)別系統(tǒng)是這些網(wǎng)絡(luò)的組合。

端到端時(shí)代

語(yǔ)音識(shí)別的端到端方法主要是代價(jià)函數(shù)發(fā)生了變化,但神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)并沒(méi)有太大變化??傮w來(lái)說(shuō),端到端技術(shù)解決了輸入序列的長(zhǎng)度遠(yuǎn)大于輸出序列長(zhǎng)度的問(wèn)題。端到端技術(shù)主要分成兩類:一類是 CTC 方法,另一類是 Sequence-to-Sequence 方法。傳統(tǒng)語(yǔ)音識(shí)別 DNN-HMM 架構(gòu)里的聲學(xué)模型,每一幀輸入都對(duì)應(yīng)一個(gè)標(biāo)簽類別,標(biāo)簽需要反復(fù)的迭代來(lái)確保對(duì)齊更準(zhǔn)確。

采用 CTC 作為損失函數(shù)的聲學(xué)模型序列,不需要預(yù)先對(duì)數(shù)據(jù)對(duì)齊,只需要一個(gè)輸入序列和一個(gè)輸出序列就可以進(jìn)行訓(xùn)練。CTC 關(guān)心的是預(yù)測(cè)輸出的序列是否和真實(shí)的序列相近,而不關(guān)心預(yù)測(cè)輸出序列中每個(gè)結(jié)果在時(shí)間點(diǎn)上是否和輸入的序列正好對(duì)齊。CTC 建模單元是音素或者字,因此它引入了 Blank。對(duì)于一段語(yǔ)音,CTC 最后輸出的是尖峰的序列,尖峰的位置對(duì)應(yīng)建模單元的 Label,其他位置都是 Blank。

Sequence-to-Sequence 方法原來(lái)主要應(yīng)用于機(jī)器翻譯領(lǐng)域。2017 年,Google 將其應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域,取得了非常好的效果,將詞錯(cuò)誤率降低至5.6%。如下圖所示,Google 提出新系統(tǒng)的框架由三個(gè)部分組成:Encoder 編碼器組件,它和標(biāo)準(zhǔn)的聲學(xué)模型相似,輸入的是語(yǔ)音信號(hào)的時(shí)頻特征;經(jīng)過(guò)一系列神經(jīng)網(wǎng)絡(luò),映射成高級(jí)特征 henc,然后傳遞給 Attention 組件,其使用 henc 特征學(xué)習(xí)輸入 x 和預(yù)測(cè)子單元之間的對(duì)齊方式,子單元可以是一個(gè)音素或一個(gè)字。最后,attention 模塊的輸出傳遞給 Decoder,生成一系列假設(shè)詞的概率分布,類似于傳統(tǒng)的語(yǔ)言模型。

端到端技術(shù)的突破,不再需要 HMM 來(lái)描述音素內(nèi)部狀態(tài)的變化,而是將語(yǔ)音識(shí)別的所有模塊統(tǒng)一成神經(jīng)網(wǎng)絡(luò)模型,使語(yǔ)音識(shí)別朝著更簡(jiǎn)單、更高效、更準(zhǔn)確的方向發(fā)展。

語(yǔ)音識(shí)別的技術(shù)現(xiàn)狀

目前,主流語(yǔ)音識(shí)別框架還是由 3 個(gè)部分組成:聲學(xué)模型、語(yǔ)言模型和解碼器,有些框架也包括前端處理和后處理。隨著各種深度神經(jīng)網(wǎng)絡(luò)以及端到端技術(shù)的興起,聲學(xué)模型是近幾年非常熱門的方向,業(yè)界都紛紛發(fā)布自己新的聲學(xué)模型結(jié)構(gòu),刷新各個(gè)數(shù)據(jù)庫(kù)的識(shí)別記錄。由于中文語(yǔ)音識(shí)別的復(fù)雜性,國(guó)內(nèi)在聲學(xué)模型的研究進(jìn)展相對(duì)更快一些,主流方向是更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)技術(shù)融合端到端技術(shù)。

2018年,科大訊飛提出深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),DFCNN 使用大量的卷積直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模,主要借鑒了圖像識(shí)別的網(wǎng)絡(luò)配置,每個(gè)卷積層使用小卷積核,并在多個(gè)卷積層之后再加上池化層,通過(guò)累積非常多卷積池化層對(duì),從而可以看到更多的歷史信息。

2018年,阿里提出 LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks)。該模型將低幀率算法和 DFSMN 算法進(jìn)行融合,語(yǔ)音識(shí)別錯(cuò)誤率相比上一代技術(shù)降低 20%,解碼速度提升 3 倍。FSMN 通過(guò)在 FNN 的隱層添加一些可學(xué)習(xí)的記憶模塊,從而可以有效的對(duì)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性進(jìn)行建模。而 DFSMN 是通過(guò)跳轉(zhuǎn)避免深層網(wǎng)絡(luò)的梯度消失問(wèn)題,可以訓(xùn)練出更深層的網(wǎng)絡(luò)結(jié)構(gòu)。

2019 年,百度提出了流式多級(jí)的截?cái)嘧⒁饬δP?SMLTA,該模型是在 LSTM 和 CTC 的基礎(chǔ)上引入了注意力機(jī)制來(lái)獲取更大范圍和更有層次的上下文信息。其中流式表示可以直接對(duì)語(yǔ)音進(jìn)行一個(gè)小片段一個(gè)小片段的增量解碼;多級(jí)表示堆疊多層注意力模型;截?cái)鄤t表示利用 CTC 模型的尖峰信息,把語(yǔ)音切割成一個(gè)一個(gè)小片段,注意力模型和解碼可以在這些小片段上展開(kāi)。在線語(yǔ)音識(shí)別率上,該模型比百度上一代 Deep Peak2 模型提升相對(duì) 15% 的性能。

開(kāi)源語(yǔ)音識(shí)別 Kaldi 是業(yè)界語(yǔ)音識(shí)別框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。該模型是一種類似于 CTC 的技術(shù),建模單元相比于傳統(tǒng)的狀態(tài)要更粗顆粒一些,只有兩個(gè)狀態(tài),一個(gè)狀態(tài)是 CD Phone,另一個(gè)是 CD Phone 的空白,訓(xùn)練方法采用的是 Lattice-Free MMI 訓(xùn)練。該模型結(jié)構(gòu)可以采用低幀率的方式進(jìn)行解碼,解碼幀率為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的三分之一,而準(zhǔn)確率相比于傳統(tǒng)模型有非常顯著的提升。

遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)主要解決真實(shí)場(chǎng)景下舒適距離內(nèi)人機(jī)任務(wù)對(duì)話和服務(wù)的問(wèn)題,是 2015 年以后開(kāi)始興起的技術(shù)。由于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別解決了復(fù)雜環(huán)境下的識(shí)別問(wèn)題,在智能家居、智能汽車、智能會(huì)議、智能安防等實(shí)際場(chǎng)景中獲得了廣泛應(yīng)用。目前國(guó)內(nèi)遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的技術(shù)框架以前端信號(hào)處理和后端語(yǔ)音識(shí)別為主,前端利用麥克風(fēng)陣列做去混響、波束形成等信號(hào)處理,以讓語(yǔ)音更清晰,然后送入后端的語(yǔ)音識(shí)別引擎進(jìn)行識(shí)別。

語(yǔ)音識(shí)別另外兩個(gè)技術(shù)部分:語(yǔ)言模型和解碼器,目前來(lái)看并沒(méi)有太大的技術(shù)變化。語(yǔ)言模型主流還是基于傳統(tǒng)的 N-Gram 方法,雖然目前也有神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的研究,但在實(shí)用中主要還是更多用于后處理糾錯(cuò)。解碼器的核心指標(biāo)是速度,業(yè)界大部分都是按照靜態(tài)解碼的方式進(jìn)行,即將聲學(xué)模型和語(yǔ)言模型構(gòu)造成 WFST 網(wǎng)絡(luò),該網(wǎng)絡(luò)包含了所有可能路徑,解碼就是在該空間進(jìn)行搜索的過(guò)程。由于該理論相對(duì)成熟,更多的是工程優(yōu)化的問(wèn)題,所以不論是學(xué)術(shù)還是產(chǎn)業(yè)目前關(guān)注的較少。

語(yǔ)音識(shí)別的技術(shù)趨勢(shì)

語(yǔ)音識(shí)別主要趨于遠(yuǎn)場(chǎng)化和融合化的方向發(fā)展,但在遠(yuǎn)場(chǎng)可靠性還有很多難點(diǎn)沒(méi)有突破,比如多輪交互、多人噪雜等場(chǎng)景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。新的技術(shù)應(yīng)該徹底解決這些問(wèn)題,讓機(jī)器聽(tīng)覺(jué)遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進(jìn)步,需要整個(gè)產(chǎn)業(yè)鏈的共同技術(shù)升級(jí),包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。

單從遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù)來(lái)看,仍然存在很多挑戰(zhàn),包括:

(1)回聲消除技術(shù)。由于喇叭非線性失真的存在,單純依靠信號(hào)處理手段很難將回聲消除干凈,這也阻礙了語(yǔ)音交互系統(tǒng)的推廣,現(xiàn)有的基于深度學(xué)習(xí)的回聲消除技術(shù)都沒(méi)有考慮相位信息,直接求取的是各個(gè)頻帶上的增益,能否利用深度學(xué)習(xí)將非線性失真進(jìn)行擬合,同時(shí)結(jié)合信號(hào)處理手段可能是一個(gè)好的方向。

(2)噪聲下的語(yǔ)音識(shí)別仍有待突破。信號(hào)處理擅長(zhǎng)處理線性問(wèn)題,深度學(xué)習(xí)擅長(zhǎng)處理非線性問(wèn)題,而實(shí)際問(wèn)題一定是線性和非線性的疊加,因此一定是兩者融合才有可能更好地解決噪聲下的語(yǔ)音識(shí)別問(wèn)題。

(3)上述兩個(gè)問(wèn)題的共性是目前的深度學(xué)習(xí)僅用到了語(yǔ)音信號(hào)各個(gè)頻帶的能量信息,而忽略了語(yǔ)音信號(hào)的相位信息,尤其是對(duì)于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來(lái)的一個(gè)方向。

(4)另外,在較少數(shù)據(jù)量的情況下,如何通過(guò)遷移學(xué)習(xí)得到一個(gè)好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識(shí)別,若有一個(gè)比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個(gè)好的方言聲學(xué)模型,如果做到這點(diǎn)將極大擴(kuò)展語(yǔ)音識(shí)別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展,但更多的是一些訓(xùn)練技巧,距離終極目標(biāo)還有一定差距。

(5)語(yǔ)音識(shí)別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是最終的目的。如何將語(yǔ)音識(shí)別和語(yǔ)義理解結(jié)合起來(lái)可能是未來(lái)更為重要的一個(gè)方向。語(yǔ)音識(shí)別里的 LSTM 已經(jīng)考慮了語(yǔ)音的歷史時(shí)刻信息,但語(yǔ)義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會(huì)話信息傳遞給語(yǔ)音識(shí)別引擎是一個(gè)難題。

(6)讓機(jī)器聽(tīng)懂人類語(yǔ)言,僅靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識(shí)的前提條件。而且,機(jī)器必然要超越人類的五官,能夠看到人類看不到的世界,聽(tīng)到人類聽(tīng)不到的世界。

語(yǔ)音識(shí)別的產(chǎn)業(yè)歷程

語(yǔ)音識(shí)別這半個(gè)多世紀(jì)的產(chǎn)業(yè)歷程中,其中共有三個(gè)關(guān)鍵節(jié)點(diǎn),兩個(gè)和技術(shù)有關(guān),一個(gè)和應(yīng)用有關(guān)。第一個(gè)關(guān)鍵節(jié)點(diǎn)是 1988 年的一篇博士論文,開(kāi)發(fā)了第一個(gè)基于隱馬爾科夫模型(HMM)的語(yǔ)音識(shí)別系統(tǒng)—— Sphinx,當(dāng)時(shí)實(shí)現(xiàn)這一系統(tǒng)的正是現(xiàn)在的著名投資人李開(kāi)復(fù)。

從 1986 年到 2010 年,雖然混合高斯模型效果得到持續(xù)改善,而被應(yīng)用到語(yǔ)音識(shí)別中,并且確實(shí)提升了語(yǔ)音識(shí)別的效果,但實(shí)際上語(yǔ)音識(shí)別已經(jīng)遭遇了技術(shù)天花板,識(shí)別的準(zhǔn)確率很難超過(guò) 90%。很多人可能還記得,在 1998 年前后 IBM、微軟都曾經(jīng)推出和語(yǔ)音識(shí)別相關(guān)的軟件,但最終并未取得成功。

第二個(gè)關(guān)鍵節(jié)點(diǎn)是 2009 年深度學(xué)習(xí)被系統(tǒng)應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域中。這導(dǎo)致識(shí)別的精度再次大幅提升,最終突破 90%,并且在標(biāo)準(zhǔn)環(huán)境下逼近 98%。有意思的是,盡管技術(shù)取得了突破,也涌現(xiàn)出了一些與此相關(guān)的產(chǎn)品,比如 Siri、Google Assistant 等,但與其引起的關(guān)注度相比,這些產(chǎn)品實(shí)際取得的成績(jī)則要遜色得多。Siri 剛一面世的時(shí)候,時(shí)任 Google CEO 的施密特就高呼,這會(huì)對(duì) Google 的搜索業(yè)務(wù)產(chǎn)生根本性威脅,但事實(shí)上直到 Amazon Echo 的面世,這種根本性威脅才真的有了具體的載體。

第三個(gè)關(guān)鍵點(diǎn)正是 Amazon Echo 的出現(xiàn),純粹從語(yǔ)音識(shí)別和自然語(yǔ)言理解的技術(shù)乃至功能的視角看這款產(chǎn)品,相對(duì)于 Siri 等并未有什么本質(zhì)性改變,核心變化只是把近場(chǎng)語(yǔ)音交互變成了遠(yuǎn)場(chǎng)語(yǔ)音交互。Echo 正式面世于2015年6月,到 2017 年銷量已經(jīng)超過(guò)千萬(wàn),同時(shí)在 Echo 上扮演類似 Siri 角色的 Alexa 漸成生態(tài),其后臺(tái)的第三方技能已經(jīng)突破 10000 項(xiàng)。借助落地時(shí)從近場(chǎng)到遠(yuǎn)場(chǎng)的突破,亞馬遜一舉從這個(gè)賽道的落后者變?yōu)樾袠I(yè)領(lǐng)導(dǎo)者。

但自從遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)規(guī)模落地以后,語(yǔ)音識(shí)別領(lǐng)域的產(chǎn)業(yè)競(jìng)爭(zhēng)已經(jīng)開(kāi)始從研發(fā)轉(zhuǎn)為應(yīng)用。研發(fā)比的是標(biāo)準(zhǔn)環(huán)境下純粹的算法誰(shuí)更有優(yōu)勢(shì),而應(yīng)用比較的是在真實(shí)場(chǎng)景下誰(shuí)的技術(shù)更能產(chǎn)生優(yōu)異的用戶體驗(yàn),而一旦比拼真實(shí)場(chǎng)景下的體驗(yàn),語(yǔ)音識(shí)別便失去獨(dú)立存在的價(jià)值,更多作為產(chǎn)品體驗(yàn)的一個(gè)環(huán)節(jié)而存在。

所以到 2019 年,語(yǔ)音識(shí)別似乎進(jìn)入了一個(gè)相對(duì)平靜期,全球產(chǎn)業(yè)界的主要參與者們,包括亞馬遜、谷歌、微軟、蘋(píng)果、百度、科大訊飛、阿里、騰訊、云知聲、思必馳、聲智等公司,在一路狂奔過(guò)后紛紛開(kāi)始反思自己的定位和下一步的打法。

語(yǔ)音賽道里的標(biāo)志產(chǎn)品——智能音箱,以一種大躍進(jìn)的姿態(tài)出現(xiàn)在大眾面前。2016 年以前,智能音箱玩家們對(duì)這款產(chǎn)品的認(rèn)識(shí)還都停留在:亞馬遜出了一款叫 Echo 的產(chǎn)品,功能和 Siri 類似。先行者科大訊飛叮咚音箱的出師不利,更是加重了其它人的觀望心態(tài)。真正讓眾多玩家從觀望轉(zhuǎn)為積極參與的轉(zhuǎn)折點(diǎn)是逐步曝光的 Echo 銷量,2016 年底,Echo 近千萬(wàn)的美國(guó)銷量讓整個(gè)世界震驚。這是智能設(shè)備從未達(dá)到過(guò)的高點(diǎn),在 Echo 以前除了 Apple Watch 與手環(huán),像恒溫器、攝像頭這樣的產(chǎn)品突破百萬(wàn)銷量已是驚人表現(xiàn)。這種銷量以及智能音箱的 AI 屬性促使 2016 年下半年,國(guó)內(nèi)各大巨頭幾乎是同時(shí)轉(zhuǎn)變態(tài)度,積極打造自己的智能音箱。

未來(lái),回看整個(gè)發(fā)展歷程,2019 年是一個(gè)明確的分界點(diǎn)。在此之前,全行業(yè)是突飛猛進(jìn),但 2019 年之后則開(kāi)始進(jìn)入對(duì)細(xì)節(jié)領(lǐng)域滲透和打磨的階段,人們關(guān)注的焦點(diǎn)也不再是單純的技術(shù)指標(biāo),而是回歸到體驗(yàn),回歸到一種“新的交互方式到底能給我們帶來(lái)什么價(jià)值”這樣更為一般的、純粹的商業(yè)視角。技術(shù)到產(chǎn)品再到是否需要與具體的形象進(jìn)行交互結(jié)合,比如人物形象;流程自動(dòng)化是否要與語(yǔ)音結(jié)合;酒店場(chǎng)景應(yīng)該如何使用這種技術(shù)來(lái)提升體驗(yàn),諸如此類最終都會(huì)一一呈現(xiàn)在從業(yè)者面前。而此時(shí)行業(yè)的主角也會(huì)從原來(lái)的產(chǎn)品方過(guò)渡到平臺(tái)提供方,AIoT 縱深過(guò)大,沒(méi)有任何一個(gè)公司可以全線打造所有的產(chǎn)品。

語(yǔ)音識(shí)別的產(chǎn)業(yè)趨勢(shì)

當(dāng)語(yǔ)音產(chǎn)業(yè)需求四處開(kāi)花的同時(shí),行業(yè)的發(fā)展速度反過(guò)來(lái)會(huì)受限于平臺(tái)服務(wù)商的供給能力。跳出具體案例來(lái)看,行業(yè)下一步發(fā)展的本質(zhì)邏輯是:在具體每個(gè)點(diǎn)的投入產(chǎn)出是否達(dá)到一個(gè)普遍接受的界限。

離這個(gè)界限越近,行業(yè)就越會(huì)接近滾雪球式發(fā)展的臨界點(diǎn),否則整體增速就會(huì)相對(duì)平緩。不管是家居、酒店、金融、教育或者其他場(chǎng)景,如果解決問(wèn)題都是非常高投入并且長(zhǎng)周期的事情,那對(duì)此承擔(dān)成本的一方就會(huì)猶豫,這相當(dāng)于試錯(cuò)成本過(guò)高。如果投入后,沒(méi)有可感知的新體驗(yàn)或者銷量促進(jìn),那對(duì)此承擔(dān)成本的一方也會(huì)猶豫,顯然這會(huì)影響值不值得上的判斷。而這兩個(gè)事情,歸根結(jié)底都必須由平臺(tái)方解決,產(chǎn)品方或者解決方案方對(duì)此無(wú)能為力,這是由智能語(yǔ)音交互的基礎(chǔ)技術(shù)特征所決定。

從核心技術(shù)來(lái)看,整個(gè)語(yǔ)音交互鏈條有五項(xiàng)單點(diǎn)技術(shù):?jiǎn)拘?、麥克風(fēng)陣列、語(yǔ)音識(shí)別、自然語(yǔ)言處理、語(yǔ)音合成,其它技術(shù)點(diǎn)比如聲紋識(shí)別、哭聲檢測(cè)等數(shù)十項(xiàng)技術(shù)通用性略弱,但分別出現(xiàn)在不同的場(chǎng)景下,并會(huì)在特定場(chǎng)景下成為關(guān)鍵??雌饋?lái)關(guān)聯(lián)的技術(shù)已經(jīng)相對(duì)龐雜,但切換到商業(yè)視角我們就會(huì)發(fā)現(xiàn),找到這些技術(shù)距離打造一款體驗(yàn)上佳的產(chǎn)品仍然有絕大距離。

所有語(yǔ)音交互產(chǎn)品都是端到端打通的產(chǎn)品,如果每家廠商都從這些基礎(chǔ)技術(shù)來(lái)打造產(chǎn)品,那就每家都要建立自己云服務(wù)穩(wěn)定,確保響應(yīng)速度,適配自己所選擇的硬件平臺(tái),逐項(xiàng)整合具體的內(nèi)容(比如音樂(lè)、有聲讀物)。這從產(chǎn)品方或者解決方案商的視角來(lái)看是不可接受的。這時(shí)候就會(huì)催生相應(yīng)的平臺(tái)服務(wù)商,它要同時(shí)解決技術(shù)、內(nèi)容接入和工程細(xì)節(jié)等問(wèn)題,最終達(dá)成試錯(cuò)成本低、體驗(yàn)卻足夠好的目標(biāo)。

平臺(tái)服務(wù)并不需要閉門造車,平臺(tái)服務(wù)的前提是要有能屏蔽產(chǎn)品差異的操作系統(tǒng),這是 AI IOT 的特征,也是有所參照的,亞馬遜過(guò)去近 10 年里是同步著手做兩件事:一個(gè)是持續(xù)推出面向終端用戶的產(chǎn)品,比如 Echo,Echo Show等;一個(gè)是把所有產(chǎn)品所內(nèi)置的系統(tǒng) Alexa 進(jìn)行平臺(tái)化,面向設(shè)備端和技能端同步開(kāi)放SDK和調(diào)試發(fā)布平臺(tái)。雖然 Google Assistant 號(hào)稱單點(diǎn)技術(shù)更為領(lǐng)先,但從各方面的結(jié)果來(lái)看 Alexa 是當(dāng)之無(wú)愧的最為領(lǐng)先的系統(tǒng)平臺(tái),可惜的是 Alexa 并不支持中文以及相應(yīng)的后臺(tái)服務(wù)。

國(guó)內(nèi)則缺乏亞馬遜這種統(tǒng)治力的系統(tǒng)平臺(tái)提供商,當(dāng)前的平臺(tái)提供商分為兩個(gè)陣營(yíng):一類是以百度、阿里、訊飛、小米、騰訊為代表的傳統(tǒng)互聯(lián)網(wǎng)或者上市公司;一類是以聲智等為代表的新興人工智能公司。新興的人工智能公司相比傳統(tǒng)公司產(chǎn)品和服務(wù)上的歷史包袱更輕,因此在平臺(tái)服務(wù)上反倒是可以主推一些更為面向未來(lái)、有特色的基礎(chǔ)服務(wù),比如兼容性方面新興公司做的會(huì)更加徹底,這種兼容性對(duì)于一套產(chǎn)品同時(shí)覆蓋國(guó)內(nèi)國(guó)外市場(chǎng)是相當(dāng)有利的。

類比過(guò)去的 Android,語(yǔ)音交互的平臺(tái)提供商們其實(shí)面臨更大的挑戰(zhàn),發(fā)展過(guò)程可能會(huì)更加的曲折。過(guò)去經(jīng)常被提到的操作系統(tǒng)的概念在智能語(yǔ)音交互背景下事實(shí)上正被賦予新的內(nèi)涵,它日益被分成兩個(gè)不同但必須緊密結(jié)合的部分。

過(guò)去的 Linux 以及各種變種承擔(dān)的是功能型操作系統(tǒng)的角色,而以 Alexa 為代表的新型系統(tǒng)則承擔(dān)的則是智能型系統(tǒng)的角色。前者完成完整的硬件和資源的抽象和管理,后者則讓這些硬件以及資源得到具體的應(yīng)用,兩者相結(jié)合才能輸出最終用戶可感知的體驗(yàn)。功能型操作系統(tǒng)和智能型操作系統(tǒng)注定是一種一對(duì)多的關(guān)系,不同的 AIoT 硬件產(chǎn)品在傳感器(深度攝像頭、雷達(dá)等)、顯示器上(有屏、無(wú)屏、小屏、大屏等)具有巨大差異,這會(huì)導(dǎo)致功能型系統(tǒng)的持續(xù)分化(可以和 Linux 的分化相對(duì)應(yīng))。這反過(guò)來(lái)也就意味著一套智能型系統(tǒng),必須同時(shí)解決與功能型系統(tǒng)的適配以及對(duì)不同后端內(nèi)容以及場(chǎng)景進(jìn)行支撐的雙重責(zé)任。

這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統(tǒng)的產(chǎn)品生產(chǎn)制造鏈條中去,而解決后者則更像應(yīng)用商店的開(kāi)發(fā)者。這里面蘊(yùn)含著巨大的挑戰(zhàn)和機(jī)遇。在過(guò)去功能型操作系統(tǒng)的打造過(guò)程中,國(guó)內(nèi)的程序員們更多的是使用者的角色,但智能型操作系統(tǒng)雖然也可以參照其他,但這次必須自己來(lái)從頭打造完整的系統(tǒng)。(國(guó)外巨頭不管在中文相關(guān)的技術(shù)上還是內(nèi)容整合上事實(shí)上都非常薄弱,不存在侵略國(guó)內(nèi)市場(chǎng)的可能性)

隨著平臺(tái)服務(wù)商兩邊的問(wèn)題解決的越來(lái)越好,基礎(chǔ)的計(jì)算模式則會(huì)逐漸發(fā)生改變,人們的數(shù)據(jù)消費(fèi)模式會(huì)與今天不同。個(gè)人的計(jì)算設(shè)備(當(dāng)前主要是手機(jī)、筆記本、Pad)會(huì)根據(jù)不同場(chǎng)景進(jìn)一步分化。比如在車上、家里、酒店、工作場(chǎng)景、路上、業(yè)務(wù)辦理等會(huì)根據(jù)地點(diǎn)和業(yè)務(wù)進(jìn)行分化。但分化的同時(shí)背后的服務(wù)則是統(tǒng)一的,每個(gè)人可以自由的根據(jù)場(chǎng)景做設(shè)備的遷移,背后的服務(wù)雖然會(huì)針對(duì)不同的場(chǎng)景進(jìn)行優(yōu)化,但在個(gè)人偏好這樣的點(diǎn)上則是統(tǒng)一的。

人與數(shù)字世界的接口,在現(xiàn)在越來(lái)越統(tǒng)一于具體的產(chǎn)品形態(tài)(比如手機(jī)),但隨著智能型系統(tǒng)的出現(xiàn),這種統(tǒng)一則會(huì)越來(lái)越統(tǒng)一于系統(tǒng)本身。作為結(jié)果這會(huì)帶來(lái)數(shù)據(jù)化程度的持續(xù)加深,我們?cè)絹?lái)越接近一個(gè)百分百數(shù)據(jù)化的世界。

總結(jié)

從技術(shù)進(jìn)展和產(chǎn)業(yè)發(fā)展來(lái)看,語(yǔ)音識(shí)別雖然還不能解決無(wú)限制場(chǎng)景、無(wú)限制人群的通用識(shí)別問(wèn)題,但是已經(jīng)能夠在各個(gè)真實(shí)場(chǎng)景中普遍應(yīng)用并且得到規(guī)模驗(yàn)證。更進(jìn)一步的是,技術(shù)和產(chǎn)業(yè)之間形成了比較好的正向迭代效應(yīng),落地場(chǎng)景越多,得到的真實(shí)數(shù)據(jù)越多,挖掘的用戶需求也更準(zhǔn)確,這幫助了語(yǔ)音識(shí)別技術(shù)快速進(jìn)步,也基本滿足了產(chǎn)業(yè)需求,解決了很多實(shí)際問(wèn)題,這也是語(yǔ)音識(shí)別相對(duì)其他 AI 技術(shù)最為明顯的優(yōu)勢(shì)。

不過(guò),我們也要看到,語(yǔ)音識(shí)別的內(nèi)涵必須不斷擴(kuò)展,狹義語(yǔ)音識(shí)別必須走向廣義語(yǔ)音識(shí)別,致力于讓機(jī)器聽(tīng)懂人類語(yǔ)言,這才能將語(yǔ)音識(shí)別研究帶到更高維度。我們相信,多技術(shù)、多學(xué)科、多傳感的融合化將是未來(lái)人工智能發(fā)展的主流趨勢(shì)。在這種趨勢(shì)下,我們還有很多未來(lái)的問(wèn)題需要探討,比如鍵盤、鼠標(biāo)、觸摸屏和語(yǔ)音交互的關(guān)系怎么變化?搜索、電商、社交是否再次重構(gòu)?硬件是否逆襲變得比軟件更加重要?產(chǎn)業(yè)鏈中的傳感、芯片、操作系統(tǒng)、產(chǎn)品和內(nèi)容廠商之間的關(guān)系又該如何變化?

本文得到眾多語(yǔ)音識(shí)別領(lǐng)域?qū)<业闹笇?dǎo),并引用了一些參考資料的配圖,在此表示感謝,本文中的不足之處還請(qǐng)批評(píng)指正。

參考資料

[1] W. Minhua, K. Kumatani, S. Sundaram, N. Str?m and B. Hoffmeister, 'Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition,' ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.

[2] Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).

[3] Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.

[4] Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.

[5] 俞棟,鄧力. 解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐. 電子工業(yè)出版社. 2016年.

[6] 韓紀(jì)慶,張磊,鄭鐵然. 語(yǔ)音信號(hào)處理. 清華大學(xué)出版社. 2005年.

[7] 王東. 語(yǔ)音識(shí)別技術(shù)的現(xiàn)狀與未來(lái). 2017年.

[8] https://developer.amazon.com/zh/blogs/alexa/post/92bb9391-e930-464b-8ece-1fd8b476702a/amazon-scientist-outlines-multilayer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement

[9] https://venturebeat.com/2019/04/01/alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-a-7-mic-array/

[10] https://yq.aliyun.com/articles/704173

[11] http://azero.soundai.com

[12] http://research.baidu.com/Blog/index-view?id=109

文章作者介紹:

陳孝良,聲智科技創(chuàng)始人、董事長(zhǎng)兼CEO,

馮大航,聲智科技聯(lián)合創(chuàng)始人、CTO

李智勇,聲智科技戰(zhàn)略合伙人、CSO

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
語(yǔ)音識(shí)別技術(shù)概述
離開(kāi)語(yǔ)音技術(shù)的人工智能都是耍流氓
【回顧】剖析語(yǔ)音識(shí)別技術(shù)優(yōu)勢(shì)及產(chǎn)品落地之路丨AI公開(kāi)課
【贈(zèng)書(shū)】高質(zhì)量語(yǔ)音處理新書(shū),送6本!
一文讀懂語(yǔ)音識(shí)別技術(shù)
基于深度自編碼器神經(jīng)網(wǎng)絡(luò)完成語(yǔ)音識(shí)別的預(yù)訓(xùn)練方法
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服