自2010年訊飛輸入法發(fā)布業(yè)界首個中文語音輸入,完成智能語音從概念技術到產(chǎn)品落地的華美轉(zhuǎn)身以來,通過九年的深入探索和技術研發(fā),訊飛輸入法通用語音識別率提升至98%,升級支持英、日、韓、俄4門外語及23種方言等語音輸入功能,讓“增進人機溝通無障礙”的初衷得以實現(xiàn),并通過不斷地技術創(chuàng)新,向著更自然、更便捷、更智能的應用方向?qū)嵺`。
這次,經(jīng)過創(chuàng)新和沉淀,訊飛輸入法語音輸入又有了新突破!最新版本新增語音輸入『隨心說』功能,不僅支持中英混合語音輸入免切換,同時還優(yōu)化了七大方言與普通話的混合輸入效果,大大提升了輸入體驗。
語音輸入『隨心說』是什么硬核操作?
這樣的升級能給大家?guī)砟男┎灰粯拥捏w驗呢?
簡單來說,下載使用訊飛輸入法最新版,不僅能夠準確識別用戶所說的普通話,而且支持中英混合語音輸入
中英混合語音輸入
同時也優(yōu)化了普通話與七種方言口音(東北話、天津話、河南話、皖北話、山東話、河北話、四川話)的混合語音輸入效果,進一步增強語音用戶的輸入體驗
普通話夾東北口音混合語音輸入
在復雜對話場景下,有了語音輸入『隨心說』,就能大大減少手動切換識別模式的操作,暢快使用普通話、英文、方言任意一種或中英混合、普通話與方言混合輸入,有效提高語音用戶日常的便捷性。
解讀:語音輸入『隨心說』是怎么實現(xiàn)的?
眾所周知,科大訊飛首家推出全新的語音識別框架,即深度全序列卷積神經(jīng)網(wǎng)絡(DFCNN,Deep Fully Convolutional NeuralNetwork),使用大量卷積層直接對整句語音信號進行建模,獲得出色的表達語音的長時相關性,相比循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)結(jié)構(gòu)在穩(wěn)定性上更加出色,同時可以實現(xiàn)短延時的準在線解碼。
快速迭代是顛覆式創(chuàng)新的靈魂,科大訊飛攜高屋建瓴的行業(yè)之勢,基于Attention模型的核心思想,通過機器學習(ML,Machine Learning)的方法,構(gòu)建了Hybrid CNN即混合的Attention CNN模型,從而在語音界保持在進化鏈的最前端。
前沿的Hybrid CNN模型用于構(gòu)建語音識別聲學模型的全局優(yōu)化,仿照人類視覺機制,同時也借鑒人類大腦處理的一些優(yōu)勢,可謂效果更好、資源占用更小、模型更靈活的新一代語音識別系統(tǒng)。
具體來說,在DFCNN基礎上,將傳統(tǒng)卷積使用擴張卷積(Dilated conv)代替,讓每個卷積輸出都包含更大范圍的信息,使得模型不使用池化層(pooling)也可以看到很長的語音段信息,從而實現(xiàn)對語音長時相關性的更精確的表達。
與此同時,還引入了基于長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)的門控機制(Gated Mechanism,GM),使得Hybrid CNN在長時相關性建模的過程中,能快速地過濾噪聲等干擾信息,并加強語境等長時信息,進一步提升模型的抗干擾能力,從而在實際應用中能夠保障高噪聲等復雜場景的語音識別效果。
另一個比較重要的地方在于,本次Hybrid CNN模型真正實現(xiàn)了端到端的建模。此前的端到端建模方案,如CTC等,在輸出端已經(jīng)可以做到直接輸出中文漢字,取得了一定的效果提升,但是在輸入端仍然采用人工設計的特征,這些特征在語速很快等特殊場景下就會損失信息??拼笥嶏w這次以原始音頻波形(Raw-wave)直接建模,避免了由于人工設計的特征提取過程帶來的信息損失,真正實現(xiàn)了端到端建模,進一步提升了識別效果。
也正因為上述創(chuàng)新,使得Hybrid CNN這種前沿的語音識別框架克服了DFCNN模型參數(shù)量和計算復雜度大的問題。在保證識別效果不損失的情況下,系統(tǒng)資源占用規(guī)模和運算量同比下降了60%以上,使得Hybrid CNN可以在智能手機等移動設備上流暢運行,這也使得本地化語音的識別效果更加接近云端識別效果。
現(xiàn)在,許多人都過著“抬頭電腦、低頭手機”的日子,A.I.持續(xù)賦能訊飛輸入法,不僅提高手機輸入效率和準確率,甚至免去語音識別的切換操作,讓大家享受到A.I.帶來的全新便捷生活!