在不遠的將來,實現(xiàn)一定程度上的語音支持將成為日常科技的基本要求。整合了語音識別的 Python 程序提供了其他技術(shù)無法比擬的交互性和可訪問性。最重要的是,在 Python 程序中實現(xiàn)語音識別非常簡單。
語音識別的首要部分當(dāng)然是語音。通過麥克風(fēng),語音便從物理聲音被轉(zhuǎn)換為電信號,然后通過模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)據(jù)。一旦被數(shù)字化,就可適用若干種模型,將音頻轉(zhuǎn)錄為文本。
幸運的是,對于 Python 使用者而言,一些語音識別服務(wù)可通過 API 在線使用,且其中大部分也提供了 Python SDK。
PyPI中有一些現(xiàn)成的語音識別軟件包。其中包括:
SpeechRecognition 庫可滿足幾種主流語音 API ,因此靈活性極高。其中 Google Web Speech API 支持硬編碼到 SpeechRecognition 庫中的默認 API 密鑰,無需注冊就可使用。SpeechRecognition 以其靈活性和易用性成為編寫 Python 程序的最佳選擇。
SpeechRecognition 兼容 Python2.6 , 2.7 和 3.3+,但若在 Python 2 中使用還需要一些額外的安裝步驟。本教程中所有開發(fā)版本默認 Python 3.3+。
讀者可使用 pip 命令從終端安裝 SpeechRecognition:
例如,以下內(nèi)容僅獲取文件前四秒內(nèi)的語音:
通過把 recognition_google()中 True 參數(shù)改成 show_all 來給出完整響應(yīng)。
若要使用 SpeechRecognizer 訪問麥克風(fēng)則必須安裝 PyAudio 軟件包,請關(guān)閉當(dāng)前的解釋器窗口,進行以下操作:
安裝 PyAudio 的過程會因操作系統(tǒng)而異。
Debian Linux
如果使用的是基于 Debian的Linux(如 Ubuntu ),則可使用 apt 安裝 PyAudio:
安裝了 PyAudio 后可從控制臺進行安裝測試。