1. 文本朗讀 ( Text to speech ) / 語(yǔ)音合成 ( Speech synthesis )
2. 語(yǔ)音識(shí)別 ( Speech recognition )
3. 中文自動(dòng)分詞 ( Chinese word segmentation )
4. 詞性標(biāo)注 ( Part-of-speech tagging )
5. 句法分析 ( Parsing )
6. 自然語(yǔ)言生成 ( Natural language generation )
7. 文本分類 ( Text categorization )
8. 信息檢索 ( Information retrieval )
9. 信息抽取 ( Information extraction )
10. 文字校對(duì) ( Text-proofing )
11. 問答系統(tǒng) ( Question answering )
12. 機(jī)器翻譯 ( Machine translation )
13. 自動(dòng)摘要 ( Automatic summarization )
14. 文字蘊(yùn)涵 ( Textual entailment )
1. 單詞的邊界界定
在口語(yǔ)中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上, 漢語(yǔ) 也沒有詞與詞之間的邊界。
2. 詞義的消歧
許多字詞不單只有一個(gè)意思,因而我們必須選出使句意最為通順的解釋。
3. 句法的模糊性
自然語(yǔ)言 的 文法 通常是 模棱兩可 的,針對(duì)一個(gè)句子通??赡軙?huì) 剖析 ( Parse )出多棵 剖析樹 ( Parse Tree ),而我們必須要仰賴 語(yǔ)意 及前后文的資訊才能在其中選擇一棵最為適合的剖析樹。
例如語(yǔ)音處理時(shí)遇到外國(guó)口音或地方口音,或者在文本的處理中處理拼寫,語(yǔ)法或者 光學(xué)字符識(shí)別 ( OCR )的錯(cuò)誤。
5. 語(yǔ)言行為 與計(jì)劃
句子常常并不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個(gè)好的回答應(yīng)當(dāng)是把鹽遞過去;在大多數(shù)上下文環(huán)境中,“能”將是糟糕的回答,雖說 回答“不”或者“太遠(yuǎn)了我拿不到”也是可以接受的。再者,如果一門課程去年沒開設(shè),對(duì)于提問“這門課程去年有多少學(xué)生沒通過?”回答“去年沒開這門課”要 比回答“沒人沒通過”好。
聯(lián)系客服