在人工智能興起的今天,自然語言處理領(lǐng)域面臨著大量的人才缺口。這對語言學(xué)來說似乎是前所未有的黃金時代,多少年來,看似“無用”的文科專業(yè)終于能夠?qū)W有所用。
但“不幸”的是,目前國內(nèi)語言學(xué)專業(yè)普遍的培養(yǎng)模式,其為學(xué)生提供的知識儲備,恐怕不足以幫助他們應(yīng)對這一新挑戰(zhàn)。能夠填補(bǔ)眼下這個人才缺口的,只有計算語言學(xué)方向的畢業(yè)生。
計算語言學(xué)與語言學(xué),僅兩字之差,前者似乎只是后者的一個分支,實(shí)則天壤之別。舉個例子:諾姆·喬姆斯基的 《句法結(jié)構(gòu)》 是一本語言學(xué)經(jīng)典名著,可多數(shù)文科生在閱讀時,都會被“有限狀態(tài)自動機(jī)”和“馬爾可夫過程”等名詞唬住。哪怕對大部分語言學(xué)研究生來說,這些都顯得艱深晦澀。可這些內(nèi)容,本科二、三年級的理工科學(xué)生都有能力讀懂,對計算語言學(xué)來說都算入門級的知識。
這一現(xiàn)象所折射的事實(shí)是:非計算方向的語言學(xué)專業(yè)學(xué)生,往往既沒有在大學(xué)中接受過數(shù)學(xué)課程的訓(xùn)練,也沒有在專業(yè)課中受過數(shù)學(xué)思想與方法的熏陶。目前經(jīng)常出現(xiàn)的一則狀況是,由所謂的“語言學(xué)家們”提出一些類似哲學(xué)思辨的想法,至于具體的、數(shù)學(xué)上的形式化或計算實(shí)現(xiàn),都得依靠來自其他學(xué)科有數(shù)學(xué)背景的學(xué)者———雙方之間存在著一種詭異的分工。故此,常有人戲謔語言學(xué)界還處于“前牛頓時代”。
說語言學(xué)還處于“前牛頓時代”,嚴(yán)格來講是有失偏頗的。事實(shí)上,在語言學(xué)中使用數(shù)學(xué)方法早在半個世紀(jì)以前就有過一陣風(fēng)潮。
1954年,現(xiàn)代語言類型學(xué)之父約瑟夫·格林伯格就已經(jīng)使用定量方法定義了一些連續(xù)的指標(biāo),完善了語言分類方法。上世紀(jì)五六十年代,有大量探討形式化語法理論的學(xué)者、文章和專著,將各種處于思想胚胎中的方案進(jìn)行形式化,或者比較不同語法之間的強(qiáng)、弱生成能力。
可惜的是,在格林伯格之后的近半個世紀(jì)中,類型學(xué)界延續(xù)這個定量傳統(tǒng)的學(xué)者非常少。遵循這條路的學(xué)者匯聚成了一個專門的學(xué)科———計量語言學(xué),而這門學(xué)科之前只在德國盛行,一直未入“主流語言學(xué)界”的法眼。研究形式語法的傳統(tǒng)同樣在喬姆斯基早期著作之后的五十年中陷入了沉寂。
近三十年認(rèn)知語言學(xué)和一些邊緣學(xué)科的盛行,反映出大量文科出身的語言學(xué)學(xué)者在逃離形式化方面的傾向。以認(rèn)知語言學(xué)為例,直到最近才有一些學(xué)者開始使用機(jī)器學(xué)習(xí)的手段,通過計算模擬的方法來研究認(rèn)知,走上了正軌。
因此,當(dāng)下高校語言學(xué)專業(yè)的培養(yǎng)模式,亟需進(jìn)行兩方面的改變:
首先,語言學(xué)基礎(chǔ)學(xué)科,如音系學(xué)、句法學(xué)、語義學(xué)等應(yīng)當(dāng)加大形式化描述的比例,要讓學(xué)生在語言學(xué)實(shí)例中感受數(shù)學(xué)模型的運(yùn)用。以理論語言學(xué)的核心課程“句法學(xué)”為例,目前國內(nèi)往往將其狹隘地等同于“生成語法”?!熬浞▽W(xué)”或“形式句法學(xué)”課程教授的內(nèi)容通常都是生成語法中“原則與參數(shù)”版本的理論,但偏偏這一時期的理論鮮見形式化方案。換句話說,它沒有對應(yīng)的數(shù)學(xué)模型。
其次,要加大基礎(chǔ)課程中數(shù)學(xué)學(xué)科的分量。對語言學(xué)來說,由于支撐核心的句法語義現(xiàn)象的數(shù)學(xué)主要是離散數(shù)學(xué),因此有必要將這門學(xué)科作為重點(diǎn)。
夯實(shí)數(shù)學(xué)基礎(chǔ),告別“前牛頓時代”,這也是語言學(xué)學(xué)生在人工智能大潮中不被淘汰的生存之道。(作者為上海外國語大學(xué)語言研究院碩士生)