早在 70 多年前,神經(jīng)網(wǎng)絡(luò)就被 AI 前沿的工作人員用來探索人類大腦的運作模式—— 人類大腦里有著數(shù)十億的神經(jīng)元相互連接,形成錯綜復雜的生物神經(jīng)網(wǎng)絡(luò),負責處理各種感官數(shù)據(jù),并作出相應(yīng)的應(yīng)激反應(yīng),使我們從不斷嘗試的反饋中總結(jié)經(jīng)驗,收獲新知。同樣,AI 中的“神經(jīng)網(wǎng)絡(luò)”也是通過相互連接的不同層面過濾處理大量的數(shù)據(jù),通過自我學習,做出相應(yīng)的預(yù)測或模式識別。
其中,最具有代表性的問題就是模式識別(pattern recognition)問題?;蛟S你沒聽說過這個專業(yè)術(shù)語,但你一定熟悉通過模式識別衍生出許許多多功能強大的應(yīng)用:比如,如何讓 AI 給出地道而不是呆板的翻譯,如何讓手機相冊自動識別并標記照片中反復出現(xiàn)的面孔,甚至包括讓 AI 學習下圍棋并戰(zhàn)勝世界冠軍等等,這些都離不開模式識別技術(shù)的強大助推。
模式識別,通過計算機技術(shù)自動地或半自動(人機交互)地實現(xiàn)人類的識別過程。這里,模式是這樣定義的:為了能讓機器執(zhí)行識別任務(wù),必須先將識別對象的有用信息輸入計算機。為此,必須對識別對象進行抽象,建立其數(shù)學模型,用以描述和代替識別對象。
而模式識別是指對表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進行處理和分析,以對事物或現(xiàn)象進行描述、辨認、分類和解釋的過程,是信息科學和人工智能的重要組成部分。
模式識別主要包括兩種方法:
1.數(shù)理統(tǒng)計方法。 統(tǒng)計方法是發(fā)展較早的方法,也是應(yīng)用最廣發(fā)的一種方法。是將被處理對象進行數(shù)字化,通過轉(zhuǎn)化成計算機可以分析識別的數(shù)字信息,對樣本進行特征值的抽取,將輸入模式從對象空間映射到特征空間。這樣一來,模式便可用特征空間中的一個點或者一個特征矢量表示。
2.句法方法。其基本思想是把一個模式描述為較簡單的子模式的組合,子模式又可描述為更簡單的子模式的組合,最終得到一個樹形的結(jié)構(gòu)描述,在底層的最簡單的子模式稱為模式基元。其基本思想是把一個模式描述為較簡單的子模式的組合,子模式又可描述為更簡單的子模式的組合,最終得到一個樹形的結(jié)構(gòu)描述,在底層的最簡單的子模式稱為模式基元。
然而,看似功能強大、覆蓋面廣的模式識別在面對高數(shù)里復雜的數(shù)學符號時,比如微積分里的積分或常微分方程計算,卻望而卻步。
通過分析上述的模式識別的方法,我們可以簡單推出,神經(jīng)網(wǎng)絡(luò)之所以在解決數(shù)學問題方面止步不前,主要障礙來源于數(shù)學問題的本質(zhì)—— 數(shù)學需要的是精確的答案,而神經(jīng)網(wǎng)絡(luò)對信息的處理方面更擅長的是概率。
他們往往在給定的大量數(shù)據(jù)下進行模式識別——比如說在翻譯時,在給定的多種的可能的翻譯結(jié)果中,辨別哪種翻譯的更接地氣;或者在給定的不同的照片中,標記出人臉,對比相似度,圈出出現(xiàn)概率高的面孔——并根據(jù)這些高概率出現(xiàn)的結(jié)果,匯總出最有可能出現(xiàn)的模式,并將這種模式定義為新的模式。以其高概率出現(xiàn)的可能性,來進行對未來事件的可能預(yù)測。
解決數(shù)學問題的新途徑——語言翻譯
值得一提的是,他們的方法并不涉及數(shù)字運算或數(shù)值近似。相反,他們將復雜的數(shù)學運算問題重新編排,變成了神經(jīng)網(wǎng)絡(luò)的拿手好戲: 語言翻譯。
傳統(tǒng)的計算機是非常善于處理數(shù)字的。計算機的代數(shù)系統(tǒng),就是將數(shù)十種或數(shù)百種算法與預(yù)置指令生硬地捆綁在一起,而計算機則是按部就班地按照指令進行運算,執(zhí)行預(yù)設(shè)好的特定操作。一旦出現(xiàn)背離程序的操作,計算機就只能繳械投降。但對于許多符號問題,它們產(chǎn)生的數(shù)值解與工程和物理的實際應(yīng)用非常接近。
而神經(jīng)網(wǎng)絡(luò)則截然不同,他們沒有固定的規(guī)則。相反,他們可以訓練大規(guī)模的數(shù)據(jù)集——越大越好——并利用訓練得到的統(tǒng)計數(shù)據(jù),對數(shù)值解進行很好的近似。在這個過程中,他們學習的是什么方法,什么模式能產(chǎn)生最完美的結(jié)果。
這在語言翻譯方面表現(xiàn)的尤為出色:在訓練過后,他們并不再是逐字逐句地翻譯,而是能夠協(xié)調(diào)地翻譯文本中的短語。Facebook 的研究人員認為神經(jīng)網(wǎng)絡(luò)這種特性是解決象征性數(shù)學問題的一個優(yōu)勢,而并不是障礙。它賦予了程序一種解決問題的自由,不同于傳統(tǒng)計算機的刻板。
而這種自由對于某些開放性的問題特別有用,比如積分問題。數(shù)學家中有句老話:“微分是門技術(shù),而積分是門藝術(shù)”。換句話說,求函數(shù)的導數(shù)只需遵循一些定義明確的步驟;但是求積分通常需要一些別的東西,在判斷積分方法以及尋找積分項時,它更需要一些接近人的直覺而不僅僅是計算的東西。
Facebook 的研究小組認為,這種直覺可以通過 AI 的模式識別模擬?!胺e分是數(shù)學中最類似于模式識別的問題之一,”Charton 表示。因此,即使神經(jīng)網(wǎng)絡(luò)可能不知道函數(shù)是什么或變量是什么意思,它們也會根據(jù)大量數(shù)據(jù)訓練發(fā)展出一種本能,即神經(jīng)網(wǎng)絡(luò)也會開始感覺怎么樣計算可以得到答案。
為了讓神經(jīng)網(wǎng)絡(luò)像數(shù)學家一樣處理數(shù)學符號,Charton 和 Lample 首先將數(shù)學表達式翻譯成更有用的形式。通過“翻譯”, 他們將復雜的數(shù)學表達式最終翻譯成神經(jīng)網(wǎng)絡(luò)可以識別的有效的簡化形式——樹狀圖,來總括表達式里的運算符號和數(shù)字。
其中,運算符號例如加減乘除成為了樹狀圖的枝,而表達式里的參數(shù)(變量和數(shù)字) 則變成了葉子。通過轉(zhuǎn)化成樹狀圖, 這能讓復雜的數(shù)學表達式轉(zhuǎn)化成樹狀圖層層嵌套的簡單運算中,從而可以讓神經(jīng)網(wǎng)絡(luò)識別和運算想應(yīng)的簡化式子,并得到最終的精確結(jié)果。
Lample 表示,這個過程與人們解決積分問題,甚至是所有數(shù)學問題的過程大體類似。都是通過在復雜數(shù)學表達式中,根據(jù)經(jīng)驗將他們簡化為神經(jīng)網(wǎng)絡(luò)以前解決過的子問題。
新型模式初探的局限性和展望
盡管得出了這些結(jié)果,Mathematica 開發(fā)公司 Wolfram 的負責人,數(shù)學家羅杰·格蒙森(Roger Germundsson)還是提出了異議,他表示,實驗中只是拿了 Mathematica 的部分功能和神經(jīng)網(wǎng)絡(luò)作了簡單粗暴的比較。這種比較局限于 Mathematica 特定的指令,比如“integrate”指令被用于求取積分,“DSolve”指令被用于解決微分方程——但事實上,Mathematica 用戶還可以使用其他上百種的方法和指令去解決一個較為復雜的方程。
Germundsson 還注意到,盡管實驗中所給的訓練數(shù)據(jù)集非常龐大,但是所包含的方程都只有一個單一的變量,并且只是設(shè)計初等函數(shù)的運算?!斑@種方程在可能涉及到的方程運算中只能占到極小的部分,”他說。這個神經(jīng)網(wǎng)絡(luò)沒有測試物理和金融中經(jīng)常使用的更復雜的函數(shù),比如誤差函數(shù)或貝塞爾函數(shù)。(對此,F(xiàn)acebook 團隊表示,在之后的測試中,可能只需要在訓練神經(jīng)網(wǎng)絡(luò)時,給訓練集做幾次非常簡單的修改。)
加州大學圣巴巴拉分校(University of California, Santa Barbara)的數(shù)學家弗雷德里克·吉布(Frederic Gibou)研究過用神經(jīng)網(wǎng)絡(luò)求解偏微分方程的方法,他并不認為 Facebook 小組的神經(jīng)網(wǎng)絡(luò)是絕對可靠的。“研究人員需要有信心,如果神經(jīng)網(wǎng)絡(luò)可靠,它就可以解決任何形式的方程。”
也有其他批評者指出,Facebook 小組的神經(jīng)網(wǎng)絡(luò)并沒有真正理解數(shù)學,這更像是一種特別的猜想,而非實際的解決方法。
盡管如此,反對者還是承認新方法是有用的。Germundsson 和 Gibou 相信神經(jīng)網(wǎng)絡(luò)將在下一代符號數(shù)學求解工具中占有一席之地——但它也可能只是一席之地而已?!拔艺J為它將只是眾多工具中的一個,”Germundsson 表示。
另一個尚未解決的問題是:沒有人真正了解它們是如何工作的,這也是神經(jīng)網(wǎng)絡(luò)發(fā)展最令人不安的一方面。
在模式識別中,我們只需要將訓練數(shù)據(jù)集在一段輸入,相應(yīng)的預(yù)測數(shù)據(jù)集就會在另一端輸出,但是并沒有人知道這中間發(fā)生了什么,讓神經(jīng)網(wǎng)絡(luò)成為了一個完美的學習者。它理解輸入的公式和算法嗎?還是只是按部就班的按照指令處理數(shù)字?
對此,Charton 表示:“我們知道數(shù)學是如何工作的,通過使用特定的數(shù)學問題作為測試,看看神經(jīng)網(wǎng)絡(luò)在哪里成功,在哪里失敗,我們就可以了解神經(jīng)網(wǎng)絡(luò)是如何工作的。”
他和 Lample 計劃將數(shù)學表達式輸入到他們的神經(jīng)網(wǎng)絡(luò)中,并跟蹤程序?qū)Ρ磉_式中的微小變化的響應(yīng)方式。映射輸入中的變化如何觸發(fā)輸出中的變化,可能有助于揭示神經(jīng)網(wǎng)絡(luò)的操作方式。
Zaremba 認為這是在測試和確定神經(jīng)網(wǎng)絡(luò)是否具有理性,以及是否真正理解它們所回答的問題上的積極探索?!皵?shù)學問題中很容易變換參數(shù)或者其它部分——我們可以通過觀察神經(jīng)網(wǎng)絡(luò)在面對改動后的方程后作出的反應(yīng)來窺測它的運行方式。我們可能會真正了解其中的原因,而不僅僅只是方程的解?!?br>
神經(jīng)網(wǎng)絡(luò)探索的另一個可能的方向,是自動定理生成器的開發(fā)。數(shù)學家們正越來越多地研究使用人工智能來生成新的定理和證明的方法,盡管“這種技術(shù)還沒有取得很大進展,”Lample 說,“這是我們正在研究的東西。”
Charton 描述了他們的方法至少有兩種方法可以推動人工智能定理的發(fā)現(xiàn)。首先,它可以作為一種數(shù)學家的助手,通過識別已知猜想的模式來幫助解決存在的問題;其次,這臺機器可能會生成一個列表,列出數(shù)學家們漏掉的可能可證明的結(jié)果?!拔覀兿嘈?,如果你能做集成,你就應(yīng)該能做證明?!彼f。
參考資料:
Ornes, S. (n.d.). Symbolic Mathematics Finally Yields to Neural Networks. Quanta Magazine. Retrieved May 27, 2020, from https://www.quantamagazine.org/symbolic-mathematics-finally-yields-to-neural-networks-20200520/
模式識別. (n.d.). 邊肇祺、張學工編著. 模式識別(第二版). 清華大學出版社, 2004. Retrieved May 27, 2020, from http://www.intsci.ac.cn/ai/pr.html