孔祥宇 無往
科技創(chuàng)新是現(xiàn)代社會最本質(zhì)的周期
整個人類文明史,就其經(jīng)濟本質(zhì)而言,就是一部生產(chǎn)力發(fā)展史。大航海時代的船帆獵獵之聲猶在耳畔,滾滾的蒸汽已挾裹著煤鐵激蕩起機器時代的大潮。蒸汽機車的悠長笛聲仍未遠去,大西洋的上空已悄然彌散著永不消逝的電波。伴隨著科學技術(shù)的持續(xù)進步,人類自身的邊界被不斷延拓,文明的面貌被不斷重寫,個人的生活方式乃至社會的存在結(jié)構(gòu)發(fā)生了深刻的變革,超過了任何可能的預(yù)言。經(jīng)濟的運行不可能脫離社會的演進,社會的演進受制于生產(chǎn)力的發(fā)展,生產(chǎn)力的變革服從于科學技術(shù)的進步。基于康德拉季耶夫與熊彼得對周期的洞見,我們可以大膽斷言:科技才是現(xiàn)代社會最本質(zhì)的周期。歷經(jīng)過往兩百年數(shù)次變革浮沉,最近一次移動互聯(lián)網(wǎng)的大潮也漸漸步入尾聲,下一股增量動能將會于何處迸發(fā)?
每一次技術(shù)的興衰,基本上都遵循著如下的范式:基礎(chǔ)科學創(chuàng)新-應(yīng)用技術(shù)創(chuàng)新-商業(yè)模式創(chuàng)新,每輪周期四十年左右。在過去的兩個世紀中,我們次第經(jīng)歷了蒸汽革命、電氣革命、信息革命。除了蒸汽革命直接從應(yīng)用技術(shù)創(chuàng)新開始外,電氣革命與信息革命都離不開基礎(chǔ)科學的進步。這樣的結(jié)論在強調(diào)重視基礎(chǔ)科學之外,同樣暗示了一種分析范式,使我們可以通過觀察某一項技術(shù)所處在的節(jié)點來判斷其未來的發(fā)展可能。
行業(yè)三落三起,深度學習大放異彩
回顧信息革命,早在上世紀四十年代,圖靈便提出了圖靈機與可計算理論,作為現(xiàn)代計算機的理論基石;在應(yīng)用上,自DARPA出于軍事用途研發(fā)TCP/IP這一互聯(lián)網(wǎng)的基礎(chǔ)協(xié)議,到互聯(lián)網(wǎng)時代的盛放,也歷經(jīng)了二十余年的蟄伏。
人工智能不外如是。在過去的七十年中,人工智能行業(yè)三落三起,經(jīng)歷符號主義下的推理系統(tǒng)與專家系統(tǒng)時代,轉(zhuǎn)向至連接主義下的機器學習時代,最終開枝散葉為如今的密林。1956年,達特茅斯會議第一次提出“人工智能”。紐厄爾和西蒙展示了他們的程序:“邏輯理論家”可以獨立證明出《數(shù)學原理》第二章的38條定理;到了1963年,該程序已能證明該章的全部52條定理。阿瑟·薩繆爾(Arthur Samuel)研制了一個跳棋程序,該程序具有自學習功能,可以從比賽中不斷總結(jié)經(jīng)驗提高棋藝。1965年,機器定理證明領(lǐng)域遇到了瓶頸,計算機推了數(shù)十萬步也無法證明兩個連續(xù)函數(shù)之和仍是連續(xù)函數(shù)。薩繆爾的跳棋程序也不再神氣,它停留在了州冠軍的層次,無法進一步戰(zhàn)勝世界冠軍。費根鮑姆認為,傳統(tǒng)的人工智能之所以會陷入僵局,就是因為他們過于強調(diào)通用求解方法的作用,而忽略了具體的知識。于是研究轉(zhuǎn)向賦予計算機知識,又名知識工程。1968年,第一個成功的專家系統(tǒng)DENDRAL問世,它可以根據(jù)質(zhì)譜儀的數(shù)據(jù)推知物質(zhì)的分子結(jié)構(gòu)。然而,好景不長,在專家系統(tǒng)、知識工程獲得大量的實踐經(jīng)驗之后,弊端開始逐漸顯現(xiàn)了出來,這就是知識獲取。在專家系統(tǒng)模式下,需要由人將知識總結(jié)為計算機能理解的規(guī)則,再輸入給計算機。面對更復(fù)雜的問題時,該方法顯然難以勝任。且專家系統(tǒng)無法進行自發(fā)的知識獲取。在這時,機器學習方法登上歷史舞臺。通過設(shè)計適當?shù)乃惴?,可以讓計算機系統(tǒng)自行學習,這樣就在一定程度上解決了知識獲取的問題。而深度學習方法大大擴展了機器學習的能力,成為近年來最為火熱的概念。
算力提升與大數(shù)據(jù)是核心驅(qū)動力
上述轉(zhuǎn)型與發(fā)展的核心驅(qū)動力之一在于計算機算力的大幅提升與數(shù)據(jù)量的擴大。實際上,近年來大熱的卷積神經(jīng)網(wǎng)絡(luò)算法,第一次出現(xiàn)于1987年Alexander Waibel等解決語音識別問題的論文;現(xiàn)代神經(jīng)網(wǎng)絡(luò)訓練的根基——反向傳播算法更是于上世紀70年代便被提出。但受限于當時計算機處理能力,神經(jīng)網(wǎng)絡(luò)方法沒能得到工業(yè)化應(yīng)用。當時更為受業(yè)界青睞的是以決策樹等為代表的對計算資源要求更小的方法,1997年擊敗國際象棋世界冠軍的超級計算機深藍便是其中翹楚。近年來,受益于超大規(guī)模集成電路、分布式計算等技術(shù)的發(fā)展,計算機性能有了巨大的提高,同時,基于GPU訓練神經(jīng)網(wǎng)絡(luò)(2005)與張量處理器TPU等技術(shù)的發(fā)展,訓練神經(jīng)網(wǎng)絡(luò)的成本快速降低至業(yè)界可接受的水平,機器學習時代的帷幕方此拉開。
行業(yè)發(fā)展仍處于技術(shù)應(yīng)用階段中后期
回顧這些歷史,是為了更好地判斷人工智能行業(yè)所處在的發(fā)展階段??傮w而言,近年來興起的機器學習熱潮在思想和理論上并未顯著超越上世紀八十年代中后期關(guān)于神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)研究,但受益于運算能力與數(shù)據(jù)規(guī)模的擴張,在應(yīng)用技術(shù)層面上獲得了長足的進步,并逐漸滲透進各個領(lǐng)域。就目前而言,商業(yè)模式創(chuàng)新仍在探索。因此,根據(jù)我們的三階段模型,當前以機器學習方法為代表的人工智能行業(yè)仍處在第二階段中后期,樂觀情況下后續(xù)仍有約十到二十年的發(fā)展窗口期。
必須強調(diào)的是,本輪人工智能行業(yè)的繁榮應(yīng)當稱為“以機器學習方法為代表的人工智能行業(yè)的發(fā)展”,正如歷史告訴我們的,圍繞如何實現(xiàn)人工智能這一問題,學界有諸多的推想與理論,其中機器學習是近二十年來最具有產(chǎn)業(yè)化可能與前景的方案。但這并不意味著機器學習是唯一方案,也并不意味著真正像人類一樣的智能體會由此誕生。要想理解這個論斷,我們需要回到“什么是人工智能”以及“怎樣實現(xiàn)人工智能”這兩個最基本的問題上來。
人類對自身智能的復(fù)刻與延展
什么是人工智能?我們將之理解為人類對自身能力的復(fù)刻與延展在智能上的體現(xiàn)。古往今來,人類諸多的探索活動都繞不開對自身能力的復(fù)刻與延展,譬如自動化機器是對人類制造能力的復(fù)刻、飛機汽車是對人類行動能力的延展。就現(xiàn)階段而言,可以給人工智能下定義為:“通過計算機實現(xiàn)甚至超越人的頭腦思維所產(chǎn)生的效果,是對能夠從環(huán)境中獲取感知并執(zhí)行行動的智能體的描述和構(gòu)建”。人工智能復(fù)刻或延展了人類的感知、判斷、推理、決策、情感等功能。將上述功能歸納為三個層面:一是運算智能,即快速計算和記憶存儲能力,這也是被認為人工智能相較于人類最具優(yōu)勢之處。二是感知智能,即視覺、聽覺、觸覺等感知能力,并進行一定簡單的判斷,自動駕駛汽車,就是通過激光雷達等感知設(shè)備和AI算法實現(xiàn)這樣的感知智能。三是認知智能,通俗講是能理解會思考,以實現(xiàn)概念、意識、觀念、文化、情感等人類智能特有表現(xiàn)為目的。從對上述智能的實現(xiàn)程度進行區(qū)分,可以將人工智能分為兩個等級:弱人工智能和強人工智能。弱人工智能,又稱專用人工智能,即在特定的領(lǐng)域或任務(wù)中實現(xiàn)與人類近似甚至有所超越的工作效能,如智能駕駛、圖像語音識別等;強人工智能,或通用人工智能,是指具備與人類同等智慧、能表現(xiàn)正常人類所具有的所有智能行為的智能。我們目前所發(fā)展的人工智能技術(shù),多集中于前者,而對通用人工智能的研究仍處于起步階段。
算法、算力、數(shù)據(jù)構(gòu)成AI三大基石
之前已經(jīng)提到,在現(xiàn)階段我們主要通過機器學習方法,特別是深度學習,實現(xiàn)上述專用人工智能。機器學習的基本過程是給學習算法提供訓練數(shù)據(jù)。然后,學習算法基于數(shù)據(jù)的推論生成一組新的規(guī)則。這本質(zhì)上就是生成一種新的算法,稱之為機器學習模型。通過使用不同的訓練數(shù)據(jù),相同的學習算法可以生成不同的模型。從數(shù)據(jù)中推理出新的指令是機器學習的核心優(yōu)勢。它還突出了數(shù)據(jù)的關(guān)鍵作用:用于訓練算法的可用數(shù)據(jù)越多,算法學習到的就越多。容易看出,數(shù)據(jù)、算法與實現(xiàn)算法的硬件構(gòu)成了機器學習的三大基石。下面我將分別從這三個角度對機器學習方法進行更深入的闡述。
機器學習算法紛繁多樣
首先是算法層面。按照不同的場景分類,主要可分為有監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、強化學習和遷移學習等。監(jiān)督學習指需要給學習算法提供標記的數(shù)據(jù)和所需的輸出,對于每一個輸入,學習者都被提供了一個回應(yīng)的目標。監(jiān)督學習主要被應(yīng)用于快速高效地教熟AI現(xiàn)有的知識,被用于解決分類和回歸的問題。常見算法有線性回歸、K近鄰、決策樹、支持向量機、樸素貝葉斯與神經(jīng)網(wǎng)絡(luò)等。無監(jiān)督學習指給學習算法提供的數(shù)據(jù)是未標記的,并且要求算法識別輸入數(shù)據(jù)中的模式,主要是建立一個模型,用其試著對輸入的數(shù)據(jù)進行解釋,并用于下次輸入?,F(xiàn)實情況下往往很多數(shù)據(jù)集都有大量的未標記樣本,有標記的樣本反而比較少。如果直接棄用,很大程度上會導致模型精度低。這種情況解決的思路往往是結(jié)合有標記的樣本,通過估計的方法把未標記樣本變?yōu)閭蔚挠袠擞洏颖?,所以無監(jiān)督學習比監(jiān)督學習更難掌握。主要用于解決聚類和降維問題,常見的算法有K-means、期望最大、AP聚類、主成分分析、LLE等,近年來備受吹捧的GAN生成式對抗網(wǎng)絡(luò)也屬于無監(jiān)督學習。強化學習指算法與動態(tài)環(huán)境相互作用,把環(huán)境的反饋作為輸入,通過學習選擇能達到其目標的最優(yōu)動作。我們所聽聞的會打Dota的AI正是基于強化學習算法。遷移學習則解決了如何將學習到知識從一個場景遷移到另一個場景的問題。以圖像識別為例,從白天到晚上,從冬天到夏天,從識別中國人到識別外國人…當我們所關(guān)注的場景缺少足夠的數(shù)據(jù)來完成訓練,在這種情況下需要通過遷移學習來實現(xiàn)模型本身的泛化能力。
上圖展現(xiàn)了各場景與相關(guān)適用算法。其中神經(jīng)網(wǎng)絡(luò)類算法在各個場景下都有所運用,涌現(xiàn)了包括CNN、RNN、DNN、DBN、GAN等一批大家所耳熟能詳?shù)乃惴?。神?jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如下圖所示,包括了輸入層、隱藏層、輸出層。每一層由若干個神經(jīng)元構(gòu)成。深度學習其實就是隱藏層數(shù)目更多的神經(jīng)網(wǎng)絡(luò)算法,因為隱藏層更多,所以泛化表示能力越強。訓練時,主要依托反向傳播算法,逐步優(yōu)化各個神經(jīng)元的參數(shù)??梢钥吹秸麄€神經(jīng)網(wǎng)絡(luò)中的節(jié)點數(shù)目相當龐大,因此神經(jīng)網(wǎng)絡(luò)方法對于數(shù)據(jù)和算力的要求尤為高。
算法壁壘仍然高企,開源降低入門門檻
機器學習算法如此紛繁復(fù)雜,正是因為我們目前仍未找到一個通用方案來解決所有的問題,因而我們需要針對不同的場景作出不同的調(diào)整、設(shè)計不同的算法。算法與人才依然是人工智能行業(yè)較高的技術(shù)門檻。一方面,新算法的提出有賴于該行業(yè)中最頂尖的頭腦,而任何行業(yè)的頂尖人才都屬稀缺品;另一方面,針對特定場景恰當?shù)厥褂谩?yōu)化算法同樣需要高層次的人才??梢哉f,對于前沿算法的突破創(chuàng)新以及算法在不同環(huán)境中的優(yōu)化升級,不同公司的技術(shù)差異仍然很大。同樣由于算法實現(xiàn)的復(fù)雜性,工業(yè)界和學術(shù)界推出了各種用于機器學習模型訓練的開源工具和框架,包括Caffe, Theano, Torch, Tensorflow等等,這些開源環(huán)境和框架大幅降低了該領(lǐng)域的入門技術(shù)門檻。而對于推出這些框架的企業(yè)或組織來說,他們則在某種意義上獲得了標準制定者的地位。如TensorFlow由Google推出,Torch由Facebook等企業(yè)支持,框架背后體現(xiàn)的其實是企業(yè)或組織的業(yè)界實力與地位。遺憾的是,中國企業(yè)在上述標準制定,或者說話語權(quán)的爭奪中,似乎仍是有些缺席。
各類半導體元件適配不同場景
其次是硬件層面。之前我們已經(jīng)提到機器學習方法分為訓練和使用兩個階段,神經(jīng)網(wǎng)絡(luò)方法訓練時主要依靠反向傳播算法和前向傳播算法,使用時主要依托前向傳播算法。這兩種算法都包含大量的矩陣運算和梯度運算,因而對硬件要求很高。根據(jù)不同場景,我們主要關(guān)注硬件的計算性能、功耗、通用性、靈活性、成本四個方面的問題。傳統(tǒng)的CPU在矩陣運算或者說并行運算上速度較慢,在很多場景下都難以勝任。GPU依托其強大的并行計算能力成為訓練神經(jīng)網(wǎng)絡(luò)的趁手武器,但整體功耗較大且單位成本高。FPGA(現(xiàn)場可編程陣列門)則靈活性非常高,且功耗低。ASIC(特殊用途集成電路)則以其高性能、低功耗著稱,但其設(shè)計開發(fā)周期長、研發(fā)成本高、且設(shè)計完成后一般只能用于某些特定用途。下表展示了各類半導體優(yōu)缺點。
一般而言神經(jīng)網(wǎng)絡(luò)訓練過程比使用中推理過程的計算量更大,因此可以將訓練過程和使用過程分離,由云端負責訓練進行而邊緣設(shè)備負責推理,推理所需要的參數(shù)可由云端訓練完畢后下載至邊緣設(shè)備更新。這是一個雙贏的方案:對用戶而言,可以提高算法效果、保護數(shù)據(jù)隱私,對廠家而言,可以提高后端效率和整體分析質(zhì)兩、實現(xiàn)復(fù)雜算法、簡化錯誤排查流程等。這種趨勢將進一步激發(fā)邊緣設(shè)備IC需求,如手機端載TPU芯片、自動駕駛車載電腦芯片等等,ASIC和GPU將受此助益。
海量數(shù)據(jù)為AI提供支撐
然后是數(shù)據(jù)層面。近年來,得益于互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,可獲得的數(shù)據(jù)量激增,為深度學習算法提供了海量的數(shù)據(jù)支撐。以影像數(shù)據(jù)為例,據(jù)Cisco評估,2021年單月上傳至全球網(wǎng)絡(luò)的視頻總時長將超過500萬年。而嵌入式感知系統(tǒng)的蓬勃發(fā)展,如各類物聯(lián)網(wǎng)設(shè)備的廣泛應(yīng)用,也提供了曾經(jīng)難以獲得的結(jié)構(gòu)化數(shù)據(jù)。這些都有利于行業(yè)的進一步發(fā)展。
人們對現(xiàn)階段的人工智能的調(diào)侃:“有多少人工就有多少智能”,指出的主要矛盾也是在于數(shù)據(jù)。由于算法本身的特性,有監(jiān)督的深度學習算法需要海量有標注的數(shù)據(jù)以供訓練。以語音識別場景為例,需要對眾多語音片段進行文字轉(zhuǎn)寫,而這都需要人工進行。業(yè)界領(lǐng)先的公司一般都會有數(shù)百人的標注團隊(多為外包,但需要專業(yè)培訓和實時指導)。需要注意的是,并非所有類型的數(shù)據(jù)都容易標注,例如醫(yī)療影像數(shù)據(jù)需要專業(yè)醫(yī)師標注病灶??梢哉f,數(shù)據(jù)的獲得與處理也構(gòu)成了該行業(yè)的重要門檻。
AI+百花齊放,深度學習為各個行業(yè)賦能
探討完算法、算力、數(shù)據(jù)這三大人工智能行業(yè)基礎(chǔ)設(shè)施,我們終于可以將目光投向應(yīng)用層。有人認為,當前人工智能在某種意義上和模式識別是同義詞,這不無道理。應(yīng)用人工智能算法,可以在各個領(lǐng)域快速實現(xiàn)性能優(yōu)異的模式識別,計算機視覺、語音識別與合成、自然語言處理等常見的應(yīng)用場景都都屬于此列。而將這些應(yīng)用置于更加細分的領(lǐng)域,就是我們?nèi)缃袼娢禐榇笥^的“AI+”了。在金融領(lǐng)域,可以通過人工智能與多維度大數(shù)據(jù)實現(xiàn)智能風控。在公共安全領(lǐng)域,可以通過生物特征識別與大數(shù)據(jù)增加公安預(yù)測和決策能力。在教育領(lǐng)域,可以通過人工智能實現(xiàn)拍照搜題、口語評測、作文批改等多種功能,實現(xiàn)更加個性化、高效化的學習環(huán)境。在醫(yī)療領(lǐng)域,可以通過人工智能實現(xiàn)輔助診斷,減少醫(yī)生重復(fù)性工作,助力專家學者攻克醫(yī)療難關(guān),改善醫(yī)療資源分布不均的問題。在工業(yè)制造領(lǐng)域,人工智能可以通過智能設(shè)備健康管理、智能質(zhì)檢、智能參數(shù)優(yōu)化等助力優(yōu)化生產(chǎn)制造、縮減人工成本。在零售領(lǐng)域,通過數(shù)據(jù)與商業(yè)邏輯結(jié)合、先進感知技術(shù)的成熟應(yīng)用,人工智能可以切實提升零售全鏈條資產(chǎn)配置效率,助力企業(yè)精細化運營。在交通出行領(lǐng)域,人工智能可以通過交通信號燈智能配對、車輛智能調(diào)度等改善交通問題,實現(xiàn)智能化交通。AI作為一種通用的解決方案,賦予了各個行業(yè)解決復(fù)雜模式識別問題的能力。
但值得強調(diào)的是,對“AI+行業(yè)”而言,加號后面的內(nèi)容同樣重要。AI只是賦能的工具,而具體到行業(yè)問題解決方案時,也離不開對行業(yè)的深刻理解。我們相信,未來在應(yīng)用層能真正有所作為的公司,一定是既具備領(lǐng)先技術(shù)實力、又擁有深刻行業(yè)洞見的企業(yè)。
反思與未來
如同報告開篇所提,我們將人工智能理解為人類對自身智能的復(fù)刻與延展。這種復(fù)刻與延展是否會對人類本身產(chǎn)生巨大影響?答案是肯定的。我們不妨從生產(chǎn)函數(shù)的視角來理解這個問題,觀察Y=Af(K,L),作為人的智能的復(fù)刻,人工智能將不可逆轉(zhuǎn)地補充、替代部分勞動力(L),而作為智能的延展,其賦能的本質(zhì)又或?qū)⑼苿尤厣a(chǎn)率(A)的提高。人們也許會憂慮上述替代過程可能造成的失業(yè),但我們認為,雖然替代效應(yīng)不可避免,但從長期來看,技術(shù)革命也會促進創(chuàng)新,將人們從重復(fù)的勞動中解放,轉(zhuǎn)而進行更具創(chuàng)造力的活動,使人們能追求更自由的工作與生活方式。另外,人工智能作為對于勞動力的部分替代也能在某種程度上緩解世界人口增長減速的沖擊,提高社會的整體福利。綜上所述,從微觀層面來看,人工智能將部分替代傳統(tǒng)勞動,帶來新的生產(chǎn)方式,以提升生產(chǎn)效率并降低成本,進而實現(xiàn)企業(yè)效益提升、改善人們的工作與生活。從宏觀層面來說,人工智能將大幅改善依賴勞動創(chuàng)造的勞動密集型、簡單重復(fù)性的傳統(tǒng)經(jīng)濟運行模式,并依托此經(jīng)濟模式構(gòu)建萬物互聯(lián)、智能協(xié)同的產(chǎn)業(yè)體系,打造智能經(jīng)濟與智能社會。
子在川上曰:“逝者如斯夫,不舍晝夜”,歷史裹挾著每一個個體或主動或被動地向前。面對大潮,擁抱,或許是最好的姿態(tài)。