2016 年3 月 AlphaGo 大戰(zhàn)李世石以來,人們對人工智能的關(guān)注度空前火熱,人工智能無疑會帶來下一代科技革命,國內(nèi)外互聯(lián)網(wǎng)巨頭 Google 、微軟、亞馬遜、百度、騰訊、阿里巴巴等在人工智能領(lǐng)域跑馬圈地,各國也將人工智能上升到國家戰(zhàn)略,企圖搶占下一代技術(shù)革命的制高點(diǎn)。
這一波人工智能的興起源于深度學(xué)習(xí)算法的突破,深度學(xué)習(xí)算法突破過去人工提取特征的低效率、深層模型難以訓(xùn)練的局限,大大提高了算法的性能;其次,摩爾定律揭示了計(jì)算速度和內(nèi)存容量能夠每十八個月翻一番,之前計(jì)算性能上的基礎(chǔ)障礙被逐漸克服,進(jìn)入新時(shí)期,云計(jì)算、 GPU 的使用為人工智能提供新的可能;互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的普及,數(shù)據(jù)積累呈爆發(fā)式積累,為訓(xùn)練算法,實(shí)現(xiàn)人工智能提供原料。
一、深度學(xué)習(xí)技術(shù)使人工智能達(dá)到商用化水平
在深度學(xué)習(xí)出現(xiàn)之前,機(jī)器學(xué)習(xí)領(lǐng)域的主流是各種淺層學(xué)習(xí)算法。初期的人工智能研究的重點(diǎn)是以機(jī)器學(xué)習(xí)為代表的統(tǒng)計(jì)方法。機(jī)器學(xué)習(xí)是人工智能的一個分支,是目前實(shí)現(xiàn)人工智能的一個重要途徑。機(jī)器學(xué)習(xí)使機(jī)器從數(shù)據(jù)中自動分析習(xí)得規(guī)律,再利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測。機(jī)器學(xué)習(xí)淺層算法如神經(jīng)網(wǎng)絡(luò)的反響傳播算法( BP 算法)、支撐向量機(jī)( SVM )、 Boosting 、 Logistic Regression 等。這些算法的局限性在于對有限樣本和計(jì)算單元的情況下對復(fù)雜函數(shù)的表示能力有限,對復(fù)雜數(shù)據(jù)的處理受到制約。
深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的關(guān)系
數(shù)據(jù)來源:公開資料整理
機(jī)器學(xué)習(xí)原理
數(shù)據(jù)來源:公開資料整理
機(jī)器學(xué)習(xí)的思路
數(shù)據(jù)來源:公開資料整理
傳統(tǒng)的機(jī)器學(xué)習(xí)需要人工提取特征,其思路是,從開始的通過傳感器來獲取數(shù)據(jù),然后經(jīng)過預(yù)處理、特征提取、特征選擇、再到推理、預(yù)測或者識別,最后一部分也就是機(jī)器學(xué)習(xí)的部分。中間三部分概況起來就是特征表達(dá),是靠人工提取特征。良好的特征表達(dá)對最終算法的準(zhǔn)確性起到了非常關(guān)鍵的作用。然而手工地選取特征既耗費(fèi)時(shí)間又不能保證選取好,深度學(xué)習(xí)徹底解決了這個問題。
深度學(xué)習(xí)突破人工智能算法瓶頸。2016 年,Hinton 等人提出深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),掀起了深度學(xué)習(xí)的浪潮?!吧疃取蹦撤N意義上是指人工神經(jīng)網(wǎng)絡(luò)的層數(shù),旨在建立可以模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦的機(jī)制來解釋數(shù)據(jù),例如,圖像、聲音和文本。在短短幾年內(nèi),深度學(xué)習(xí)顛覆了語音識別、圖像分類、文本理解等眾多領(lǐng)域的算法設(shè)計(jì)思路,創(chuàng)造了一種從數(shù)據(jù)出發(fā),經(jīng)過一個端到端最后得到結(jié)果的新模式。由于深度學(xué)習(xí)是根據(jù)提供給它的大量的實(shí)際行為(訓(xùn)練數(shù)據(jù)集)來自調(diào)整規(guī)則中的參數(shù),進(jìn)而調(diào)整規(guī)則,因此在和訓(xùn)練數(shù)據(jù)集類似的場景下,可以做出一些很準(zhǔn)確的判斷。
深度學(xué)習(xí)與傳統(tǒng)計(jì)算模式的區(qū)別
數(shù)據(jù)來源:公開資料整理
傳統(tǒng)的提取特征的方法是通過大量的工程技術(shù)和專業(yè)領(lǐng)域知識手工設(shè)計(jì)特征提取器,因此在處理加工數(shù)據(jù)時(shí)能力有限。深度學(xué)習(xí)把原始數(shù)據(jù)通過一系列非線性變換得到更高層次、更加抽象的表達(dá),其復(fù)雜的結(jié)構(gòu)、海量的參數(shù)設(shè)置,能夠更好的完成特征提取。對于很多訓(xùn)練任務(wù)來說,特征具有天然的結(jié)構(gòu)層次。以圖像識別任務(wù)為例,圖像的初始輸入為像素,相鄰像素組成線條、線條組成紋理,進(jìn)一步組圖案,圖案組成物體的局部,直到形成整個物體的樣子。
以計(jì)算機(jī)視覺為例,深度學(xué)習(xí)出現(xiàn)之前,基于尋找合適的特征來讓機(jī)器辨識物體狀態(tài)的方式幾乎代表了計(jì)算機(jī)視覺的全部。盡管對多層神經(jīng)網(wǎng)絡(luò)的探索已經(jīng)存在,然而實(shí)踐效果并不好。深度學(xué)習(xí)出現(xiàn)之后,計(jì)算機(jī)視覺的主要識別方式發(fā)生重大轉(zhuǎn)變,自學(xué)習(xí)狀態(tài)成為視覺識別主流。即,機(jī)器從海量數(shù)據(jù)庫里自行歸納物體特征,然后按照該特征規(guī)律識別物體。圖像識別的精準(zhǔn)度也得到極大的提升,從 70%+ 提升到 95% 。
深度學(xué)習(xí)對圖像識別的提升
數(shù)據(jù)來源:公開資料整理
二、運(yùn)算力和數(shù)據(jù)量為人工智能提供引擎
深度學(xué)習(xí)對于運(yùn)算速度和數(shù)據(jù)量提供了新要求。例如斯坦福大學(xué)的交通指示牌識別實(shí)驗(yàn),用傳統(tǒng)的線性模型,識別準(zhǔn)確率為 92% ,所需訓(xùn)練時(shí)間為 13s ,而采用深度神經(jīng)網(wǎng)絡(luò)模型的識別準(zhǔn)確率高達(dá) 98.8% ,其所需的訓(xùn)練時(shí)間也提升到 783s 。
1、海量數(shù)據(jù)為人工智能發(fā)展提供燃料
數(shù)據(jù)量和算法可以分別比作人工智能的燃料和發(fā)動機(jī)。數(shù)據(jù)集的豐富和大規(guī)模性對深度學(xué)習(xí)算法訓(xùn)練尤為重要。實(shí)現(xiàn)精準(zhǔn)識別的第一步,就是獲取海量而優(yōu)質(zhì)的應(yīng)用場景數(shù)據(jù)。以人臉識別為例,訓(xùn)練該算法模型的圖片數(shù)據(jù)量至少應(yīng)為百萬級別。
數(shù)據(jù)在深度學(xué)習(xí)中的應(yīng)用
數(shù)據(jù)來源:公開資料整理
2000 年以來,得益于互聯(lián)網(wǎng)、社交媒體、移動設(shè)備和廉價(jià)的傳感器以及物聯(lián)網(wǎng)的發(fā)展,世界上產(chǎn)生并存儲的數(shù)據(jù)量急劇增加,為通過深度學(xué)習(xí)的方法來訓(xùn)練各種模型。 IDC 數(shù)據(jù)顯示,從 2011 年起,全球所產(chǎn)生的數(shù)據(jù)量已達(dá)到 ZB級別( 1ZB 約為 10 億 GB ),海量的數(shù)據(jù)為深度學(xué)習(xí)提供源源不斷的素材。而數(shù)據(jù)量對提高算法準(zhǔn)確率具有重要的作用,對于人工智能公司而言,數(shù)據(jù)是最大的壁壘。
人工智能決策過程
數(shù)據(jù)來源:公開資料整理
數(shù)據(jù)在深度學(xué)習(xí)中的應(yīng)用
數(shù)據(jù)來源:公開資料整理
三、資本持續(xù)投入催化產(chǎn)品化進(jìn)程與產(chǎn)業(yè)鏈的構(gòu)建
人工智能領(lǐng)域投資額逐年增長,5 年增長12 倍。從 2006 年提出深度學(xué)習(xí)之后,人工智能才有了實(shí)質(zhì)性的進(jìn)展。該領(lǐng)域的創(chuàng)業(yè)公司逐漸增加, 2011 年開始投資額度飛速增加,據(jù)統(tǒng)計(jì),截止到 2016 年 Q2 ,全球人工智能公司已突破 1000 家,跨越 13 個子門類,融資金額高達(dá) 48 億美元。
AI 行業(yè)全球投資額
數(shù)據(jù)來源:公開資料整理
2000-2015 年成立的人工智能公司數(shù)量
數(shù)據(jù)來源:公開資料整理
深度學(xué)習(xí)、自然語言處理和計(jì)算機(jī)視覺是創(chuàng)業(yè)最火熱的領(lǐng)域。 深度學(xué)習(xí)、自然語言處理和計(jì)算機(jī)視覺是創(chuàng)業(yè)最火熱的領(lǐng)域。目前受到關(guān)注度最高的 AI 應(yīng)用有自然語言處理、圖像識別的深度學(xué)習(xí)、計(jì)算機(jī)視覺、自動駕駛、聊天機(jī)器人等。其中研究深度學(xué)習(xí)應(yīng)用的公司最多,自然語言處理和計(jì)算機(jī)視覺的公司其次。同時(shí),深度學(xué)習(xí)和自然語言處理獲得的融資額也是最多的。應(yīng)用型的深度學(xué)習(xí)公司融資額最高為 2.1 億美元,自然語言處理類的公司總?cè)谫Y額為 7000 萬美元,位居第二位。
AI公司融資額及相應(yīng)公司數(shù)量
數(shù)據(jù)來源:公開資料整理
國內(nèi)獲投最多領(lǐng)域?yàn)镹LP 、機(jī)器人和計(jì)算機(jī)視覺。從 1996 年至今,國內(nèi)至今仍在運(yùn)營的人工智能公司有 366 家。通過數(shù)據(jù)分析可 以看出,計(jì)算機(jī)視覺、機(jī)器人、自然語言處理是創(chuàng)業(yè)最熱門的領(lǐng)域。 2015-2016 年人工智能領(lǐng)域獲投金額在 90 億人民幣左右??梢钥闯?,獲投最多的細(xì)分領(lǐng)域有自然語言處理、機(jī)器人、計(jì)算機(jī)視覺,均在 10 億以上人民幣的級別。
國內(nèi)各領(lǐng)域人工智能公司數(shù)量
數(shù)據(jù)來源:公開資料整理
國內(nèi)人工智能公司獲投金額
數(shù)據(jù)來源:公開資料整理
相關(guān)報(bào)告:智研咨詢發(fā)布的《2017-2023年中國人工智能市場研究及投資前景預(yù)測報(bào)告》