[AI科技大本營(yíng)導(dǎo)讀]我們常常提及數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和人工智能,也有一個(gè)整體的概念。但是,如果要清晰地說(shuō)出三者的定義分別是什么,區(qū)別又是什么,相信能說(shuō)出來(lái)的讀者并不多。營(yíng)長(zhǎng)找到一篇Stack Overflow的數(shù)據(jù)科學(xué)家David Robinson的文章,用深入潛出的語(yǔ)言,詼諧地解釋了三者地區(qū)別。
每當(dāng)我告訴別人我是數(shù)據(jù)科學(xué)家時(shí),他們經(jīng)常問(wèn)我:“數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)有什么區(qū)別?”,或者“也就是說(shuō)你做人工智能的?”。
這些問(wèn)題我解釋了很多很多次,看來(lái)是時(shí)候用到我的“三法則”了:
同一代碼你寫了3次,那就編個(gè)函數(shù)
同一建議你當(dāng)面向別人提了3次,那就寫一篇博文
— David Robinson (@drob)
事實(shí)上,這三個(gè)領(lǐng)域是不可互換的,也沒有多大交集,炒作營(yíng)銷的成分太多。許多從事這三個(gè)領(lǐng)域的專業(yè)人士都能從直覺上判斷出什么是數(shù)據(jù)科學(xué),什么是機(jī)器學(xué)習(xí),什么是人工智能,但是很難說(shuō)出具體區(qū)別是什么。
在這篇文章中,我就這三個(gè)領(lǐng)域的區(qū)別提出了一個(gè)過(guò)度簡(jiǎn)化的定義:
數(shù)據(jù)科學(xué)理解事物
機(jī)器學(xué)習(xí)預(yù)測(cè)事物
人工智能生成行動(dòng)
澄清一點(diǎn),我認(rèn)為這個(gè)定義可以很好地幫助我們區(qū)分這三個(gè)領(lǐng)域,但是不能作為判定條件:符合其中一個(gè)領(lǐng)域的定義并不代表屬于這個(gè)領(lǐng)域。靠這些定義來(lái)判斷某人的工作或職位也是不靠譜的。真正要看的是他的專業(yè)和經(jīng)驗(yàn)。(這適用于任何工作:寫文章是我工作的一部分,但我并不是職業(yè)作家)。
需要注意的是,我是從描述的角度敘述問(wèn)題的。也就是說(shuō),我感興趣的是業(yè)內(nèi)人通常是如何使用這些術(shù)語(yǔ)的。
數(shù)據(jù)科學(xué)理解事物
與其他兩個(gè)領(lǐng)域不同,數(shù)據(jù)科學(xué)的目標(biāo)是認(rèn)識(shí)和理解事物。這也是人類的一個(gè)目標(biāo)。Jeff Leek就數(shù)據(jù)科學(xué)能實(shí)現(xiàn)哪些類型的理解作出了一個(gè)很好的定義(http://jtleek.com/modules/01_DataScientistToolbox/03_01_typesOfQuestions/#1)。
在這個(gè)定義中,既有描述性內(nèi)容(“普通客戶續(xù)費(fèi)的概率為70%”),也有解釋性內(nèi)容(“不同的銷售人員有不同的續(xù)費(fèi)率”)以及表因果的內(nèi)容(“隨機(jī)實(shí)驗(yàn)表明派給Alice的客戶續(xù)費(fèi)的概率比派給Bob的客戶高”)。
數(shù)據(jù)科學(xué)的經(jīng)典定義為:這是一門結(jié)合統(tǒng)計(jì)學(xué)、軟件工程學(xué)和專業(yè)知識(shí)的學(xué),也就是說(shuō),不是所有能理解事物的技術(shù)都屬于數(shù)據(jù)科學(xué)。
但是我們可以使用這個(gè)定義將數(shù)據(jù)科學(xué)與ML和AI區(qū)分開來(lái)。數(shù)據(jù)科學(xué)與后兩者最大的區(qū)別是它有人類的參與:人類理解結(jié)論、觀察數(shù)據(jù)并從結(jié)論中獲益?!跋笃逅惴ɡ脭?shù)據(jù)科學(xué)來(lái)決定下一步棋怎么走”或者“谷歌地圖利用數(shù)據(jù)科學(xué)建議行駛方向”根本就是無(wú)稽之談。
數(shù)據(jù)科學(xué)的定義強(qiáng)調(diào):
統(tǒng)計(jì)推斷
數(shù)據(jù)可視化
實(shí)驗(yàn)設(shè)計(jì)
專業(yè)知識(shí)
交流
數(shù)據(jù)科學(xué)可以使用簡(jiǎn)單的工具:根據(jù)SQL問(wèn)題報(bào)告百分比和繪制線圖。它也可以使用非常復(fù)雜的方法:分析分布式數(shù)據(jù)庫(kù)中的數(shù)萬(wàn)億條記錄,提出先進(jìn)的統(tǒng)計(jì)學(xué)方法,構(gòu)建互動(dòng)式的可視化工具。
無(wú)論數(shù)據(jù)科學(xué)使用什么方法,它的目標(biāo)都是更好地理解數(shù)據(jù)。
機(jī)器科學(xué)生成預(yù)測(cè)
我認(rèn)為機(jī)器學(xué)習(xí)就是做預(yù)測(cè):“給定實(shí)例X以及特定特征,預(yù)測(cè)Y”。這些預(yù)測(cè)可以是對(duì)未來(lái)的預(yù)測(cè)(例如:“預(yù)測(cè)病人是否會(huì)患上膿毒病”),也可以是對(duì)質(zhì)量的預(yù)測(cè),這種問(wèn)題計(jì)算機(jī)無(wú)法立刻得出結(jié)論(例如:“預(yù)測(cè)圖像中是否有一只鳥”)。
幾乎所有Kaggle競(jìng)賽解決的都是機(jī)器學(xué)習(xí)問(wèn)題:向參賽者提供數(shù)據(jù),看他們能否對(duì)新的例子做出準(zhǔn)確的預(yù)測(cè)。
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)之間有很多交集。例如,邏輯回歸可以用來(lái)研究關(guān)系(“用戶越有錢,其購(gòu)買我們產(chǎn)品的概率就越大,因此我們應(yīng)該改變我們的營(yíng)銷策略”),也可以用來(lái)做預(yù)測(cè)(“該用戶購(gòu)買我們產(chǎn)品的概率為53%,因此我們應(yīng)該向他推薦產(chǎn)品”)。
諸如隨機(jī)森林這樣的模型解釋起來(lái)不是太難,它們更適合歸類為“機(jī)器學(xué)習(xí)”,而深度學(xué)習(xí)這樣的方法解釋起來(lái)往往非常困難。如果你的目標(biāo)是得出結(jié)論而不是做出預(yù)測(cè),這個(gè)問(wèn)題就會(huì)成為阻礙。
我們可以將數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)想象成一個(gè)“譜”,較容易解釋的模型靠近數(shù)據(jù)科學(xué)一側(cè),“黑箱”模型則靠近機(jī)器學(xué)習(xí)一側(cè)。
大多數(shù)從業(yè)者可以非常從容地在來(lái)回切換于兩種任務(wù)之間。譬如我的工作既使用機(jī)器學(xué)習(xí),也使用數(shù)據(jù)科學(xué):我有時(shí)會(huì)用Stack Overflow的流量數(shù)據(jù)擬合某一模型,來(lái)判斷哪些用戶可能在尋找工作(機(jī)器學(xué)習(xí)),然后做出總結(jié)并構(gòu)建用于研究模型工作原理的可視化工具(數(shù)據(jù)科學(xué))。
這樣做可以幫你發(fā)現(xiàn)模型的缺陷,克服算法歧視(algorithmic bias)。正是出于這個(gè)原因,產(chǎn)品的機(jī)器學(xué)習(xí)模塊往往是由數(shù)據(jù)科學(xué)家負(fù)責(zé)開發(fā)的。
人工智能生成行動(dòng)
在這三個(gè)領(lǐng)域之中,人工智能是發(fā)展最久、普遍認(rèn)可度最高的,同時(shí)它也是最難定義的。尋求財(cái)富或關(guān)注的研究人員、記者和初創(chuàng)企業(yè)讓 “人工智能”這個(gè)術(shù)語(yǔ)幾乎成了炒作的代名詞。
如果你在籌資,就是AI
如果你在招聘,就是ML
如果你在實(shí)踐,就是線性回歸如果你在debug,就是printf()
— Baron Schwartz (@xaprb)
這種炒作導(dǎo)致AI受到一些挫折,在我看來(lái)實(shí)屬不幸,有些工作可能應(yīng)該被稱為是AI,但是卻沒人認(rèn)為是。有些研究人員甚至抱怨AI效應(yīng):“我們現(xiàn)在還沒法做到的都是AI”。
人工智能的所有定義都有一個(gè)共同的界定:人工智能是一個(gè)可以執(zhí)行或建議行為的自主代理。我認(rèn)為可以被稱為是AI的系統(tǒng)包括:
博弈游戲算法(Deep Blue、 AlphaGo)
機(jī)器人學(xué)和控制理論(運(yùn)動(dòng)規(guī)劃,控制雙足機(jī)器人的行走)
優(yōu)化(谷歌地圖選擇路線)
自然語(yǔ)言處理(自動(dòng)程序)
強(qiáng)化學(xué)習(xí)
機(jī)器學(xué)習(xí)和人工智能也有很多交集。深度學(xué)習(xí)就是橫跨ML和AI的一個(gè)典型例子。深度學(xué)習(xí)的典型應(yīng)用是:用數(shù)據(jù)訓(xùn)練模型,然后讓模型作出預(yù)測(cè)。另外,它在博弈游戲算法(如AlphaGo)的開發(fā)上也起到了巨大的作用。先前的博弈游戲系統(tǒng),如Deep Blue,更著重于探索和優(yōu)化未來(lái)的解空間(solution space)。
數(shù)據(jù)科學(xué)和AI也是有區(qū)別的。如果通過(guò)分析銷售數(shù)據(jù)發(fā)現(xiàn),某些行業(yè)的客戶續(xù)費(fèi)的概率高于其他客戶(得出結(jié)論),輸出的是數(shù)字和統(tǒng)計(jì)圖,而不是具體的行為。(高管可能會(huì)根據(jù)這種結(jié)論改變銷售策略,但是這種行為不是自動(dòng)的)。這意味著我的工作可以算作是數(shù)據(jù)科學(xué):如果我說(shuō)“我使用AI來(lái)提高銷售量”,那就太做作了。
請(qǐng)不要因?yàn)槟橙擞?xùn)練了一個(gè)算法就說(shuō)他“利用了AI的力量”
— Dave Gershgorn (@davegershgorn)
人工智能和機(jī)器學(xué)習(xí)的區(qū)別更為微妙,過(guò)去ML一直被認(rèn)為是AI的一個(gè)子領(lǐng)域(計(jì)算機(jī)視覺就是一個(gè)典型AI問(wèn)題)。但是我認(rèn)為ML在很大程度上已經(jīng)脫離了AI,上文提到的炒作后果是造成這一結(jié)果的一個(gè)原因。
大多數(shù)研究預(yù)測(cè)問(wèn)題的人不喜歡自稱為AI研究者。(機(jī)器學(xué)習(xí)的許多重大突破都來(lái)源于統(tǒng)計(jì)學(xué),而后者在AI領(lǐng)域的作用并沒有多大)。這意味著,當(dāng)你要解決的問(wèn)題是“根據(jù)Y預(yù)測(cè)X”時(shí),我建議你盡量避免使用AI這個(gè)術(shù)語(yǔ)。
按照當(dāng)前的定義,y=mx b是一個(gè)可以給出線的方向的AI程序。
— Amy Hoy (@amyhoy)
實(shí)例研究:
如何同時(shí)利用這三個(gè)領(lǐng)域?
假設(shè)我們?cè)陂_發(fā)自動(dòng)駕駛汽車,我們要解決在遇到停車標(biāo)志時(shí)停車的問(wèn)題。我們需要使用到這三個(gè)領(lǐng)域的技術(shù)。
機(jī)器學(xué)習(xí):汽車必須使用攝像機(jī)識(shí)別停車標(biāo)志。我們構(gòu)建一個(gè)由數(shù)百萬(wàn)張街景照片組成的數(shù)據(jù)集,然后用它訓(xùn)練算法,讓算法預(yù)測(cè)哪些照片中有停車標(biāo)志。
人工智能:現(xiàn)在汽車可以識(shí)別停車標(biāo)志,下一步它需要決定何時(shí)剎車。太早或太晚剎車都十分危險(xiǎn),我們要讓汽車能處理不同的道路狀況(例如,識(shí)別汽車沒有及時(shí)減速的易滑道路),這是一個(gè)控制理論問(wèn)題。
數(shù)據(jù)科學(xué):在道路測(cè)試中,我們發(fā)現(xiàn)汽車的表現(xiàn)不夠好,出現(xiàn)了一些漏識(shí)別的情況——在遇到停車標(biāo)志時(shí)沒有停車。在分析了道路測(cè)試數(shù)據(jù)之后,我們發(fā)現(xiàn)汽車漏識(shí)別的概率取決于一天當(dāng)中的時(shí)段:汽車在日出之前和日出之后錯(cuò)過(guò)停車標(biāo)志的概率更高。我們意識(shí)到,我們使用的大部分?jǐn)?shù)據(jù)只包括大白天當(dāng)中的目標(biāo)。為此,我們構(gòu)建了一個(gè)包含夜晚圖像的數(shù)據(jù)集,重新完成機(jī)器學(xué)習(xí)步驟。
結(jié)語(yǔ)
人們常常將AI與通用AI混為一談,后者可以執(zhí)行不同領(lǐng)域的任務(wù),甚至是超越人類智能的超智能AI。這樣做會(huì)讓人們對(duì)被稱為是“AI”的系統(tǒng)產(chǎn)生不實(shí)際的預(yù)期。
文中提到的“自動(dòng)程序”是指可以翻譯自然語(yǔ)言并用自然語(yǔ)言回應(yīng)的系統(tǒng)。這種系統(tǒng)和文本挖掘不同,后者的目標(biāo)是得出結(jié)論(數(shù)據(jù)科學(xué)),或通過(guò)分類文本來(lái)分類文件(機(jī)器學(xué)習(xí))。
作者 | David Robinson
原文鏈接 | http://varianceexplained.org/r/ds-ml-ai/
精彩預(yù)告
2018年1月16日“AI生態(tài)賦能2018論壇暨CSDN AI新戰(zhàn)略發(fā)布會(huì)”即將重磅開啟!
國(guó)內(nèi)權(quán)威專家/名企CTO/CIO/精英大伽齊聚,各路高手全方位多視角共話AI時(shí)代。更有《2017-2018 AI行業(yè)應(yīng)用&技術(shù)人才成長(zhǎng)路線圖》重磅發(fā)布。席位有限,即刻掃碼獲得參會(huì)資格!
聯(lián)系客服