銅靈 編譯整理
量子位 出品 | 公眾號(hào) QbitAI
誰說理解機(jī)器學(xué)習(xí)必須要熟讀高數(shù)?
近日,數(shù)據(jù)科學(xué)Kyle在Medium發(fā)布博客表示,理解機(jī)器學(xué)習(xí)在做的事情,有初中數(shù)學(xué)知識(shí)足矣。
這篇博客簡(jiǎn)潔易懂、幽默風(fēng)趣,在Medium上幾天內(nèi)獲得600多贊。量子位將文章翻譯整理如下,與大家分享:
當(dāng)下理解我們?nèi)斯ぶ悄艿姆绞酵ǔ1容^極端,要么通過媒體,越來越聳人聽聞的觀點(diǎn)讓人難以想象。要么通過文獻(xiàn),充滿晦澀語言和特定術(shù)語的論文讓人難以理解。
理解AI的正確姿勢(shì)應(yīng)該在兩個(gè)極端之間,這就需要你在新聞或文獻(xiàn)之外理性判斷,對(duì)于一般人來說,至少應(yīng)該知道AI是什么。
這幾乎是沒有門檻的,我認(rèn)為理解AI,中學(xué)數(shù)學(xué)知識(shí)就足夠了。這篇文章我將簡(jiǎn)化人工智能中的數(shù)學(xué),帶你撥開云霧看本質(zhì)。
能模仿人類的智慧,這是最具代表性的AI的定義。
AI可以有多重“形態(tài)”,從虛擬游戲里的機(jī)器人、谷歌DeepMind開發(fā)的下圍棋程序AlphaGo,到現(xiàn)實(shí)世界里索菲亞這樣的人型機(jī)器人,這都是AI“寄生”的場(chǎng)所。
那AI和相關(guān)報(bào)道中經(jīng)常提到的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是什么關(guān)系,請(qǐng)看下面這張圖:
人工智能(AI):泛指任何可以讓計(jì)算機(jī)模擬人類智慧的技術(shù),可以通過邏輯、if-then等規(guī)則、決策樹和機(jī)器學(xué)習(xí)(包括深度學(xué)習(xí))等方法實(shí)現(xiàn)。
機(jī)器學(xué)習(xí):AI的一個(gè)子分類,讓機(jī)器通過真實(shí)世界的數(shù)據(jù)去“學(xué)習(xí)”,而非單調(diào)執(zhí)行預(yù)先設(shè)定的規(guī)則。
深度學(xué)習(xí):機(jī)器學(xué)習(xí)的子類,包含一系列算法。機(jī)器通過多層神經(jīng)網(wǎng)絡(luò)去處理數(shù)據(jù),自己學(xué)習(xí)去執(zhí)行任務(wù)。在語言和圖像識(shí)別等任務(wù)中經(jīng)??吹?。
發(fā)現(xiàn)了么,機(jī)器學(xué)習(xí)的最大特色之一,就是它的“學(xué)習(xí)”方式不同了。這里的“學(xué)習(xí)”,其實(shí)也沒有看起來那樣有未來感,你在初中可能就已經(jīng)接觸過了。
如果你看過《黑鏡》里類似的橋段,就比較容易將現(xiàn)在AI可視化成一個(gè)有意識(shí)的實(shí)體,一個(gè)有思想、感覺、可以做出復(fù)雜決策的物體。
在媒體的報(bào)道中這種觀念更為普遍,甚至經(jīng)常會(huì)把AI人格化,然后將其與電影《終結(jié)者》里的天網(wǎng)(Skynet)和《黑客帝國(guó)》里的Matrix相提并論。
實(shí)際上這都不是真的。在現(xiàn)階段AI就是數(shù)學(xué)。有時(shí)是高難度的數(shù)學(xué),有時(shí)需要擴(kuò)展到計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等其他領(lǐng)域的知識(shí)。但AI的核心是一種數(shù)學(xué)函數(shù)。
也就是說,機(jī)器學(xué)習(xí)可以從y=mx+b這個(gè)方程式來理解。如下圖所示,我們已經(jīng)知道了x值y值,此時(shí)需要讓一臺(tái)計(jì)算機(jī)通過輸入(x)和輸出(y)去思考兩者之間的關(guān)系,推斷出m和b的值。
這個(gè)公式推斷起來不難吧,y=1x+1,小學(xué)生也會(huì)做。就是這樣,我們創(chuàng)造一個(gè)公式來描述所給的數(shù)據(jù),這大體上也是機(jī)器學(xué)習(xí)在做的事情。
這之間最有趣的部分就是,怎樣教機(jī)器選擇最適合這些數(shù)據(jù)的公式。一旦找到這其中的關(guān)聯(lián),你還可以將它用圖表的形式表現(xiàn)出來。
y=1x+1是個(gè)非常簡(jiǎn)單的例子,我們需要機(jī)器學(xué)習(xí)最主要的原因是,人類無法在數(shù)百萬量級(jí)的數(shù)據(jù)點(diǎn)中找到合適的公式,這就是計(jì)算機(jī)要去做的事了。
無論如何,必須有足夠多的數(shù)據(jù)才能找到正確的公式。如果我們僅僅有x=1和y=2兩個(gè)數(shù)據(jù)點(diǎn),輸出的函數(shù)也是千變?nèi)f化的,可能是y=2x,可能是y=x+1,,也可能是y=([x+1]*5–9)? + 1等等。
根據(jù)少量數(shù)據(jù)構(gòu)建公式,然后把它用到更多數(shù)據(jù)上,這個(gè)公式可能會(huì)出現(xiàn)大量錯(cuò)誤。
并且,現(xiàn)實(shí)世界總不可能一直這么完美。在下面這個(gè)動(dòng)圖中可以看到,機(jī)器會(huì)在一堆數(shù)據(jù)中進(jìn)行取舍,探索怎樣最大化去滿足這些數(shù)據(jù),進(jìn)而才去創(chuàng)造公式。
和數(shù)學(xué)課上那些規(guī)律輸入和輸出值不同,真實(shí)世界的數(shù)據(jù)更不可預(yù)測(cè),也更“參差不齊”。
△ 最佳公式
當(dāng)面對(duì)一堆變量時(shí),人類找出合適公式的可能性更小了。只有x和y很容易,但如果y受x的1次方、2次方、100次方的影響呢?
人類就hold不住了,但計(jì)算機(jī)可以。
來看一個(gè)現(xiàn)實(shí)生活中的例子。我在制藥領(lǐng)域工作,就舉個(gè)癌癥相關(guān)數(shù)據(jù)集的例子好了。
這個(gè)數(shù)據(jù)集中有兩個(gè)關(guān)于腫瘤大小的輸入變量,即半徑和周長(zhǎng),以及兩個(gè)潛在的輸出,即良性腫瘤和惡性腫瘤。用我們上述思路來考慮,這事就是這樣的:
y:診斷結(jié)果,可以是0(良性)或1(惡性)
x1:半徑
x2:周長(zhǎng)
每個(gè)x都有一個(gè)位置的m,先稱之為“某數(shù)”吧
b:依然是一個(gè)未知數(shù)
那么這個(gè)線性方程長(zhǎng)什么樣?其實(shí)和上面的例子也沒什么太大區(qū)別:
診斷結(jié)果=(某數(shù)1×半徑)+(某數(shù)2×周長(zhǎng))+b
這樣看來,這道題已經(jīng)脫離了人類能力的范圍了,所以不用費(fèi)時(shí)間去找這么多變量與結(jié)果的關(guān)系了,我們可以讓機(jī)器去做,這之間就是機(jī)器學(xué)習(xí)!
博客原文地址:
https://medium.com/s/story/machine-learning-for-anyone-who-took-math-in-8th-grade-60fa9198b5eb
— 完 —
聯(lián)系客服