国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
機(jī)器學(xué)習(xí)必備的數(shù)學(xué)基礎(chǔ)有哪些?



大家好,我是王天一。我是北京郵電大學(xué)博士畢業(yè),目前在貴州大學(xué)大數(shù)據(jù)信息工程學(xué)院任教,同時(shí)也是咱們極客時(shí)間《人工智能基礎(chǔ)課》這個(gè)專欄的作者。

今天我們分享的內(nèi)容,主要是關(guān)于機(jī)器學(xué)習(xí)中的基礎(chǔ)數(shù)學(xué),包括以下四個(gè)部分。

第一,我們關(guān)注的是機(jī)器學(xué)習(xí)當(dāng)中會用到哪些基礎(chǔ)數(shù)學(xué)。

第二,這些數(shù)學(xué)在機(jī)器學(xué)習(xí),或者說在人工智能這個(gè)大環(huán)境下都能起到一些什么樣的作用。

第三,有了這個(gè)學(xué)科,有了數(shù)學(xué),分析了它的作用之后,我們需要把它掌握到一個(gè)什么樣的程度。

最后,簡單地介紹一下,如何在短時(shí)間內(nèi),能盡快高效率地掌握。

1 機(jī)器學(xué)習(xí)會用到哪些數(shù)學(xué)基礎(chǔ)

第一部分,我們先來看一看機(jī)器學(xué)習(xí)需要哪些數(shù)學(xué)的基礎(chǔ)。我們可以先引用一個(gè)專家的定義。這個(gè)專家是來自美國華盛頓大學(xué)的佩羅·多明戈斯。這也是人工智能領(lǐng)域的一個(gè)老兵。他對于機(jī)器學(xué)習(xí)給出了這樣一個(gè)定義,機(jī)器學(xué)習(xí)是由三個(gè)部分組成,分別是表示、評價(jià),還有優(yōu)化。這樣的三個(gè)步驟,實(shí)際上也就對應(yīng)著在機(jī)器學(xué)習(xí)當(dāng)中所需要的數(shù)學(xué)。

機(jī)器學(xué)習(xí)三部曲
表示

在表示這一步當(dāng)中,我們需要建立起數(shù)據(jù),還有實(shí)際問題的抽象模型。所以,這里面就包括了兩個(gè)方面,一方面我們要對要解決的這個(gè)實(shí)際的問題進(jìn)行抽象化處理。比方說我們要設(shè)計(jì)一個(gè)算法,判斷一個(gè)郵件它到底是不是一封垃圾郵件,那么得到的結(jié)果無外乎兩種,要么是,要么不是。這樣一個(gè)問題如果對它做抽象,實(shí)際上就是個(gè)二分分類問題。是,我們可以把它定義成 0,不是,可以把它定義成 1。所以,這個(gè)問題最終要解決的是什么呢?輸出一個(gè) 0 或者 1 的結(jié)果。當(dāng)然把 0 和 1 的意義調(diào)過來也可以,用 1 代表是垃圾郵件,0 代表不是,也是可以的。所以,在表示的過程當(dāng)中,我們要解決的問題就是把我們面臨的真實(shí)世界當(dāng)中的一些物理問題給它抽象化,抽象成一個(gè)數(shù)學(xué)問題。抽象出來這個(gè)數(shù)學(xué)問題之后,我們要進(jìn)一步去解決它,還要對這個(gè)數(shù)據(jù)進(jìn)行表示。

對于問題抽象完了以后,我們還要對數(shù)據(jù)進(jìn)行抽象。在判定這個(gè)郵件到底是不是垃圾郵件的時(shí)候,我們要怎么判斷呢?要根據(jù)它的特征進(jìn)行判斷,看一看這個(gè)郵件里的關(guān)健字是否有關(guān)于推銷的,或者關(guān)于產(chǎn)品的一些關(guān)鍵字。這些特征,這些關(guān)鍵字,我們就要把它表示成一個(gè)特征,表示成一個(gè)向量,或者表示成其他的形式。表示成向量也好,表示成其他形式也好,都是對這個(gè)數(shù)據(jù)做出了抽象。

在表示階段,我們需要建立的是數(shù)據(jù),還有問題的抽象模型。把這個(gè)模型建立出來,然后去尋找合理的算法。

  • K- 近鄰算法 。在機(jī)器學(xué)習(xí)當(dāng)中,我們常見的有 K- 近鄰算法。K- 近鄰算法在我們的專欄中沒有提到,因?yàn)樗唵瘟恕K鼘?shí)際上就是,找到一個(gè)樣本點(diǎn)和這個(gè)樣本點(diǎn)最近的幾個(gè)鄰居,最近的這 K 個(gè)鄰居。按照少數(shù)服從多數(shù)的原則,對它進(jìn)行分類,這就是 K- 近鄰算法。

  • 回歸模型 。除此之外,還有線性回歸,這樣的統(tǒng)計(jì)學(xué)習(xí)方法。我建立一個(gè)線性回歸模型,當(dāng)然,對二分類我們可以建立邏輯回歸模型。

  • 決策樹 。還有像決策樹這樣的方法。決策樹它不依賴于數(shù)據(jù),它完全是自頂向下的一個(gè)設(shè)計(jì)。線性回歸也好,邏輯回歸也好,它是從數(shù)據(jù)反過來去推導(dǎo)模型,而決策樹直接去用模型判定數(shù)據(jù),兩個(gè)方向不太一樣。

  • SVM 支持向量機(jī) 。最后,還有 SVM 支持向量機(jī)這樣的純數(shù)學(xué)方法。所以說表示的部分,我們需要把問題和數(shù)據(jù)進(jìn)行抽象,這個(gè)時(shí)候我們就要用到抽象的工具。

評價(jià)

給定了模型之后,我們?nèi)绾卧u價(jià)這個(gè)模型的好壞呢?這個(gè)時(shí)候就需要設(shè)定一個(gè)目標(biāo)函數(shù),來評價(jià)這個(gè)模型的性質(zhì)。

設(shè)定目標(biāo)函數(shù)

目標(biāo)函數(shù)的選取也可以有多種形式。像對于我們說到的垃圾郵件這種問題,我們可以定義一個(gè)錯(cuò)誤率。比方說一個(gè)郵件它原本不是垃圾郵件,但是我這個(gè)算法誤判成了垃圾郵件,這就是一個(gè)錯(cuò)例。所以呢,錯(cuò)誤率在分類問題當(dāng)中是個(gè)常用的指標(biāo),或者說常用的目標(biāo)函數(shù)。

最小均方誤差和最大后驗(yàn)概率

那么在回歸當(dāng)中呢,我們會使用最小均方誤差這樣一個(gè)常用目標(biāo)函數(shù),尤其是在線性回歸里。除此之外呢,還有最大后驗(yàn)概率,一些其他的指標(biāo)。

優(yōu)化

有了目標(biāo)函數(shù)以后,我們要求解這個(gè)目標(biāo)函數(shù)在模型之下的一個(gè)最優(yōu)解,這個(gè)模型能夠獲取到的最小錯(cuò)誤率,或者最小均方誤差是多少呢?我們要求出一個(gè)特定的值。沒有這個(gè)值的話,你如何評價(jià)不同的模型它到底是好是壞呢?所以說優(yōu)化這個(gè)步驟它的作用是求解目標(biāo)函數(shù)在模型之下的一個(gè)最優(yōu)解,看看這個(gè)模型在解決這個(gè)問題的時(shí)候,最好能達(dá)到什么樣的程度。

總結(jié)來說,多明戈斯教授總結(jié)到的機(jī)器學(xué)習(xí)的三個(gè)步驟,包括了表示、評價(jià)、優(yōu)化這樣三個(gè)步驟,在這三個(gè)步驟當(dāng)中我們會用到不同的數(shù)學(xué)公式來分別解決這三個(gè)問題。

三種數(shù)學(xué)工具
線性代數(shù)

在這三個(gè)步驟中,應(yīng)用了三種不同的工具。在表示這個(gè)步驟當(dāng)中,我們主要使用的工具是什么呢?就是線性代數(shù)。線性代數(shù)呢,我們在這個(gè)專欄里面也提到,它起到的一個(gè)最主要的作用就是把具體的事物轉(zhuǎn)化成抽象的數(shù)學(xué)模型。不管你的世界當(dāng)中有多么紛繁復(fù)雜,我們都可以把它轉(zhuǎn)化成一個(gè)向量,或者一個(gè)矩陣的形式。這就是線性代數(shù)最主要的作用。

所以,在線性代數(shù)解決表示這個(gè)問題的過程中,我們主要包括這樣兩個(gè)部分,一方面是線性空間理論,也就是我們說的向量、矩陣、變換這樣一些問題。第二個(gè)是矩陣分析。給定一個(gè)矩陣,我們可以對它做所謂的 SVD(singular value decomposition)分解,也就是做奇異值分解,或者是做其他的一些分析。這樣兩個(gè)部分共同構(gòu)成了我們機(jī)器學(xué)習(xí)當(dāng)中所需要的線性代數(shù),當(dāng)然了,這兩者也是各有側(cè)重。線性空間的話,我們主要應(yīng)用在一些解決理論問題當(dāng)中,矩陣分析在理論當(dāng)中有使用,在實(shí)踐當(dāng)中也有一些使用。

概率統(tǒng)計(jì)

我們說到,線性代數(shù)起作用是在表示的過程當(dāng)中。在評價(jià)過程中,我們需要使用到概率統(tǒng)計(jì)。概率統(tǒng)計(jì)包括了兩個(gè)方面,一方面是數(shù)理統(tǒng)計(jì),另外一方面是概率論。

數(shù)理統(tǒng)計(jì)好理解,我們機(jī)器學(xué)習(xí)當(dāng)中應(yīng)用的很多模型都是來源于數(shù)理統(tǒng)計(jì)。比方說最簡單的線性回歸,還有邏輯回歸,它實(shí)際上都是來源于統(tǒng)計(jì)學(xué)。在具體地給定了目標(biāo)函數(shù)之后,我們在實(shí)際地去評價(jià)這個(gè)目標(biāo)函數(shù)的時(shí)候,我們會用到一些概率論。比方說給定了一個(gè)分布,我要求解這個(gè)目標(biāo)函數(shù)的期望值。在平均意義上,這個(gè)目標(biāo)函數(shù)能達(dá)到什么程度呢?這個(gè)時(shí)候就需要使用到概率論。所以說在評價(jià)這個(gè)過程中,我們會主要應(yīng)用到概率統(tǒng)計(jì)的一些知識。

實(shí)際上對于數(shù)理統(tǒng)計(jì)來說,我們在評價(jià)模型的時(shí)候,不只關(guān)注的是一個(gè)目標(biāo)函數(shù),我們可能還關(guān)注一些它的統(tǒng)計(jì)特性。比如說它的置信度,或者是其他的一些指標(biāo)。你這個(gè)模型建立起來,它的可信性程度到底有多大,這些在早期的機(jī)器學(xué)習(xí)算法當(dāng)中也是需要考慮的。當(dāng)然隨著神經(jīng)網(wǎng)絡(luò),隨著深度學(xué)習(xí)的興起,這部分內(nèi)容實(shí)際上漸漸地衰落,或者漸漸地被忽略。你在神經(jīng)網(wǎng)絡(luò)當(dāng)中可能只需要達(dá)到一個(gè)這個(gè)好的目標(biāo)函數(shù),好的指標(biāo)就行,至于說它的置信度,這些我們不去考慮。

所以說,這也是深度學(xué)習(xí)不太受學(xué)數(shù)學(xué),或者說學(xué)統(tǒng)計(jì)學(xué)的人待見的一個(gè)原因。因?yàn)榻y(tǒng)計(jì)學(xué)強(qiáng)調(diào)什么呢?強(qiáng)調(diào)可解釋性,你這個(gè)模型能夠達(dá)到什么樣的指標(biāo),我們能把它清清楚楚地講明白,為什么能夠達(dá)到這樣的指標(biāo),它的原理在哪?它背后的根據(jù)在哪?我給定一個(gè)分布,假如說高斯分布,那么再給定一個(gè)模型,我就可以通過嚴(yán)謹(jǐn)而簡潔的這個(gè)數(shù)學(xué)推導(dǎo),把這個(gè)結(jié)果以公式的形式給它呈現(xiàn)出來,這個(gè)看起來就很高大上,或者說很清楚。但神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí),現(xiàn)在還達(dá)不到這樣可解釋的程度。所以說現(xiàn)在也有人批評,說深度學(xué)習(xí)是煉金術(shù),主要的原因在這里。我只能夠通過調(diào)參數(shù)調(diào)出一個(gè)比較好的結(jié)果,但是到底這個(gè)結(jié)果為什么會出現(xiàn)?哪些因素會影響到它?可能還不是那么清晰。所以呢,關(guān)于概率統(tǒng)計(jì),我們主要應(yīng)用在評價(jià)這個(gè)過程中。

最優(yōu)化理論

關(guān)于優(yōu)化,就不用說了,我們肯定用到的是最優(yōu)化理論。在最優(yōu)化理論當(dāng)中,主要的研究方向是凸優(yōu)化。

凸優(yōu)化當(dāng)然它有些限制,但它的好處是什么呢?能夠簡化這個(gè)問題的解。因?yàn)樵趦?yōu)化當(dāng)中我們都知道,我們要求的是一個(gè)最大值,或者是最小值,但實(shí)際當(dāng)中我們可能會遇到一些局部的極大值,局部的極小值,還有鞍點(diǎn)這樣的點(diǎn)。凸優(yōu)化可以避免這個(gè)問題。在凸優(yōu)化當(dāng)中,極大值就是最大值,極小值也就是最小值。

但在實(shí)際當(dāng)中,尤其是引入了神經(jīng)網(wǎng)絡(luò)還有深度學(xué)習(xí)之后,凸優(yōu)化的應(yīng)用范圍越來越窄,很多情況下它不再適用,所以這里面我們主要用到的是無約束優(yōu)化。我在整個(gè)范圍之內(nèi),我對參數(shù),對輸入并沒有限定。在整個(gè)的輸入范圍內(nèi)去求解,不設(shè)置額外的約束條件。同時(shí),在神經(jīng)網(wǎng)絡(luò)當(dāng)中應(yīng)用最廣的一個(gè)算法,一個(gè)優(yōu)化方法,就是反向傳播。

三種數(shù)學(xué)工具和三個(gè)步驟并非一一對應(yīng)

我們今天談?wù)撨@個(gè)機(jī)器學(xué)習(xí)當(dāng)中,用到的基礎(chǔ)數(shù)學(xué)都包括哪些呢?包括這三種,線性代數(shù),概率統(tǒng)計(jì),還有最優(yōu)化理論。這是我們在機(jī)器學(xué)習(xí)當(dāng)中用到的最基礎(chǔ)的一些數(shù)學(xué)工具。如果大概做一個(gè)分類,分別對應(yīng)到我們機(jī)器學(xué)習(xí)當(dāng)中,表示、評價(jià),還有優(yōu)化這樣三個(gè)步驟。

當(dāng)然,這種應(yīng)用它也并不是說一一對應(yīng)的關(guān)系。在表示當(dāng)中我只用到線性代數(shù),概率統(tǒng)計(jì)一點(diǎn)兒都不涉及,同樣地,我在評價(jià)的時(shí)候,線性代數(shù)也不涉及,不是這樣,都會有一個(gè)交叉的過程,但是在每個(gè)步驟當(dāng)中應(yīng)用到的主要工具還是有所區(qū)別。

高等數(shù)學(xué)是數(shù)學(xué)工具的基礎(chǔ)

當(dāng)然,在數(shù)學(xué)工具當(dāng)中,我們并沒有涉及到高等數(shù)學(xué),高等數(shù)學(xué)我們就把它當(dāng)作一個(gè)基礎(chǔ),一個(gè)基礎(chǔ)中的基礎(chǔ)。不光是人工智能,或者說機(jī)器學(xué)習(xí),只要有數(shù)學(xué)參與的地方,我們都需要有高等數(shù)學(xué)的這個(gè)基礎(chǔ)。那么具體到機(jī)器學(xué)習(xí)當(dāng)中,我們在高等數(shù)學(xué)這一塊兒用到的比較多的,可能包括求導(dǎo),微分,這樣的一些內(nèi)容。當(dāng)然還有這個(gè)積分,我們在求解這個(gè)目標(biāo)函數(shù)的期望值的時(shí)候可能也會遇到。

所以到這呢,我們就說,我們介紹了機(jī)器學(xué)習(xí)當(dāng)中用到了哪些數(shù)學(xué)。主要就是這三塊,線性代數(shù),概率統(tǒng)計(jì),還有最優(yōu)化,那么任何復(fù)雜的算法實(shí)際上都是由這三者的結(jié)合疊加所構(gòu)造出來的,那么這三者在機(jī)器學(xué)習(xí)當(dāng)中他們起到的作用分別是什么呢?我們可以具體地來看一看。

2 三種數(shù)學(xué)工具在機(jī)器學(xué)習(xí)中的作用
線性代數(shù)
將具體事物抽象為數(shù)學(xué)對象

對于線性代數(shù)來說,我們可以對它做一個(gè)簡單的定義。所謂線性代數(shù)是什么?就是數(shù)量和結(jié)構(gòu)的一個(gè)組合,也就是說,線性代數(shù)等于數(shù)量加上結(jié)構(gòu)。本身數(shù)量呢,它是一個(gè)單獨(dú)的數(shù)。對于單個(gè)的數(shù)我們沒有結(jié)構(gòu)可言,對于單個(gè)的對象沒有結(jié)構(gòu)可言。但是當(dāng)我們把一組數(shù),或者一堆數(shù)排列到一塊兒的時(shí)候,這個(gè)排列不是隨機(jī)的排列,而是有一定的順序進(jìn)行排列的時(shí)候,這個(gè)時(shí)候,數(shù)目之間的順序或者數(shù)量之間的順序就形成了一種結(jié)構(gòu),這個(gè)結(jié)構(gòu)就可以蘊(yùn)含一定的信息,能夠供我們?nèi)ナ褂谩?/p>

除了順序之外,結(jié)構(gòu)還有另外一層含義。我可以對數(shù)量定義一些運(yùn)算。在線性空間里面我們提到,基本的運(yùn)算包括什么呢?包括加法,包括數(shù)乘,這樣一些運(yùn)算。有了運(yùn)算之后,我們就可以對不同的對象,單個(gè)的數(shù)目放在一塊兒,按照一定的順序排列在一起,我們可以把它組成一個(gè)向量,組成這樣一個(gè)對象。那么有了加法,數(shù)乘這樣一些運(yùn)算之后,你就可以對這個(gè)對象再來進(jìn)行一些操作。這樣的話,就實(shí)現(xiàn)了把具體事物給它抽象成數(shù)學(xué)對象,這樣的一個(gè)過程。這就是線性代數(shù)最主要的一個(gè)作用。當(dāng)然不光是在機(jī)器學(xué)習(xí)里面,在其他應(yīng)用到線性代數(shù)的場合也是一樣:把具體的事物抽象成為數(shù)學(xué)對象。

提升大規(guī)模運(yùn)算的效率

當(dāng)然除此之外呢,它還有另外一個(gè)優(yōu)勢,線性代數(shù)還有另外一個(gè)作用,就是能夠提升大規(guī)模運(yùn)算的效率。因?yàn)樵诂F(xiàn)代的機(jī)器學(xué)習(xí)當(dāng)中,我們要處理的數(shù)據(jù)都是海量的數(shù)據(jù),數(shù)據(jù)的數(shù)量是呈指數(shù)形式的增長。我們要處理的數(shù)據(jù)越來越多,如果只是簡單地說,用最傳統(tǒng)的方法,用一個(gè)一個(gè)的 for 循環(huán)去處理高維的矩陣,它的效率肯定是相當(dāng)?shù)拖隆S辛司€性代數(shù)之后,我們可以把矩陣的運(yùn)算引入到機(jī)器學(xué)習(xí)的算法當(dāng)中,通過一些額外的庫,或者一些額外的軟件包,提升大規(guī)模運(yùn)算的效率。這里面最直觀的一個(gè)例子就是 MATLAB 軟件。MATLAB 軟件本身名字叫矩陣實(shí)驗(yàn)室。它的特點(diǎn),或者說它的賣點(diǎn)就在于,對矩陣,或者說對向量它操作的高效率。

所以說呢,線性代數(shù),我們把它總結(jié)一下,它就等于數(shù)量和結(jié)構(gòu)的組合。它的作用,一方面可以把具體的事物抽象成數(shù)學(xué)對象,另外一方面,可以提升大規(guī)模運(yùn)算的效率。

概率統(tǒng)計(jì)
利用數(shù)據(jù)學(xué)習(xí)模型

如果我們說,線性代數(shù)可以看成是數(shù)量還有結(jié)構(gòu)的組合的話,那么概率統(tǒng)計(jì)就可以看成是模型還有數(shù)據(jù)的組合。

那么模型和數(shù)據(jù)組合在一塊,實(shí)際上是雙向的處理。我們機(jī)器學(xué)習(xí)有學(xué)習(xí)的階段,我們要利用這個(gè)數(shù)據(jù)去訓(xùn)練這個(gè)模型,這個(gè)階段,我們是用數(shù)據(jù)去學(xué)習(xí)這個(gè)模型。在模型里面,我們就可以去選擇。有那么多的模型,像我們剛才說到的,有 K- 近鄰的模型,有回歸模型,有決策樹,還有支持向量機(jī),這樣不同的模型。我訓(xùn)練的任務(wù)就是用數(shù)據(jù)來學(xué)習(xí)這些模型,來確定這個(gè)模型的參數(shù),最終得到一個(gè)確定的模型。這就可以看成什么呢?看成是在給定數(shù)據(jù)的情況下,我來求解這個(gè)參數(shù),它的條件概率。給定的數(shù)據(jù),如果有一部分參數(shù)的條件概率是最大的,那么就選擇這部分參數(shù),作為我這個(gè)模型的參數(shù)。實(shí)際上,訓(xùn)練過程解決的就是這樣一個(gè)問題。

當(dāng)然具體來說,包括生成模型,包括判別模型,那么生成模型我們求解的是輸入輸出的一個(gè)聯(lián)合概率分布,那么判別模型是一個(gè)條件概率分布。但不管怎么樣,很多情況下,我們關(guān)注的目標(biāo)都是分布,那么利用數(shù)據(jù)進(jìn)行訓(xùn)練的過程也就是學(xué)習(xí)這個(gè)分布的過程。

利用模型推斷數(shù)據(jù)

接下來呢,在訓(xùn)練結(jié)束之后,我們要這個(gè)模型要來干什么呢?要進(jìn)行預(yù)測,也就是說,利用這個(gè)模型來進(jìn)行數(shù)據(jù)的推斷。給定這個(gè)模型,我給到一個(gè)輸入,我輸入可能是一個(gè)特征,一些特征的組合,形成一個(gè)向量。我把這個(gè)輸入的向量代入到模型當(dāng)中,就可以求出一個(gè)結(jié)果,當(dāng)然也可能是多個(gè)結(jié)果。我取這個(gè)概率最大的結(jié)果作為一個(gè)輸出,這個(gè)過程就是反過來利用模型去推斷數(shù)據(jù)的一個(gè)過程。所以我們說,概率統(tǒng)計(jì)等于模型和數(shù)據(jù)的一個(gè)組合,這個(gè)組合是雙向的。在學(xué)習(xí)階段,我們利用數(shù)據(jù)來訓(xùn)練模型,在預(yù)測階段,我們利用模型反過來去推斷這個(gè)數(shù)據(jù)。

所以,在概率統(tǒng)計(jì)這一塊,我們關(guān)注的是模型的使用,還有概率的求解。當(dāng)然兩者不是完全區(qū)別開的,是相互融合的。在建立模型的時(shí)候,我們會利用到一些先驗(yàn)概率分布。在求解目標(biāo)函數(shù)的時(shí)候,我們也會涉及求解數(shù)學(xué)期望這樣一些操作。這里面我們也給出了一個(gè)實(shí)例,就是回歸分析還有機(jī)器學(xué)習(xí)方法的比較。

最優(yōu)化理論

概率統(tǒng)計(jì)呢,我們可以把它解釋成這個(gè)模型和數(shù)據(jù)的一個(gè)組合,那么最優(yōu)化的話,就可以看成是目標(biāo)和約束的一個(gè)組合。在這里面,我們最優(yōu)化的目標(biāo)是什么呢?是求解,讓這個(gè)期望函數(shù),或者讓目標(biāo)函數(shù)取到最值的解,手段是什么呢?就是通過調(diào)整模型的參數(shù)來實(shí)現(xiàn),為什么要調(diào)整這個(gè)模型的參數(shù)?因?yàn)楹芏鄷r(shí)候,我們想求解到這個(gè)解析解是求不出來的。在很多復(fù)雜的問題當(dāng)中呢,這個(gè)解析解是沒有辦法求出來的。對于線性回歸來說,我們可以求解出 Beta 的一個(gè)表達(dá)式,那樣一個(gè)矩陣相乘,求逆,再進(jìn)行相乘的一個(gè)表達(dá)式。很多時(shí)候,這個(gè)解析解我們求不到,求不到怎么辦?就只能一點(diǎn)一點(diǎn)去試,一步一步去找,我要的最小值或者最大值,它到底在哪?這個(gè)時(shí)候就會用到我們最優(yōu)化的方法,包括梯度下降,包括其他的一些方法。

在使用這些方法的時(shí)候,我們要注意調(diào)整一些參數(shù)。一方面是模型的參數(shù),另外一方面還有所謂的超參數(shù)。

調(diào)整模型參數(shù),一方面,它的作用讓我們找到真正的最小值,或者找到真正的最大值。另外一方面,避免在尋找的過程中把最小值,或者最大值,本來你是能找到的,但是這個(gè)超參數(shù)沒有設(shè)計(jì)好,比如說我的步長、速率沒有設(shè)計(jì)好,把這個(gè)點(diǎn)錯(cuò)過,要避免這樣一些問題。所以說對于最優(yōu)化而言,我們可以把它看成是目標(biāo),還有參數(shù)的一個(gè)組合,通過這兩者來找到我們想要的合適的點(diǎn)。

3 需要掌握到什么程度?

剛才呢,我們結(jié)合這些實(shí)例,解釋了線性代數(shù),概率論,概率學(xué)統(tǒng)計(jì),還有最優(yōu)化,在機(jī)器學(xué)習(xí)當(dāng)中的一些作用。接下來我們來看一看,需要掌握到什么程度。需要掌握到什么程度呢?實(shí)際上,應(yīng)該說是一個(gè)見仁見智的問題。當(dāng)然理想的情況肯定是掌握得越多越好,最好你能把所有的數(shù)學(xué)都掌握到,不光是我們提到的這些,甚至更加高級的你都會,這是最好的效果。當(dāng)然在實(shí)際當(dāng)中,我們不可能,沒有那么多精力去專門地鉆研到這個(gè)數(shù)學(xué)當(dāng)中,所以說這種理想的情況也是不存在的。那么具體來說,掌握到什么程度呢?

機(jī)器學(xué)習(xí)的三重境界
能使用:利用已知方法解決問題

我在這里列出來了三個(gè)階段。第一個(gè)階段呢,我管它叫做能使用。也就是說,給定一個(gè)模型,我能夠用它來根據(jù)給定的輸入來求解輸出,也就是利用已知的方法來解決問題。那么這個(gè)已知的方法,我可以把它看成一個(gè)黑箱子,我不關(guān)注這個(gè)過程,不關(guān)注這個(gè)方法是如何解決問題,只要能夠解決問題就行。可能已經(jīng)有了一個(gè)算法,那么我只需要對數(shù)據(jù)做一些處理,把這個(gè)數(shù)據(jù)送入到算法當(dāng)中,得到一個(gè)輸出,我能看明白這個(gè)輸出是怎么回事,這就可以。這是能使用的階段,我只是做一個(gè)算法的使用者,我能把它用清楚就夠了。

能看懂:理解已知方法的工作原理

如果在能使用的基礎(chǔ)上再進(jìn)一步,那么就是能看懂,我不光用這個(gè)已知的方法來解決問題,同時(shí)我還能夠理解這個(gè)方法的工作原理。知其然,還能知其所以然。能使用就是知其然,能看懂就是知其所以然。那么這個(gè)方法可能背后有一些數(shù)學(xué)推導(dǎo),會涉及到一些概率,最優(yōu)化,還有線性代數(shù)的一些使用。那么這個(gè)能看懂,就要求你具備相關(guān)的知識,能夠把這個(gè)推導(dǎo)的過程給它順下來,知道這個(gè)方法具體是怎么來工作。

能設(shè)計(jì):根據(jù)問題特征開發(fā)新方法

如果在這個(gè)能看懂的基礎(chǔ)上,再進(jìn)一步的話,我們可以把它叫做能設(shè)計(jì)。我把已知方法理解之后,我還可以根據(jù)我的問題,根據(jù)我自己的實(shí)際問題的特點(diǎn),來開發(fā)一些新的方法。要么呢,可以對已知的方法我來做一些改進(jìn),使它更符合我自己的一個(gè)待解決問題的方法,或者說我開發(fā)一個(gè)完全新的方法,就是重新推導(dǎo),推倒重來,直接設(shè)計(jì)一個(gè)新的方法。那么很顯然,這個(gè)呢,對于數(shù)學(xué)功底就有更深層次的一個(gè)要求。

所以我們說對于數(shù)學(xué)的掌握程度包括這樣的三個(gè)層次,能使用,能看懂,還能設(shè)計(jì)。那么具體在實(shí)際當(dāng)中,你需要做到哪個(gè)程度,那么就要根據(jù)自己的實(shí)際情況來做出判斷。

如何盡快、高效率掌握數(shù)學(xué)知識?
掌握核心概念

在這方面,我給出的建議是,一方面是,我們要握核心概念,在線性代數(shù)當(dāng)中核心概念是什么?就是線性空間,向量矩陣以及對于向量矩陣的度量,包括范數(shù)、包括內(nèi)積這些,這些就是它的核心概念。那么在概率統(tǒng)計(jì)當(dāng)中,頻率學(xué)派,還有貝葉斯學(xué)派,他們兩者之間的區(qū)別是一個(gè)核心概念,同時(shí)呢,像期望方差這些指標(biāo),還有條件概率,這樣的一些概念,條件概率聯(lián)合概率這樣一些概念也是核心概念。那么在最優(yōu)化當(dāng)中,這些算法,這個(gè)梯度下降法,或者牛頓法,這就是核心概念。

以點(diǎn)帶面

在時(shí)間有限的情況下,我們一定要把有限的精力集中在重要的知識上。先把這些核心概念搞清楚,再通過這些核心的概念,來以點(diǎn)代面,從這些關(guān)鍵的問題去鋪開,慢慢地去接觸其他的問題。

問題導(dǎo)向

最后一點(diǎn)呢,我覺得,在學(xué)習(xí)的時(shí)候,我們可以以問題為導(dǎo)向,就是結(jié)合著我們實(shí)際的需求,結(jié)合我們實(shí)際的問題,來決定我們?nèi)W(xué)什么。這個(gè)呢,和我們前面所說到的這個(gè)掌握到什么程度也是一樣,掌握到什么程度也是相通的。因?yàn)楫吘刮覀儗W(xué)習(xí),機(jī)器學(xué)習(xí),學(xué)習(xí)機(jī)器學(xué)習(xí)當(dāng)中的數(shù)學(xué)都是為了解決問題。如果不能解決問題的話,你學(xué)到的這個(gè)東西的價(jià)值就沒有能夠解決問題的這個(gè)知識的價(jià)值大。當(dāng)然我們也不能說一點(diǎn)價(jià)值都沒有。在學(xué)習(xí)的時(shí)候,大家可以嘗試著以問題為導(dǎo)向。帶著問題去探索這些知識,帶著問題去學(xué)習(xí)知識,可能你會發(fā)現(xiàn),這樣會得到更高的效率。

4 推薦書目

推薦書目在我們專欄里面也有相應(yīng)的推送。在基礎(chǔ)數(shù)學(xué),基礎(chǔ)學(xué)習(xí),神經(jīng)網(wǎng)絡(luò),還有深度學(xué)習(xí),每個(gè)模塊我們結(jié)束之后都會推薦一些相關(guān)的書籍。但是在這里,我想要跟大家推薦的兩本書,都是關(guān)于機(jī)器學(xué)習(xí),或者說都是關(guān)于統(tǒng)計(jì)學(xué)習(xí),一本叫 An Introduction Statistical to Learning ,另一本叫 The Elements of Statistical Learning 。

兩本書的作者是同一撥人,有兩個(gè)共同的作者。它們講述的都是統(tǒng)計(jì)學(xué)習(xí),或者機(jī)器學(xué)習(xí)的方法。其中前一本可以看成是后一本的簡化版。它更通俗、更簡單一些,后面這個(gè)稍微有些難。為什么推薦這兩本呢?因?yàn)?strong>這兩本,它更深入的會挖掘方法背后的一些數(shù)學(xué)含義。我們能夠看到的教科書,它主要的作用是把這個(gè)方法講清楚。來了個(gè)方法,比如說線性回歸,怎么推導(dǎo),怎么區(qū)算,一大堆公式寫出來,那么給出一個(gè)推導(dǎo)的結(jié)果,或者說決策樹,或者其他的算法都一樣,可能到這里就結(jié)束了,我的任務(wù)就完成了。

這兩本書,它不光是介紹方法推導(dǎo),它可能更看中統(tǒng)計(jì)學(xué)上的意義。我們?yōu)槭裁匆@么做,我們設(shè)計(jì)這個(gè)方法在統(tǒng)計(jì)學(xué)上有什么意義。因?yàn)樽髡叨际墙y(tǒng)計(jì)學(xué)家,有幾十年的積淀,有幾十年的研究積淀,所以,相比于其他市面上教科書,我認(rèn)為他們兩個(gè) insight 可能更多一些。當(dāng)然了,大家看起來,也會有相應(yīng)的難度,可能并不是像我們平時(shí)的教科書那么簡單。這些書,我們一遍兩遍是讀不完的,如果真正要從事人工智能、機(jī)器學(xué)習(xí)這方面的工作的話,可能要多讀幾遍,每讀一遍也會有不同的收獲。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數(shù)學(xué)在機(jī)器學(xué)習(xí)中的角色
機(jī)器學(xué)習(xí)背后,你不能不知道的數(shù)學(xué)核心概念
數(shù)據(jù)科學(xué)中的6個(gè)基本算法,掌握它們要學(xué)習(xí)哪些知識
機(jī)器學(xué)習(xí)入門:4大基礎(chǔ)數(shù)學(xué)技能一覽
機(jī)器學(xué)習(xí)該怎樣入門
博客 | 機(jī)器學(xué)習(xí)中的數(shù)學(xué)基礎(chǔ)(概論)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服