https://m.toutiao.com/is/Jo6h3oG/
機器學(xué)習(xí)是一門多學(xué)科交叉專業(yè),涵蓋概率論知識,統(tǒng)計學(xué)知識,近似理論知識和復(fù)雜算法知識。簡單來說,機器學(xué)習(xí)涉及面很廣,數(shù)學(xué)知識和算法都非常重要,要學(xué)會機器學(xué)習(xí),必須要掌握數(shù)學(xué),那么有哪些數(shù)學(xué)技能是必須具備的呢?今天就來給大家說說。
在了解機器學(xué)習(xí)所需的4種數(shù)學(xué)技能之前,讓我們首先描述一下機器學(xué)習(xí)過程。機器學(xué)習(xí)過程包括4個主要階段:
1.問題框架:即你所要解決的問題類型,例如,將電子郵件分類為垃圾郵件或非垃圾郵件的模型,將腫瘤細胞分類為惡性腫瘤或良性腫瘤的模型,通過將電話分為不同類別來改善客戶體驗的模型,以及預(yù)測貸款是否會在貸款期限后沖銷,基于不同特征或預(yù)測因子預(yù)測房價的模型,等等。
2.數(shù)據(jù)分析:即處理可用于構(gòu)建模型的數(shù)據(jù)。它包括特征的數(shù)據(jù)可視化、缺失數(shù)據(jù)的處理、分類數(shù)據(jù)的處理、分類標(biāo)簽的編碼、特征的規(guī)范化和標(biāo)準(zhǔn)化、特征工程、降維、數(shù)據(jù)劃分到訓(xùn)練集、驗證集和測試集等。
3.構(gòu)建模型:在這里你可以選擇要使用的模型,例如線性回歸、邏輯回歸、KNN、支持向量機、K-均值、蒙特卡羅模擬、時間序列分析等。數(shù)據(jù)集必須分為訓(xùn)練集、驗證集和測試集。超參數(shù)調(diào)整用于對模型進行微調(diào),以防止過擬合。執(zhí)行交叉驗證以確保模型在驗證集上表現(xiàn)良好。對模型參數(shù)進行微調(diào)后,將模型應(yīng)用于測試數(shù)據(jù)集。該模型在測試數(shù)據(jù)集上的性能與使用該模型對未知數(shù)據(jù)進行預(yù)測時預(yù)期的性能大致相等。
4.應(yīng)用:在這一階段,最終的機器學(xué)習(xí)模型投入生產(chǎn),以開始改善客戶體驗或提高生產(chǎn)率,或決定銀行是否應(yīng)批準(zhǔn)向借款人提供信貸等。在生產(chǎn)環(huán)境中對模型進行評估,以評估其性能。這可以通過使用A/B測試等方法將機器學(xué)習(xí)解決方案的性能與基線或控制解決方案進行比較來實現(xiàn)。從實驗?zāi)P娃D(zhuǎn)換到生產(chǎn)線上的實際性能時遇到的任何錯誤都必須加以分析。這樣就可以用來微調(diào)原始模型。
構(gòu)建機器學(xué)習(xí)模型所需的大部分數(shù)學(xué)技能都用于第2、3和4階段,即數(shù)據(jù)分析、模型構(gòu)建和應(yīng)用。
統(tǒng)計與概率用于特征可視化、數(shù)據(jù)預(yù)處理、特征轉(zhuǎn)換、數(shù)據(jù)插補、降維、特征工程、模型評估等。以下就是需要我們熟悉并掌握的內(nèi)容:
大多數(shù)機器學(xué)習(xí)模型是建立在一個數(shù)據(jù)集有幾個特點或預(yù)測。因此,熟悉多變量微積分對于建立機器學(xué)習(xí)模型是非常重要的。以下是我們需要熟悉的知識點:
線性代數(shù)是機器學(xué)習(xí)中最重要的數(shù)學(xué)技能。數(shù)據(jù)集表示為矩陣。線性代數(shù)用于數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換和模型評估。以下是我們需要熟悉的知識點:
大多數(shù)機器學(xué)習(xí)算法都是通過最小化目標(biāo)函數(shù)來進行預(yù)測建模,從而學(xué)習(xí)必須應(yīng)用于測試數(shù)據(jù)的權(quán)重,以獲得預(yù)測的標(biāo)簽。以下是我們需要熟悉的知識點:
以上為機器學(xué)習(xí)入門必須要掌握的基礎(chǔ)技能,如果你覺得機器學(xué)習(xí)內(nèi)容很多,知識點很亂,無法速成,不妨按照上面列出的知識點來進行學(xué)習(xí)規(guī)劃,雖然不是很全,但足以支撐你在機器學(xué)習(xí)建模的過程中靈活使用。
注:本文屬于轉(zhuǎn)載翻譯文章