国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
不學(xué)好數(shù)學(xué)也想當(dāng)數(shù)據(jù)科學(xué)家?不存在的

大數(shù)據(jù)文摘作品

編譯:文明 修竹 高寧 天培

數(shù)據(jù)科學(xué)家需不需要有扎實(shí)的數(shù)學(xué)基礎(chǔ)呢?

隨著越來越多優(yōu)秀開源項(xiàng)目的涌現(xiàn),各類數(shù)據(jù)科學(xué)工具都實(shí)現(xiàn)了“半自動(dòng)化”,數(shù)據(jù)分析的背后數(shù)學(xué)原理似乎不再是數(shù)據(jù)科學(xué)家的必備技能。

而在近期,諸如谷歌Cloud AutoML之類的人工智能自動(dòng)化平臺(tái)也不斷趨于成熟,甚至讓人可以不用編程就能建立機(jī)器學(xué)習(xí)模型(點(diǎn)擊閱讀《谷歌重磅:不用寫代碼也能建模調(diào)參,Cloud AutoML要實(shí)現(xiàn)全民玩AI》)。

這么看來,數(shù)據(jù)科學(xué)家確實(shí)不再需要扎實(shí)的數(shù)學(xué)基礎(chǔ)了?

著名數(shù)據(jù)科學(xué)論壇KDnuggets的網(wǎng)紅博主 Tirthajyoti Sarkar表示,當(dāng)然不是啦,強(qiáng)烈反對(duì)!

為什么數(shù)據(jù)科學(xué)依舊離不開數(shù)學(xué)?我們又需要會(huì)哪些數(shù)學(xué)知識(shí)?讓我們聽這位大咖一一道來。

聲明

首先,我不是一名IT工程師,我在半導(dǎo)體領(lǐng)域工作,更確切的說是高功率半導(dǎo)體領(lǐng)域。作為一名技術(shù)開發(fā)工程師,我的日常工作內(nèi)容主要涉及半導(dǎo)體物理,硅制造過程的有限元模擬,以及電子電路理論。當(dāng)然,這其中會(huì)涉及一些數(shù)學(xué),但令人難過的是,我并沒有用到過數(shù)據(jù)科學(xué)家們所需要的那些數(shù)學(xué)。

我有不少朋友在IT行業(yè)工作,我也目睹了不少傳統(tǒng)IT工程師充滿激情的學(xué)習(xí)或者參與到令人激動(dòng)的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)/人工智能領(lǐng)域。我現(xiàn)在涉足這個(gè)領(lǐng)域是為了學(xué)習(xí)一些這行所需要的技術(shù),希望把這些技術(shù)應(yīng)用在半導(dǎo)體裝置或工藝設(shè)計(jì)領(lǐng)域。但當(dāng)我開始通過自學(xué)深入了解這些令人激動(dòng)的內(nèi)容時(shí),我很快發(fā)現(xiàn)我在大學(xué)里學(xué)的那些基礎(chǔ)的數(shù)學(xué)知識(shí),我已經(jīng)記不清了。

雖然我擁有美國(guó)一所著名大學(xué)的電氣工程博士學(xué)位,但在沒有復(fù)習(xí)一些必須的數(shù)學(xué)知識(shí)的前提下,想要牢固的掌握機(jī)器學(xué)習(xí)或者數(shù)據(jù)科學(xué)技術(shù)還是有一些困難。我必須要說的是IT工程師工作內(nèi)容和長(zhǎng)期的培訓(xùn)使得他們遠(yuǎn)離了應(yīng)用數(shù)據(jù)領(lǐng)域。他們雖然每天處理大量的數(shù)據(jù)和信息,卻并沒有對(duì)這些數(shù)據(jù)建立嚴(yán)謹(jǐn)?shù)哪P汀Mǔ?,由于巨大的時(shí)間壓力,他們工作的重點(diǎn)是“立即處理完當(dāng)前需求然后處理下一個(gè)”而不是科學(xué)性的深度挖掘這些數(shù)據(jù)。遺憾的是,數(shù)據(jù)科學(xué)永遠(yuǎn)是一門科學(xué),而僅僅有數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。

這些工具和技術(shù)包括了,模擬物理或信息過程從而探尋潛在動(dòng)力學(xué)過程,嚴(yán)格地評(píng)價(jià)數(shù)據(jù)來源的質(zhì)量,訓(xùn)練人們從信息流中識(shí)別隱藏模式的識(shí)別能力,或者理解模型的局限性。這些內(nèi)容都是科學(xué)過程中的標(biāo)志。

應(yīng)用科學(xué)或者應(yīng)用工程學(xué)課程中通常包含這些內(nèi)容,一些相似領(lǐng)域中的高水平研究工作中也包含了這些內(nèi)容。遺憾的是,即便是工作超過十年的傳統(tǒng)IT工程師(開發(fā)運(yùn)營(yíng),數(shù)據(jù)庫(kù)或者QA/測(cè)試)都缺乏對(duì)這些知識(shí)的學(xué)習(xí)。原因很簡(jiǎn)單,用不到。

變革的時(shí)代

現(xiàn)在不一樣了!

在大多數(shù)情況下,擁有完美的SQL查詢知識(shí),清晰的商業(yè)需求,以及一定的RDBMS知識(shí)就足夠完成提取-轉(zhuǎn)換-裝載(ETL)循環(huán)的工作,這就是一名IT工程師在公司中所產(chǎn)生的價(jià)值。但如果有人突然開始問你一些奇怪的問題,例如,你怎么知道人工生成的測(cè)試數(shù)據(jù)是否足夠隨機(jī)?你怎么知道下一個(gè)數(shù)據(jù)點(diǎn)是否分布在3-sigma的范圍內(nèi)?遇到這些問題,你該怎么辦?或者,僅是隔壁計(jì)算機(jī)科學(xué)的研究生偶爾的打趣--計(jì)算機(jī)進(jìn)行任何有意義的數(shù)學(xué)運(yùn)算的數(shù)據(jù)表(即:矩陣)的運(yùn)算負(fù)荷會(huì)隨矩陣大小(行或者列)的增加呈非線性增長(zhǎng),也會(huì)讓IT工程師感到困惑和惱火。

數(shù)據(jù)成為了風(fēng)口上的話題,這些問題出現(xiàn)的頻率越來越高,也越來越緊急。

主管、技術(shù)經(jīng)理以及決策者們已經(jīng)不再滿足傳統(tǒng)ETL工具給出的干巴巴的表格描述了。他們想要看到表格下面隱藏的模式以及列與列之間的相關(guān)關(guān)系。他們希望得到完整的描述和推論統(tǒng)計(jì),這些描述和統(tǒng)計(jì)可能有助于預(yù)測(cè)建模,并擴(kuò)展出遠(yuǎn)遠(yuǎn)超出數(shù)據(jù)集所包含數(shù)據(jù)范圍的投射能力。

今天的數(shù)據(jù)必須講述一個(gè)故事、或者唱一首美妙的歌。但是,要聽懂它優(yōu)美的旋律,你必須精通音樂的基本音符,而這些音符就是數(shù)學(xué)。

不再啰嗦,讓我們來找出問題的癥結(jié)所在。一名普通的IT工程師要跨入商業(yè)分析、數(shù)據(jù)科學(xué)或者數(shù)據(jù)挖掘領(lǐng)域,他必須學(xué)習(xí)或復(fù)習(xí)哪些基本的數(shù)學(xué)知識(shí)。接下來,我將給出我的觀點(diǎn)。

基礎(chǔ)代數(shù),函數(shù),集合理論,繪圖,幾何學(xué)

讓我們從最基礎(chǔ)的內(nèi)容開始?,F(xiàn)代數(shù)學(xué)的大廈是建立在一些基本內(nèi)容如集合論、泛函分析以及數(shù)論等內(nèi)容上的。從應(yīng)用數(shù)學(xué)學(xué)習(xí)的角度看,我們可以通過一些簡(jiǎn)明的模塊來簡(jiǎn)化這些基本內(nèi)容的學(xué)習(xí)(沒有特別的順序):

a) 集合論基礎(chǔ),b) 實(shí)數(shù)和復(fù)數(shù)及其基本屬性,c) 多項(xiàng)式函數(shù)、指數(shù)、對(duì)數(shù)、三角恒等式,d) 線性和二次方程,e) 不平等、無窮級(jí)數(shù)、二項(xiàng)式定理,f) 排列組合,g) 繪圖、笛卡兒坐標(biāo)系和極坐標(biāo)系、圓錐曲線論,h) 基礎(chǔ)幾何定理、三角形的性質(zhì)。

微積分

當(dāng)年牛頓想要解釋天體運(yùn)行的規(guī)律,但他卻沒有一個(gè)足夠好的數(shù)學(xué)工具來描述他提出的物理概念。在英格蘭的城市爆發(fā)瘟疫的期間,他搬到了他在鄉(xiāng)下的農(nóng)場(chǎng),在這里,他提出了現(xiàn)代數(shù)學(xué)的一個(gè)分支--微積分。從那以后,微積分被認(rèn)為是任何分析研究學(xué)科如理論科學(xué)、應(yīng)用科學(xué)、工程學(xué)、社會(huì)科學(xué)和經(jīng)濟(jì)學(xué)等通往高等教育的大門。

毫不意外的,微積分的概念和應(yīng)用出現(xiàn)在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)中。涉及的重要概念包括:

a) 單變量函數(shù)的極限、連續(xù)性以及可微性,b) 中值定理、不定型以及L’Hospita規(guī)則,c) 最大值和最小值,d) 乘積和鏈?zhǔn)椒▌t,e) 泰勒級(jí)數(shù),f) 積分計(jì)算的基本和平均價(jià)值定理,g) 定積分和廣義積分的計(jì)算,h) Beta和Gamma函數(shù), i) 雙變量函數(shù)的極限、連續(xù)性和偏微分,j) 常微分和偏微分方程基礎(chǔ)。

線性代數(shù)

一個(gè)長(zhǎng)期沒有聯(lián)系的獵頭突然在領(lǐng)英上加你好友?淘寶突然向你推薦一種超好吃的餅干?網(wǎng)易云音樂為你推薦了最符合你口味的小眾歌曲?

學(xué)習(xí)了線性代數(shù)基礎(chǔ)后,你就有了學(xué)習(xí)科技行業(yè)的核心內(nèi)容所需的數(shù)學(xué)知識(shí)儲(chǔ)備,這種感覺是不是很愉快?

所需學(xué)習(xí)的必要內(nèi)容如下(排序不分先后且可能有遺漏):

a) 矩陣和向量的基本性質(zhì)--標(biāo)量乘法、線性變換、轉(zhuǎn)置、共軛、秩以及行列式,b) 內(nèi)積和外積,c) 矩陣乘法規(guī)則以及各種算法,d) 矩陣的逆,e) 特殊矩陣--方陣,單位矩陣,三角矩陣,稀疏矩陣和稠密矩陣的概念,單位向量,對(duì)稱矩陣,Hermitian矩陣,反Hermitian矩陣和酉矩陣,f) 矩陣分解的概念/矩陣LU分解,Gaussian/Gauss-Jordan消元法求解Ax = b的線性方程組,g) 向量空間,基,極化,正交性,標(biāo)準(zhǔn)正交,線性最小二乘,h) 奇異值分解,i) 特征值,特征向量,對(duì)角化。

還有一篇很好的文章推薦--《線性代數(shù)可以讓你實(shí)現(xiàn)什么?》(鏈接:https://medium.com/@jeremyjkun/here-s-just-a-fraction-of-what-you-can-do-with-linear-algebra-633383d4153f)

統(tǒng)計(jì)和概率

“只有死亡和稅收是永遠(yuǎn)不變的,其他一切都遵從正態(tài)分布?!?/p>

在關(guān)于數(shù)據(jù)科學(xué)的討論中,無論怎么強(qiáng)調(diào)要扎實(shí)掌握統(tǒng)計(jì)學(xué)和概率學(xué)基本概念的重要性都不為過。實(shí)際上,許多該行業(yè)的從業(yè)都者認(rèn)為機(jī)器學(xué)習(xí)就是統(tǒng)計(jì)學(xué)習(xí)。我從著名的《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ)(An Introduction to Statistical Learning)》開始了我第一個(gè)機(jī)器學(xué)習(xí)MOOC課程,幾乎瞬間我就意識(shí)到我在這門學(xué)科上存在不少概念空白。為了彌補(bǔ)這些空白,我開始學(xué)習(xí)其他有關(guān)基本統(tǒng)計(jì)學(xué)和概率學(xué)的MOOC課程,并研讀相關(guān)主題的文章或觀看視頻。這門學(xué)科范圍很廣,因此針對(duì)性的學(xué)習(xí)計(jì)劃是掌握大部分基本概念的關(guān)鍵。我盡量把它們一一列取出來,但是我也有些擔(dān)心,畢竟這不是我擅長(zhǎng)的領(lǐng)域。

1. 數(shù)據(jù)摘要和描述性統(tǒng)計(jì),集中趨勢(shì),方差,協(xié)方差,相關(guān)性;2. 概率:基本概念,期望,概率微積分,貝葉斯定理,條件概率;3. 概率分布函數(shù)——均勻分布,正態(tài)分布,二項(xiàng)分布,卡方分布,t分布,中心極限定理;4. 采樣,度量,誤差,隨機(jī)數(shù); 5. 假設(shè)檢驗(yàn),A/B測(cè)試,置信區(qū)間,p值;6. 方差分析;7. 線性回歸;8. 冪,效應(yīng)量,檢測(cè)手段;8. 研究性學(xué)習(xí)和試驗(yàn)計(jì)劃。

最優(yōu)化理論,算法分析。

這些話題跟應(yīng)用數(shù)學(xué)領(lǐng)域的傳統(tǒng)話語沒什么不同,它們大多是相關(guān)的并廣泛應(yīng)用到多個(gè)專業(yè)領(lǐng)域研究——理論計(jì)算機(jī)科學(xué),控制理論或運(yùn)籌學(xué)。然而在機(jī)器學(xué)習(xí)實(shí)踐中,對(duì)這些強(qiáng)大技術(shù)有基本掌握是非常有用的,值得在這里一提。

比如,幾乎所有的機(jī)器學(xué)習(xí)算法/技術(shù)目的都是在特定約束條件下,使得某種估計(jì)誤差最小化。這是一個(gè)最優(yōu)化問題,通常用線性規(guī)劃或類似的技術(shù)解決。另一方面,這些技術(shù)在幫助理解計(jì)算機(jī)算法的時(shí)間復(fù)雜度上效果顯著,因?yàn)楫?dāng)算法應(yīng)用到大型數(shù)據(jù)集時(shí),時(shí)間復(fù)雜度就非常重要了。在這個(gè)大數(shù)據(jù)時(shí)代,通常人們期望一名數(shù)據(jù)科學(xué)家可以提取、轉(zhuǎn)換和分析數(shù)十億條記錄,他或她必須非常謹(jǐn)慎的選擇合適的算法,因?yàn)椴煌惴〞?huì)導(dǎo)致最終性能的天壤之別。一般的理論和算法性質(zhì)可以在計(jì)算機(jī)科學(xué)課上學(xué)習(xí),但是要理解時(shí)間復(fù)雜度是如何分析和計(jì)算的(比如針對(duì)給定大小的數(shù)據(jù)集,該算法需要運(yùn)行多長(zhǎng)時(shí)間?),就必須要熟悉基本的數(shù)學(xué)概念比如動(dòng)態(tài)規(guī)劃或者遞歸方程。熟悉數(shù)學(xué)歸納法的證明技術(shù)也非常有用。

后記

看到有這么多數(shù)學(xué)知識(shí)要學(xué),是不是有點(diǎn)望而卻步了?覺得自己要重新上一遍大學(xué)了?不用擔(dān)心,你可以根據(jù)需要邊做邊學(xué),但最重要的是保持思想的開放。不慌不慌,這些主題你也許大多已經(jīng)在大學(xué)學(xué)過,也可能是第一次接觸,不過當(dāng)你學(xué)完后,你一定可以慢慢聽到數(shù)據(jù)中隱藏的“旋律”。到那時(shí),你就已經(jīng)朝著成為數(shù)據(jù)科學(xué)家的方向邁出了一大步。

原文鏈接:

https://www.kdnuggets.com/2017/12/mathematics-needed-learn-data-science-machine-learning.html

【今日機(jī)器學(xué)習(xí)概念】

Have a Great Defination

志愿者介紹

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數(shù)據(jù)分析師進(jìn)階必備6大數(shù)學(xué)利器
數(shù)學(xué)在機(jī)器學(xué)習(xí)中的角色
機(jī)器學(xué)習(xí)該怎樣入門
為什么要學(xué)數(shù)學(xué)?看完這篇,覺得智商都提高了!
深度學(xué)習(xí)入門教程:學(xué)好機(jī)器學(xué)習(xí)所需的數(shù)學(xué)知識(shí)
人工智能的數(shù)學(xué)基礎(chǔ)|AI基礎(chǔ)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服