国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
如何成為一名數(shù)據(jù)科學(xué)家?


這幾年,圍繞大數(shù)據(jù)和數(shù)據(jù)科學(xué)有許多炒作。其實(shí)要理解某樣?xùn)|西,有時(shí)需要清楚的了解它不是什么;數(shù)據(jù)科學(xué)家,不是統(tǒng)計(jì)學(xué)家,不是數(shù)據(jù)分析師,不是軟件工程師,不是業(yè)務(wù)分析師,他們對這些領(lǐng)域都有一些了解,但又不完全精通于這些領(lǐng)域。

所以正確的做法是抓住大數(shù)據(jù)行業(yè)的中點(diǎn),摒棄過時(shí)的手法。比如,你需要了解的知識(shí)雖然有統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)。但你并不需要對其無所不知,也沒有必要糾結(jié)那些極其復(fù)雜的算法。

數(shù)據(jù)科學(xué)家在商業(yè)分析、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域是通才,他們可以開發(fā)數(shù)據(jù)、收集策略并使用數(shù)據(jù)發(fā)現(xiàn)一些可操作的商業(yè)見解。也就是說,數(shù)據(jù)科學(xué)家要具有創(chuàng)造性,能根據(jù)分析業(yè)務(wù),通過數(shù)據(jù),制定分析,提出方案,推動(dòng)增長。

所以現(xiàn)在你發(fā)現(xiàn)了,數(shù)據(jù)科學(xué)包含的知識(shí)非常廣泛,既不像網(wǎng)絡(luò)上說的各種算法那樣高深莫測,也不是三言兩語就能解釋清楚如何成為數(shù)據(jù)科學(xué)家這個(gè)問題那么簡單。

首先,要理解數(shù)據(jù)科學(xué),基本數(shù)學(xué)知識(shí)包括:

  • 代數(shù),基本矩陣論;

  • 微積分入門課程;要掌握的理論不多。只需要理解計(jì)算復(fù)雜度,了解特殊函數(shù)

  • 統(tǒng)計(jì)與概率論基礎(chǔ)入門課程;可以挑一本基礎(chǔ)統(tǒng)計(jì)學(xué)書籍閱讀掌握


從技術(shù)的角度出發(fā),要掌握的技能和知識(shí)有:

  • R語言;

  • Python(或Perl);了解基本網(wǎng)絡(luò)爬蟲知識(shí),有助于獲取互聯(lián)網(wǎng)上能找到的非結(jié)構(gòu)化數(shù)據(jù)

  • Excel;PowerPiviot插件可以用來處理大數(shù)據(jù)集
  • SQL ;數(shù)據(jù)庫的設(shè)計(jì)和訪問要有基本了解
  • (圖形)可視化工具;


但是掌握一門專業(yè)知識(shí)最好的方法還是系統(tǒng)性的閱讀書籍。如果想進(jìn)一步了解數(shù)據(jù)科學(xué)家的工作或者如何提升自己的數(shù)據(jù)科學(xué)技能,我推薦以下這幾本書籍:《數(shù)據(jù)天才》、《敏捷數(shù)據(jù)科學(xué)》、《數(shù)據(jù)科學(xué)家養(yǎng)成手冊》、《Python大戰(zhàn)機(jī)器學(xué)習(xí)》

在外界看來,「大數(shù)據(jù)」和「數(shù)據(jù)科學(xué)」這樣的詞看起來復(fù)雜又神秘。數(shù)據(jù)科學(xué)被稱為「21世紀(jì)最性感的工作」。所要成為一名數(shù)據(jù)科學(xué)家,要實(shí)有際的付出,比如,需要具備成為數(shù)據(jù)科學(xué)家的三項(xiàng)能力,以及為走向數(shù)據(jù)科學(xué)做好一些準(zhǔn)備,觀看一些有關(guān)數(shù)據(jù)科學(xué)的優(yōu)秀在線課程,閱讀不得不讀的數(shù)據(jù)科學(xué)經(jīng)典書籍;如果,你學(xué)有所成,也可以找一些好的測試題自我檢驗(yàn)一下;而以上,正是本文所要分享的內(nèi)容,希望對你能有所幫助!


數(shù)據(jù)科學(xué)家需要具備的三項(xiàng)能力


數(shù)據(jù)科學(xué)家」這個(gè)詞覆蓋的角色很廣,涵蓋了學(xué)術(shù)、金融和政府等多種產(chǎn)業(yè)和組織。然而,有三個(gè)重要的能力是每位數(shù)據(jù)科學(xué)家都必須理解的:


1、必須理解數(shù)據(jù)是有意義的


我們經(jīng)常忽視一個(gè)事實(shí),那就是數(shù)據(jù)是有含義的,并且理解其中的意義非常重要。如果我們想要在數(shù)字中獲得有用的洞察,就必須超越數(shù)字,理解它們暗藏的內(nèi)涵。這一點(diǎn)與算法和工程等沒有關(guān)系。理解數(shù)據(jù)是一門藝術(shù),真的非常重要。


2、必須理解你需要解決的問題,以及數(shù)據(jù)與之的聯(lián)系


此時(shí),你可以打開工具箱,找到正確的分析方法和算法來分析數(shù)據(jù)。機(jī)器學(xué)習(xí)可以進(jìn)行技術(shù)分析。除了機(jī)器學(xué)習(xí)之外,還有幾百種技術(shù)可以用數(shù)據(jù)來解決問題,例如運(yùn)籌學(xué)、決策論、博弈論、控制論等,這些理論都有很長的歷史。一旦你理解了數(shù)據(jù)和你試圖解決的問題,下一步就應(yīng)該選擇匹配的算法,來獲得有意義的解。


3、必須理解工程問題


第三個(gè)能力是理解和運(yùn)用執(zhí)行分析任務(wù)的設(shè)備,就是「如果你在正確的時(shí)間和地點(diǎn)沒有基礎(chǔ)設(shè)備來高效精確地運(yùn)行分析任務(wù),那一切都是白搭?!?/p>


做好走向數(shù)據(jù)科學(xué)的準(zhǔn)備


1、 最重要的是:無論你想要在目前的工作中學(xué)到什么,都要找到方法

找到一個(gè)涉及更多編碼/數(shù)據(jù)分析且對你的雇主有幫助的項(xiàng)目。嘗試使任何無聊的任務(wù)自動(dòng)化。即使這個(gè)過程需要 5 倍的時(shí)間(即使這樣的任務(wù)你只做一次!),但你正是通過這樣來學(xué)習(xí)。

2、分析您擁有的任何數(shù)據(jù)

比如消費(fèi)前的研究數(shù)據(jù)(即決定要購買哪種微波爐),個(gè)人健身追蹤器的數(shù)據(jù),烹飪食譜的營養(yǎng)數(shù)據(jù),為孩子調(diào)查的學(xué)前教育數(shù)據(jù)。把它變成一個(gè)小型的數(shù)據(jù)分析項(xiàng)目,并寫到博客中。例如如果你是研究生,你可以分析所教學(xué)生的年級數(shù)據(jù)。

3、學(xué)習(xí)最重要的數(shù)據(jù)科學(xué)軟件工具

Python's data science stack(pandas / numpy / scipy)是最有用的技術(shù)(閱讀本書?。?,緊隨其后的是 SQL。在學(xué)習(xí)其他語言之前我會(huì)專注于學(xué)習(xí) Python 和 SQL。Python 被廣泛使用且非常靈活。如果你決定參與到更多的軟件開發(fā)工作,或者全面進(jìn)入機(jī)器學(xué)習(xí),你會(huì)有優(yōu)勢。

4、使用 Kaggle

做教程,參加論壇,參加比賽(不要擔(dān)心你處于什么水平- 只是專注于每天做得更好一點(diǎn))。這是學(xué)習(xí)實(shí)用機(jī)器技能的最好方法。

5、搜索您所在地區(qū)的數(shù)據(jù)科學(xué)和技術(shù)會(huì)議

隨著數(shù)據(jù)科學(xué)在過去幾年的激增,如今在全球有各種會(huì)議。例如,Google 最近在加利福尼亞州山景城舉辦了一次 TensorFlow Dev 峰會(huì),但有全世界觀眾一起觀看直播(包括尼日利亞的阿布賈,印度的哥印拜陀和摩洛哥的拉巴特)。


數(shù)據(jù)科學(xué)在線課程


在線課程是一個(gè)了不起的資源。你可以在家里舒適地跟隨世界上最好的數(shù)據(jù)科學(xué)家學(xué)習(xí)。通常作業(yè)是學(xué)習(xí)最多的地方,所以不要跳過它們!這里有幾個(gè)我最喜歡的課程:

  • Andrew Ng 的經(jīng)典機(jī)器學(xué)習(xí)公開課(雖然沒有在 Octave / MATLAB 上花太多時(shí)間,但他把算法解釋地非常完美),或許用 Python 完成這項(xiàng)工作更好

  • 快速實(shí)習(xí)深度學(xué)習(xí)課程。透露:我協(xié)助開設(shè)了這門課程,我們得到了許多學(xué)生的積極反饋。其中唯一的先決條件是一年的編碼經(jīng)驗(yàn)。

  • Udacity 的數(shù)據(jù)科學(xué)系列。

  • Udacity 的 Web 開發(fā)課程。如果想成為一個(gè)數(shù)據(jù)科學(xué)家在技術(shù)上不需要了解這些,但成為一個(gè)更好的軟件開發(fā)人員可以使你成為一個(gè)更好的數(shù)據(jù)科學(xué)家,了解如何構(gòu)建自己的網(wǎng)絡(luò)應(yīng)用程序非常有用。

上述強(qiáng)調(diào)的問題之一是,在線可用的信息、教程和課程的數(shù)量或許巨大的,最大的風(fēng)險(xiǎn)之一是不能持之以恒,不能完成或堅(jiān)持足夠長的時(shí)間來學(xué)習(xí)它。重要的是找到一個(gè)「足夠好」的課程或項(xiàng)目,然后堅(jiān)持下去。找到或組建一個(gè)見面團(tuán)隊(duì)來一起學(xué)完在線課程或許對解決這個(gè)問題有幫助。

在線課程對獲取知識(shí)非常有用(做完作業(yè)非常重要,這是你學(xué)習(xí)的方式)。不過,我還沒發(fā)現(xiàn)獲得證書有啥好處。(雖然我知道這是一個(gè)新增長的領(lǐng)域)。因?yàn)橹肮蛡驍?shù)據(jù)科學(xué)家時(shí),我面試過很多求職者,而且自己也有這方面的求職經(jīng)驗(yàn),都是經(jīng)驗(yàn)之談。


數(shù)據(jù)科學(xué)家要讀的書籍


作為一位數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師或機(jī)器學(xué)習(xí)研究者,面對市面上各種各樣的相關(guān)書籍一定會(huì)感覺難以取舍。這是一份數(shù)據(jù)驅(qū)動(dòng)的客觀書單,希望可以有所幫助:


  1. An Introduction to Statistical Learning: With Applications in R(統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論 : 基于R應(yīng)用)

價(jià)格:英文版 61.36 美元,中文版 63.1 元

品質(zhì)得分:10/10

這本書在亞馬遜上評分非常高,其作者是來自南加利福尼亞大學(xué)、斯坦福大學(xué)和華盛頓大學(xué)的四位教授 Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani;他們都有統(tǒng)計(jì)學(xué)背景。這本書比《The Elements of Statistical Learning(統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ))》更為實(shí)用,它給出了一些使用 R 語言實(shí)現(xiàn)的案例。

2.The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理和預(yù)測)

價(jià)格:英文版 62.0 美元,中文版 45 元

品質(zhì)得分:9/10

亞馬遜上的高分書籍,作者是斯坦福大學(xué)的三位統(tǒng)計(jì)學(xué)教授。第一作者 Trevor Hastie 具有統(tǒng)計(jì)學(xué)和生物統(tǒng)計(jì)學(xué)方面的研究背景。關(guān)于這本書的一個(gè)有趣的事情是作者們以統(tǒng)計(jì)學(xué)的視角看待機(jī)器學(xué)習(xí)問題。這本書似乎過于關(guān)注理論了,所以一些讀者可能傾向于略過它。

3.Pattern Recognition and Machine Learning(模式識(shí)別與機(jī)器學(xué)習(xí))

價(jià)格:英文版 60.0 美元,無中文版

品質(zhì)得分:8/10

亞馬遜上的高分書籍,作者是著名作家 Christopher M. Bishop,他是微軟劍橋研究院的一位杰出科學(xué)家,領(lǐng)導(dǎo)微軟機(jī)器學(xué)習(xí)與感知研究組。這本書在技術(shù)上全面覆蓋了各種機(jī)器學(xué)習(xí)主題,包括回歸、線性分類、神經(jīng)網(wǎng)絡(luò)、核方法和圖模型。

4. Machine Learning: A Probabilistic Perspective(機(jī)器學(xué)習(xí):概率學(xué)的觀點(diǎn))

價(jià)格:英文版 79.16 美元,無中文版

品質(zhì)得分: 7/10

Machine Learning: A Probabilistic Perspective 一書提供了可以自動(dòng)檢測數(shù)據(jù)模式,然后使用得出的模式預(yù)測未來數(shù)據(jù)的方法。該教材基于統(tǒng)一的、概率學(xué)的方法對機(jī)器學(xué)習(xí)領(lǐng)域提供了全面的介紹。該書的作者 Kevin Murphy 是谷歌的一位研究人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、知識(shí)基礎(chǔ)建設(shè)和自然語言處理的研究科學(xué)家。

5. Data Mining: Concepts and Techniques, Third Edition(數(shù)據(jù)挖掘:概念與技術(shù),第三版)

價(jià)格:英文版 50.0 美元,中文版 79.0 元

品質(zhì)得分: 6/10

Data Mining: Concepts and Techniques, Third Edition 一書的作者是伊利諾伊大學(xué)香檳分校計(jì)算機(jī)科學(xué)系的 Jiawei Han(韓家煒)教授。這本書能讓你了解、應(yīng)用從大數(shù)據(jù)集中發(fā)現(xiàn)隱藏模式的理論和實(shí)踐知識(shí)。這本書在亞馬遜上獲得了較為平均的評價(jià)。

6. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition(數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù),第3版)

價(jià)格:英文版 37.5 美元,中文版 79.0 元

品質(zhì)得分: 6/10

這本書在亞馬遜上的評價(jià)相當(dāng)不錯(cuò),其作者為新西蘭懷卡托大學(xué)的三位計(jì)算機(jī)科學(xué)教授。他們也是基于 Java 的數(shù)據(jù)挖掘軟件 Weka 的主要貢獻(xiàn)者。因此,這本書重在數(shù)據(jù)挖掘領(lǐng)域的具體實(shí)現(xiàn)方面,尤其是基于 Weka 軟件的工作平臺(tái)。

7. Probabilistic Graphical Models: Principles and Techniques(概率圖模型:原理與技術(shù))

價(jià)格:英文版 91.66 美元,中文版 198 元

品質(zhì)得分: 6/10

Probabilistic Graphical Models: Principles and Techniques 這本獨(dú)特的書提供了設(shè)計(jì)自動(dòng)推理系統(tǒng)的概率圖框架。這本書的作者是兩位計(jì)算機(jī)科學(xué)教授:來自斯坦福大學(xué)人工智能實(shí)驗(yàn)室的 Daphne Koller 和來自耶路撒冷希伯來大學(xué)的 Nir Friedman。

8. Introduction to Information Retrieval(信息檢索導(dǎo)論)

價(jià)格:英文版 57.0 美元,中文版 69 元

品質(zhì)得分: 6/10

Introduction to Information Retrieval 的第一作者是斯坦福計(jì)算機(jī)科學(xué)教授 Christopher Manning。這是講解網(wǎng)絡(luò)時(shí)代的信息檢索的教科書,包括網(wǎng)絡(luò)搜索,以及與文本分類和文本聚類的基本概念相關(guān)的領(lǐng)域。

9. Machine Learning(機(jī)器學(xué)習(xí))

價(jià)格:英文版 211.6 美元,中文版 35 元

品質(zhì)得分: 5/10

Machine Learning 是機(jī)器學(xué)習(xí)領(lǐng)域一本非常著名的著作,其作者是美國卡內(nèi)基·梅隆大學(xué)計(jì)算機(jī)科學(xué)教授 Tom Mitchell。Tom Mitchell 是世界上第一個(gè)機(jī)器學(xué)習(xí)系的第一任系主任。Machine Learning 一書涵蓋了機(jī)器學(xué)習(xí)的一些基本領(lǐng)域,包括學(xué)習(xí)、決策樹學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。

10. Speech and Language Processing, 2nd Edition(語音和語言處理,第二版)

價(jià)格:英文版 78.65 美元,無中文版

品質(zhì)得分: 5/10

Speech and Language Processing 的作者是斯坦福大學(xué)語言學(xué)和計(jì)算機(jī)科學(xué)教授 Dan Jurafsky。這是全面覆蓋語言技術(shù)的第一本書——在所有層次上且包含所有現(xiàn)代技術(shù)。基于大型企業(yè)使用的應(yīng)用統(tǒng)計(jì)和其它機(jī)器學(xué)習(xí)算法,這本書在語言技術(shù)這一主題上使用了實(shí)證的方法

11. Introduction to Data Mining(數(shù)據(jù)挖掘?qū)д摚?/p>

價(jià)格:英文版 118.91 美元,中文版 49.0 元

品質(zhì)得分: 4/10

這本書在亞馬遜上獲得了很好的評分,其作者是三位計(jì)算機(jī)科學(xué)教授:密歇根州立大學(xué)的 Pang-Ning Tan、明尼蘇達(dá)大學(xué)的 Michael Steinbach 和 Vipin Kumar。這本書涵蓋了數(shù)據(jù)挖掘的不同基本領(lǐng)域,如:分類、關(guān)聯(lián)分析、聚類和異常檢測。

12. Neural Networks for Pattern Recognition(用于模式識(shí)別的神經(jīng)網(wǎng)絡(luò))

價(jià)格:英文版 88.42 美元,無中文版

品質(zhì)得分: 4/10

Neural Networks for Pattern Recognition 算是一本老書了,但其作者是微軟劍橋研究院的杰出科學(xué)家 Christopher M. Bishop。

13. Foundations of Statistical Natural Language Processing(統(tǒng)計(jì)自然語言處理基礎(chǔ))

價(jià)格:英文版 87.27 美元,中文版 55 元

品質(zhì)得分: 4/10

Foundations of Statistical Natural Language Processing 是亞馬遜上評分非常好的一本自然語言處理書籍。用統(tǒng)計(jì)方法處理自然語言文本近來已經(jīng)占據(jù)了主導(dǎo)地位。這本書對統(tǒng)計(jì)自然語言處理(NLP)進(jìn)行了全面的介紹,含所有開發(fā) NLP 工具所需的理論和算法。

14. Handbook of Statistical Analysis and Data Mining Applications(統(tǒng)計(jì)分析和數(shù)據(jù)挖掘應(yīng)用手冊)

價(jià)格:英文版 72.81 美元,無中文版

品質(zhì)得分: 4/10

這本書在亞馬遜的評分高于平均分,其作者是三位在數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)領(lǐng)域有行業(yè)經(jīng)驗(yàn)的博士。這本書是一本指導(dǎo)商業(yè)分析師、科學(xué)家、工程師和研究者的全面的專業(yè)參考書,其中包含不同階段的數(shù)據(jù)分析、建模和實(shí)現(xiàn)。

15. Understanding Machine Learning: From Theory to Algorithms(理解機(jī)器學(xué)習(xí):從理論到算法)

價(jià)格:英文版 52.76 美元,無中文版

品質(zhì)得分: 4/10

Understanding Machine Learning: From Theory to Algorithms 提供了解釋機(jī)器學(xué)習(xí)基本思想的廣泛理論和將這些原理轉(zhuǎn)化成實(shí)際算法的數(shù)學(xué)推導(dǎo)。這本書的兩位作者是分別來自耶路撒冷希伯來大學(xué)和滑鐵盧大學(xué)的計(jì)算機(jī)科學(xué)教授。

16. Foundations of Machine Learning(機(jī)器學(xué)習(xí)基礎(chǔ))

價(jià)格:英文版 96.56 美元,無中文版

品質(zhì)得分: 3/10

Foundations of Machine Learning 是一本研究生階段的教科書,介紹了機(jī)器學(xué)習(xí)的基本概念和方法。這本書描述了幾種重要的算法,提供了這些算法的理論基礎(chǔ),并闡釋了這些算法應(yīng)用的主要方面。其作者 Mehryar Mohri 是紐約大學(xué)庫朗數(shù)學(xué)科學(xué)研究所的計(jì)算機(jī)科學(xué)教授。


40 道數(shù)據(jù)科學(xué)測試題(附答案)


如果你是一名數(shù)據(jù)科學(xué)家,那就需要對機(jī)器學(xué)習(xí)很擅長,而不只是三腳貓的功夫。測試包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、時(shí)序問題以及概率。數(shù)據(jù)科學(xué)家可以就這些關(guān)鍵技能進(jìn)行自我評估。算是對以上內(nèi)容的一個(gè)補(bǔ)充。


假定特征 F1 可以取特定值:A、B、C、D、E 和 F,其代表著學(xué)生在大學(xué)所獲得的評分?,F(xiàn)在請答題:

1. 在下面說法中哪一項(xiàng)是正確的?

A. 特征 F1 是名義變量(nominal variable)的一個(gè)實(shí)例。

B. 特征 F1 是有序變量(ordinal variable)的一個(gè)實(shí)例。

C. 該特征并不屬于以上的分類。

D. 以上說法都正確。

答案為(B):有序變量是一種在類別上有某些順序的變量。例如,等級 A 就要比等級 B 所代表的成績好一些。

2. 下面哪個(gè)選項(xiàng)中哪一項(xiàng)屬于確定性算法?

A.PCA

B.K-Means

C. 以上都不是

答案為(A):確定性算法表明在不同運(yùn)行中,算法輸出并不會(huì)改變。如果我們再一次運(yùn)行算法,PCA 會(huì)得出相同的結(jié)果,而 k-means 不會(huì)。

3. 兩個(gè)變量的 Pearson 相關(guān)性系數(shù)為零,但這兩個(gè)變量的值同樣可以相關(guān)。

A. 正確

B. 錯(cuò)誤

答案為(A):Y=X2,請注意他們不僅僅相關(guān)聯(lián),同時(shí)一個(gè)還是另一個(gè)的函數(shù)。盡管如此,他們的相關(guān)性系數(shù)還是為 0,因?yàn)檫@兩個(gè)變量的關(guān)聯(lián)是正交的,而相關(guān)性系數(shù)就是檢測這種關(guān)聯(lián)。詳情查看:https://en.wikipedia.org/wiki/Anscombe's_quartet

4. 下面哪一項(xiàng)對梯度下降(GD)和隨機(jī)梯度下降(SGD)的描述是正確的?

  1. 在 GD 和 SGD 中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。

  2. 在 SGD 中,每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。

  3. 在 GD 中,每一次迭代需要使用整個(gè)訓(xùn)練集或子訓(xùn)練集的數(shù)據(jù)更新一個(gè)參數(shù)。

A. 只有 1

B. 只有 2

C. 只有 3

D.1 和 2

E.2 和 3

F. 都正確

答案為(A):在隨機(jī)梯度下降中,每一次迭代選擇的批量是由數(shù)據(jù)集中的隨機(jī)樣本所組成,但在梯度下降,每一次迭代需要使用整個(gè)訓(xùn)練數(shù)據(jù)集。

5. 下面哪個(gè)/些超參數(shù)的增加可能會(huì)造成隨機(jī)森林?jǐn)?shù)據(jù)過擬合?

  1. 樹的數(shù)量

  2. 樹的深度

  3. 學(xué)習(xí)速率

A. 只有 1

B. 只有 2

C. 只有 3

D.1 和 2

E.2 和 3

F. 都正確

答案為(B):通常情況下,我們增加樹的深度有可能會(huì)造成模型過擬合。學(xué)習(xí)速率在隨機(jī)森林中并不是超參數(shù)。增加樹的數(shù)量可能會(huì)造成欠擬合。

6. 假如你在「Analytics Vidhya」工作,并且想開發(fā)一個(gè)能預(yù)測文章評論次數(shù)的機(jī)器學(xué)習(xí)算法。你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 寫過的總文章數(shù)量等等。那么在這樣一個(gè)算法中,你會(huì)選擇哪一個(gè)評價(jià)度量標(biāo)準(zhǔn)?

  1. 均方誤差

  2. 精確度

  3. F1 分?jǐn)?shù)

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 和 3

E. 2 和 3

F. 1 和 2

答案為(A):你可以把文章評論數(shù)看作連續(xù)型的目標(biāo)變量,因此該問題可以劃分到回歸問題。因此均方誤差就可以作為損失函數(shù)的度量標(biāo)準(zhǔn)。

7. 給定以下三個(gè)圖表(從上往下依次為1,2,3). 哪一個(gè)選項(xiàng)對以這三個(gè)圖表的描述是正確的?

A. 1 是 tanh,2 是 ReLU,3 是 SIGMOID 激活函數(shù)

B. 1 是 SIGMOID,2 是 ReLU,3 是 tanh 激活函數(shù)

C. 1 是 ReLU,2 是 tanh,3 是 SIGMOID 激活函數(shù)

D. 1 是 tanh,2 是 SIGMOID,3 是 ReLU 激活函數(shù)

答案為(D):因?yàn)?SIGMOID 函數(shù)的取值范圍是 [0,1],tanh 函數(shù)的取值范圍是 [-1,1],RELU 函數(shù)的取值范圍是 [0,infinity]。

8. 以下是目標(biāo)變量在訓(xùn)練集上的 8 個(gè)實(shí)際值 [0,0,0,1,1,1,1,1],目標(biāo)變量的熵是所少?

A. -(5/8 log(5/8) + 3/8 log(3/8))

B. 5/8 log(5/8) + 3/8 log(3/8)

C. 3/8 log(5/8) + 5/8 log(3/8)

D. 5/8 log(3/8) – 3/8 log(5/8)

答案為(A):信息熵的公式為:

9. 假定你正在處理類屬特征,并且沒有查看分類變量在測試集中的分布?,F(xiàn)在你想將 one hot encoding(OHE)應(yīng)用到類屬特征中。那么在訓(xùn)練集中將 OHE 應(yīng)用到分類變量可能要面臨的困難是什么?

A. 分類變量所有的類別沒有全部出現(xiàn)在測試集中

B. 類別的頻率分布在訓(xùn)練集和測試集是不同的

C. 訓(xùn)練集和測試集通常會(huì)有一樣的分布

D. A 和 B 都正確

E. 以上都不正確

答案為(D):A、B 項(xiàng)都正確,如果類別在測試集中出現(xiàn),但沒有在訓(xùn)練集中出現(xiàn),OHE 將會(huì)不能進(jìn)行編碼類別,這將是應(yīng)用 OHE 的主要困難。選項(xiàng) B 同樣也是正確的,在應(yīng)用 OHE 時(shí),如果訓(xùn)練集和測試集的頻率分布不相同,我們需要多加小心。

10.Skip gram 模型是在 Word2vec 算法中為詞嵌入而設(shè)計(jì)的最優(yōu)模型。以下哪一項(xiàng)描繪了 Skip gram 模型?

A. A

B. B

C. A 和 B

D. 以上都不是

答案為(B):這兩個(gè)模型都是在 Word2vec 算法中所使用的。模型 A 代表著 CBOW,模型 B 代表著 Skip gram。

11. 假定你在神經(jīng)網(wǎng)絡(luò)中的隱藏層中使用激活函數(shù) X。在特定神經(jīng)元給定任意輸入,你會(huì)得到輸出「-0.0001」。X 可能是以下哪一個(gè)激活函數(shù)?

A. ReLU

B. tanh

C. SIGMOID

D. 以上都不是

答案為(B):該激活函數(shù)可能是 tanh,因?yàn)樵摵瘮?shù)的取值范圍是 (-1,1)。

12. 對數(shù)損失度量函數(shù)可以取負(fù)值。

A. 對

B. 錯(cuò)

答案為(B):對數(shù)損失函數(shù)不可能取負(fù)值。

13. 下面哪個(gè)/些對「類型 1(Type-1)」和「類型 2(Type-2)」錯(cuò)誤的描述是正確的?

  1. 類型 1 通常稱之為假正類,類型 2 通常稱之為假負(fù)類。

  2. 類型 2 通常稱之為假正類,類型 1 通常稱之為假負(fù)類。

  3. 類型 1 錯(cuò)誤通常在其是正確的情況下拒絕假設(shè)而出現(xiàn)。

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 和 2

E. 1 和 3

F. 3 和 2

答案為(E):在統(tǒng)計(jì)學(xué)假設(shè)測試中,I 類錯(cuò)誤即錯(cuò)誤地拒絕了正確的假設(shè)(即假正類錯(cuò)誤),II 類錯(cuò)誤通常指錯(cuò)誤地接受了錯(cuò)誤的假設(shè)(即假負(fù)類錯(cuò)誤)。

14. 下面在 NLP 項(xiàng)目中哪些是文本預(yù)處理的重要步驟?

  1. 詞干提?。⊿temming)

  2. 移去停止詞(Stop word removal)

  3. 目標(biāo)標(biāo)準(zhǔn)化(Object Standardization)

A. 1 和 2

B. 1 和 3

C. 2 和 3

D. 1、2 和 3

答案為(D):詞干提取是剝離后綴(「ing」,「ly」,「es」,「s」等)的基于規(guī)則的過程。停止詞是與語境不相關(guān)的詞(is/am/are)。目標(biāo)標(biāo)準(zhǔn)化也是一種文本預(yù)處理的優(yōu)良方法。

15. 假定你想將高維數(shù)據(jù)映射到低維數(shù)據(jù)中,那么最出名的降維算法是 PAC 和 t-SNE。現(xiàn)在你將這兩個(gè)算法分別應(yīng)用到數(shù)據(jù)「X」上,并得到數(shù)據(jù)集「X_projected_PCA」,「X_projected_tSNE」。下面哪一項(xiàng)對「X_projected_PCA」和「X_projected_tSNE」的描述是正確的?

A. X_projected_PCA 在最近鄰空間能得到解釋

B. X_projected_tSNE 在最近鄰空間能得到解釋

C. 兩個(gè)都在最近鄰空間能得到解釋

D. 兩個(gè)都不能在最近鄰空間得到解釋

答案為(B):t-SNE 算法考慮最近鄰點(diǎn)而減少數(shù)據(jù)維度。所以在使用 t-SNE 之后,所降的維可以在最近鄰空間得到解釋。但 PCA 不能。

16-17 題的背景:給定下面兩個(gè)特征的三個(gè)散點(diǎn)圖(從左到右依次為圖 1、2、3)。

16. 在上面的圖像中,哪一個(gè)是多元共線(multi-collinear)特征?

A. 圖 1 中的特征

B. 圖 2 中的特征

C. 圖 3 中的特征

D. 圖 1、2 中的特征

E. 圖 2、3 中的特征

F. 圖 1、3 中的特征

答案為(D):在圖 1 中,特征之間有高度正相關(guān),圖 2 中特征有高度負(fù)相關(guān)。所以這兩個(gè)圖的特征是多元共線特征。

17. 在先前問題中,假定你已經(jīng)鑒別了多元共線特征。那么下一步你可能的操作是什么?

  1. 移除兩個(gè)共線變量

  2. 不移除兩個(gè)變量,而是移除一個(gè)

  3. 移除相關(guān)變量可能會(huì)導(dǎo)致信息損失。為了保留這些變量,我們可以使用帶罰項(xiàng)的回歸模型(如 ridge 或 lasso regression)。

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 或 3

E. 1 或 2

答案為(E):因?yàn)橐瞥齼蓚€(gè)變量會(huì)損失一切信息,所以我們只能移除一個(gè)特征,或者也可以使用正則化算法(如 L1 和 L2)。

18. 給線性回歸模型添加一個(gè)不重要的特征可能會(huì)造成:

  1. 增加 R-square

  2. 減少 R-square

A. 只有 1 是對的

B. 只有 2 是對的

C. 1 或 2 是對的

D. 都不對

答案為(A):在給特征空間添加了一個(gè)特征后,不論特征是重要還是不重要,R-square 通常會(huì)增加。

19. 假設(shè)給定三個(gè)變量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關(guān)性系數(shù)分別為 C1、C2 和 C3。現(xiàn)在 X 的所有值加 2(即 X+2),Y 的全部值減 2(即 Y-2),Z 保持不變。那么運(yùn)算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相關(guān)性系數(shù)分別為 D1、D2 和 D3。現(xiàn)在試問 D1、D2、D3 和 C1、C2、C3 之間的關(guān)系是什么?

A. D1= C1, D2 < C2, D3 > C3

B. D1 = C1, D2 > C2, D3 > C3

C. D1 = C1, D2 > C2, D3 < C3

D. D1 = C1, D2 < C2, D3 < C3

E. D1 = C1, D2 = C2, D3 = C3

F. 無法確定

答案為(E):特征之間的相關(guān)性系數(shù)不會(huì)因?yàn)樘卣骷踊驕p去一個(gè)數(shù)而改變。

20. 假定你現(xiàn)在解決一個(gè)有著非常不平衡類別的分類問題,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的 99%?,F(xiàn)在你的模型在測試集上表現(xiàn)為 99% 的準(zhǔn)確度。那么下面哪一項(xiàng)表述是正確的?

  1. 準(zhǔn)確度并不適合于衡量不平衡類別問題

  2. 準(zhǔn)確度適合于衡量不平衡類別問題

  3. 精確率和召回率適合于衡量不平衡類別問題

  4. 精確率和召回率不適合于衡量不平衡類別問題

A. 1 and 3

B. 1 and 4

C. 2 and 3

D. 2 and 4

答案為(A):參考問題 4 的解答。

21. 在集成學(xué)習(xí)中,模型集成了弱學(xué)習(xí)者的預(yù)測,所以這些模型的集成將比使用單個(gè)模型預(yù)測效果更好。下面哪個(gè)/些選項(xiàng)對集成學(xué)習(xí)模型中的弱學(xué)習(xí)者描述正確?

  1. 他們經(jīng)常不會(huì)過擬合

  2. 他們通常帶有高偏差,所以其并不能解決復(fù)雜學(xué)習(xí)問題

  3. 他們通常會(huì)過擬合

A. 1 和 2

B. 1 和 3

C. 2 和 3

D. 只有 1

E. 只有 2

F. 以上都不對

答案為(A):弱學(xué)習(xí)者是問題的特定部分。所以他們通常不會(huì)過擬合,這也就意味著弱學(xué)習(xí)者通常擁有低方差和高偏差。

22. 下面哪個(gè)/些選項(xiàng)對 K 折交叉驗(yàn)證的描述是正確的

  1. 增大 K 將導(dǎo)致交叉驗(yàn)證結(jié)果時(shí)需要更多的時(shí)間

  2. 更大的 K 值相比于小 K 值將對交叉驗(yàn)證結(jié)構(gòu)有更高的信心

  3. 如果 K=N,那么其稱為留一交叉驗(yàn)證,其中 N 為驗(yàn)證集中的樣本數(shù)量

A. 1 和 2

B. 2 和 3

C. 1 和 3

D. 1、2 和 3

答案為(D):大 K 值意味著對過高估計(jì)真實(shí)預(yù)期誤差(訓(xùn)練的折數(shù)將更接近于整個(gè)驗(yàn)證集樣本數(shù))擁有更小的偏差和更多的運(yùn)行時(shí)間(并隨著越來越接近極限情況:留一交叉驗(yàn)證)。我們同樣在選擇 K 值時(shí)需要考慮 K 折準(zhǔn)確度和方差間的均衡。

23 題至 24 題的背景:交叉驗(yàn)證在機(jī)器學(xué)習(xí)超參數(shù)微調(diào)中是十分重要的步驟。假定你需要為 GBM 通過選擇 10 個(gè)不同的深度值(該值大于 2)而調(diào)整超參數(shù)「max_depth」,該樹型模型使用 5 折交叉驗(yàn)證。 4 折訓(xùn)練驗(yàn)證算法(模型 max_depth 為 2)的時(shí)間為 10 秒,在剩下的 1 折中預(yù)測為 2 秒。

23. 哪一項(xiàng)描述擁有 10 個(gè)「max_depth」不同值的 5 折交叉驗(yàn)證整體執(zhí)行時(shí)間是正確的?

A. 少于 100 秒

B. 100-300 秒

C. 300-600 秒

D. 大于等于 600 秒

E. 無法估計(jì)

答案為(D):因?yàn)樯疃葹?2 的 5 折交叉驗(yàn)證每一次迭代需要訓(xùn)練 10 秒和測試 2 秒。因此五折驗(yàn)證需要 12*5 = 60 秒,又因?yàn)槲覀冃枰阉?10 個(gè)深度值,所以算法需要 60*10 = 600。

24. 在先前的答案中,如果你訓(xùn)練同樣的算法調(diào)整 2 個(gè)超參數(shù),假設(shè)是 max_depth 和 learning_rate。你想要選擇正確的值對抗 max_depth(從給定的 10 個(gè)深度值中)和學(xué)習(xí)率(從 5 個(gè)不同的學(xué)習(xí)率做選擇)。在此情況下,整體時(shí)間是下面的哪個(gè)?

A.1000-1500 秒

B.1500-3000 秒

C. 多于或等于 3000 Second

D. 都不是

答案為(D):和 23 題一樣。

25. 下表是機(jī)器學(xué)習(xí)算法 M1 的訓(xùn)練錯(cuò)誤率 TE 和驗(yàn)證錯(cuò)誤率 VE,基于 TE 和 VE 你想要選擇一個(gè)超參數(shù)(H)。

基于上表,你會(huì)選擇哪個(gè) H 值?

A.1

B.2

C.3

D.4

E.5

答案為(D):看這個(gè)表,D 選項(xiàng)看起來是最好的。

26. 為了得到和 SVD 一樣的投射(projection),你需要在 PCA 中怎樣做?

A. 將數(shù)據(jù)轉(zhuǎn)換成零均值

B. 將數(shù)據(jù)轉(zhuǎn)換成零中位數(shù)

C. 無法做到

D. 以上方法不行

答案為(A):當(dāng)數(shù)據(jù)有一個(gè) 0 均值向量時(shí),PCA 有與 SVD 一樣的投射,否則在使用 SVD 之前,你必須將數(shù)據(jù)均值歸 0。

問題 27-28 的背景:假設(shè)存在一個(gè)黑箱算法,其輸入為有多個(gè)觀察(t1, t2, t3,…….. tn)的訓(xùn)練數(shù)據(jù)和一個(gè)新的觀察(q1)。該黑箱算法輸出 q1 的最近鄰 ti 及其對應(yīng)的類別標(biāo)簽 ci。你可以將這個(gè)黑箱算法看作是一個(gè) 1-NN(1-最近鄰)

27. 能夠僅基于該黑箱算法而構(gòu)建一個(gè) k-NN 分類算法?注:相對于 k 而言,n(訓(xùn)練觀察的數(shù)量)非常大。

A. 可以

B. 不行

答案為(A):在第一步,你在這個(gè)黑箱算法中傳遞一個(gè)觀察樣本 q1,使該算法返回一個(gè)最近鄰的觀察樣本及其類別,在第二步,你在訓(xùn)練數(shù)據(jù)中找出最近觀察樣本,然后再一次輸入這個(gè)觀察樣本(q1)。該黑箱算法將再一次返回一個(gè)最近鄰的觀察樣本及其類別。你需要將這個(gè)流程重復(fù) k 次。

28. 我們不使用 1-NN 黑箱,而是使用 j-NN(j>1) 算法作為黑箱。為了使用 j-NN 尋找 k-NN,下面哪個(gè)選項(xiàng)是正確的?

A. j 必須是 k 的一個(gè)合適的因子

B. j>k

C. 不能辦到

答案為(C):原因和 27 題一樣

29. 有以下 7 副散點(diǎn)圖(從左到右分別編號(hào)為 1-7),你需要比較每個(gè)散點(diǎn)圖的變量之間的皮爾遜相關(guān)系數(shù)。下面正確的比較順序是?

  1. 1<2<3<4

  2. 1>2>3 > 4

  3. 7<6<5<4

  4. 7>6>5>4

A. 1 和 3

B. 2 和 3

C. 1 和 4

D. 2 和 4

30. 你可以使用不同的標(biāo)準(zhǔn)評估二元分類問題的表現(xiàn),例如準(zhǔn)確率、log-loss、F-Score。讓我們假設(shè)你使用 log-loss 函數(shù)作為評估標(biāo)準(zhǔn)。下面這些選項(xiàng),哪個(gè)/些是對作為評估標(biāo)準(zhǔn)的 log-loss 的正確解釋。

  1. 如果一個(gè)分類器對不正確的分類很自信,log-loss 會(huì)嚴(yán)重的批評它。

  2. 對一個(gè)特別的觀察而言,分類器為正確的類別分配非常小的概率,然后對 log-loss 的相應(yīng)分布會(huì)非常大。

  3. 3.log-loss 越低,模型越好。

A.1 和 3

B.2 和 3

C.1 和 2

D.1、2、3

答案為(D):答案無需解釋。

問題 31-32 背景:下面是數(shù)據(jù)集給出的 5 個(gè)樣本。

注意:圖像中點(diǎn)之間的視覺距離代表實(shí)際距離。

31. 下面哪個(gè)是 3-NN(3-最近鄰)的留一法交叉驗(yàn)證準(zhǔn)確率?

A.0

B.0.4

C.0.8

D.1

答案為(C):留一法交叉驗(yàn)證,我們將選擇(n-1) 觀察值作為訓(xùn)練,以及驗(yàn)證的 1 觀察值。把每個(gè)點(diǎn)作為交叉驗(yàn)證點(diǎn),然后找到 3 個(gè)最近鄰點(diǎn)。所以,如果你在每個(gè)點(diǎn)上重復(fù)該步驟,你會(huì)為上圖中給出的所有正類找到正確的分類,而錯(cuò)誤分類負(fù)類。因此,得到 80% 的準(zhǔn)確率。

32. 下面哪個(gè) K 值將會(huì)有最低的差一法(leave-one-out)交叉驗(yàn)證精確度?

A. 1NN

B. 3NN

C. 4NN

D. 以上所有具有相同的差一法錯(cuò)誤

答案(A):在 1-NN 中,被錯(cuò)誤分類的每一個(gè)點(diǎn)都意味著你將得到 0% 的精確度。

33. 假設(shè)你被給到以下數(shù)據(jù),你想要在給定的兩個(gè)類別中使用 logistic 回歸模型對它進(jìn)行分類。你正在使用帶有 L1 正則化的 logistic 回歸,其中 C 是正則化參數(shù),w1 和 w2 是 x1 和 x2 的系數(shù)。當(dāng)你把 C 值從 0 增加至非常大的值時(shí),下面哪個(gè)選項(xiàng)是正確的?

A. 第一個(gè) w2 成了 0,接著 w1 也成了 0

B. 第一個(gè) w1 成了 0,接著 w2 也成了 0

C. w1 和 w2 同時(shí)成了 0

D. 即使在 C 成為大值之后,w1 和 w2 都不能成 0

答案(B):通過觀察圖像我們發(fā)現(xiàn),即使只使用 x2,我們也能高效執(zhí)行分類。因此一開始 w1 將成 0;當(dāng)正則化參數(shù)不斷增加時(shí),w2 也會(huì)越來越接近 0。

34. 假設(shè)我們有一個(gè)數(shù)據(jù)集,在一個(gè)深度為 6 的決策樹的幫助下,它可以使用 100% 的精確度被訓(xùn)練?,F(xiàn)在考慮一下兩點(diǎn),并基于這兩點(diǎn)選擇正確的選項(xiàng)。

注意:所有其他超參數(shù)是相同的,所有其他因子不受影響。

  1. 深度為 4 時(shí)將有高偏差和低方差

  2. 深度為 4 時(shí)將有低偏差和低方差

A. 只有 1

B. 只有 2

C. 1 和 2

D. 沒有一個(gè)

答案(A):如果在這樣的數(shù)據(jù)中你擬合深度為 4 的決策樹,這意味著其更有可能與數(shù)據(jù)欠擬合。因此,在欠擬合的情況下,你將獲得高偏差和低方差。

35. 在 k-均值算法中,以下哪個(gè)選項(xiàng)可用于獲得全局最???

  1. 嘗試為不同的質(zhì)心(centroid)初始化運(yùn)行算法

  2. 調(diào)整迭代的次數(shù)

  3. 找到集群的最佳數(shù)量

A. 2 和 3

B. 1 和 3

C. 1 和 2

D. 以上所有

答案(D):所有都可以用來調(diào)試以找到全局最小。

36. 假設(shè)你正在做一個(gè)項(xiàng)目,它是一個(gè)二元分類問題。你在數(shù)據(jù)集上訓(xùn)練一個(gè)模型,并在驗(yàn)證數(shù)據(jù)集上得到混淆矩陣?;谏鲜龌煜仃嚕旅婺膫€(gè)選項(xiàng)會(huì)給你正確的預(yù)測。

  1. 精確度是~0.91

  2. 錯(cuò)誤分類率是~0.91

  3. 假正率(False correct classification)是~0.95

  4. 真正率(True positive rate)是~0.95

A. 1 和 3

B. 2 和 4

C. 1 和 4

D. 2 和 3

答案(C):精確度(正確分類)是 (50+100)/165,約等于 0.91。真正率是你正確預(yù)測正分類的次數(shù),因此真正率將是 100/105 = 0.95,也被稱作敏感度或召回。

37. 對于下面的超參數(shù)來說,更高的值對于決策樹算法更好嗎?

  1. 用于拆分的樣本量

  2. 樹深

  3. 樹葉樣本

A. 1 和 2

B. 2 和 3

C. 1 和 3

D. 1、2 和 3

E. 無法分辨

答案(E):對于選項(xiàng) A、B、C 來說,如果你增加參數(shù)的值,性能并不一定會(huì)提升。例如,如果我們有一個(gè)非常高的樹深值,結(jié)果樹可能會(huì)過擬合數(shù)據(jù),并且也不會(huì)泛化。另一方面,如果我們有一個(gè)非常低的值,結(jié)果樹也許與數(shù)據(jù)欠擬合。因此我們不能確定更高的值對于決策樹算法就更好。

38-39 題背景 :想象一下,你有一個(gè) 28x28 的圖片,并使用輸入深度為 3 和輸出深度為 8 在上面運(yùn)行一個(gè) 3x3 的卷積神經(jīng)網(wǎng)絡(luò)。注意,步幅是 1,你正在使用相同的填充(padding)。

38. 當(dāng)使用給定的參數(shù)時(shí),輸出特征圖的尺寸是多少?

A. 28 寬、28 高、8 深

B. 13 寬、13 高、8 深

C. 28 寬、13 高、8 深

D. 13 寬、28 高、8 深

答案(A):計(jì)算輸出尺寸的公式是:輸出尺寸=(N – F)/S + 1。其中,N 是輸入尺寸,F(xiàn) 是過濾器尺寸,S 是步幅。閱讀這篇文章(鏈接:https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/)獲得更多了解。

39. 當(dāng)使用以下參數(shù)時(shí),輸出特征圖的尺寸是多少?

A. 28 寬、28 高、8 深

B. 13 寬、13 高、8 深

C. 28 寬、13 高、8 深

D. 13 寬、28 高、8 深

答案 (B):同上

40. 假設(shè),我們正在 SVM 算法中為 C(懲罰參數(shù))的不同值進(jìn)行視覺化繪圖。由于某些原因,我們忘記了使用視覺化標(biāo)注 C 值。這個(gè)時(shí)候,下面的哪個(gè)選項(xiàng)在 rbf 內(nèi)核的情況下最好地解釋了下圖(1、2、3 從左到右,圖 1 的 C 值 是 C 1,圖 2 的 C 值 是 C 2,圖 3 的 C 值 是 C 3)中的 C 值。

A. C1 = C2 = C3

B. C1 > C2 > C3

C. C1 < C2 < C3

D. 沒有一個(gè)

答案 (C):錯(cuò)誤項(xiàng)的懲罰參數(shù) C。它也控制平滑決策邊界和訓(xùn)練點(diǎn)正確分類之間的權(quán)衡。對于 C 的大值,優(yōu)化會(huì)選擇一個(gè)較小邊距的超平面。

  • 要想成為一名數(shù)據(jù)科學(xué)家,先了解一下2017年數(shù)據(jù)領(lǐng)域的趨勢,以及數(shù)據(jù)科學(xué)家在其中發(fā)揮的作用。

  • 本文來自頭條號(hào)“造就”的文章《2017年的數(shù)據(jù)策略,會(huì)有哪些大趨勢?》希望對您有幫助,更多關(guān)于數(shù)據(jù)科學(xué)的內(nèi)容敬請關(guān)注頭條號(hào)“造就”。

數(shù)據(jù)不只是企業(yè)的一項(xiàng)業(yè)務(wù),而是關(guān)系到整個(gè)公司的命運(yùn)——它是燃料,是飼料,是動(dòng)力。在過去一年里,這一事實(shí)越來越得到眾人的認(rèn)可。因此,積極制定改善企業(yè)數(shù)據(jù)策略的必要性應(yīng)該引起重視。關(guān)于數(shù)據(jù)策略在過去一年的情況和未來一年的趨勢,我們請多位數(shù)據(jù)專家和思想領(lǐng)袖談了他們的看法。

受訪者包括:美國威斯康星大學(xué)麥迪遜分校首席數(shù)據(jù)官杰森·費(fèi)希貝恩(Jason Fishbain);First San Francisco Partners公司總裁約翰·拉德利(John Ladley);被譽(yù)為“數(shù)據(jù)醫(yī)生”的Data Quality Solutions公司總裁托馬斯·雷德曼(Thomas C. Redman);Nationwide公司首席數(shù)據(jù)官吉姆·泰約(Jim Tyo)。

他們的看法應(yīng)該有助于企業(yè)反思已經(jīng)采取的措施,并思索在新的一年里應(yīng)該采取哪些措施,讓數(shù)據(jù)策略能夠與數(shù)據(jù)價(jià)值相符。

回顧2016年

受訪者指出,在過去的一年里,數(shù)據(jù)策略取得了巨大進(jìn)步,但也存在美中不足之處。

越來越多的企業(yè)將設(shè)立首席數(shù)據(jù)官(CDO)崗位,這是大多數(shù)受訪者都認(rèn)同的一個(gè)趨勢。拉德利說,CDO的涌現(xiàn)表明,企業(yè)已經(jīng)開始認(rèn)識(shí)到數(shù)據(jù)資產(chǎn)的重要性。

據(jù)預(yù)測,到2020年,近九成的財(cái)富500強(qiáng)企業(yè)將設(shè)立首席數(shù)據(jù)官或同等職位。泰約覺得這是件值得慶賀的好事,因?yàn)椋?/p>

“這一職務(wù)不斷涌現(xiàn)的好處在于,CDO越多,我們可以參考和仿效的商業(yè)模式就越多,數(shù)據(jù)界的成功機(jī)會(huì)就越多?!?/p>

泰約說,早期的CDO們“克服最初的艱難困苦,制定出正確的策略,如今將可在利用數(shù)據(jù)推動(dòng)業(yè)務(wù)發(fā)展方面處于非常有利的地位”。在Nationwide公司,每一位業(yè)務(wù)主管都說數(shù)據(jù)很重要,這與幾年前形成鮮明對比。他說:“現(xiàn)在,復(fù)雜棘手的下一個(gè)問題在于,我們?nèi)绾卫脭?shù)據(jù)來獲得競爭優(yōu)勢?”

拉德利認(rèn)為,這是很多企業(yè)將在2017年面對的一個(gè)數(shù)據(jù)策略問題,因?yàn)楦餍懈鳂I(yè)不同規(guī)模的公司都越來越重視數(shù)據(jù)的貨幣化。他說:“把數(shù)據(jù)視為具有可替代價(jià)值的資產(chǎn),這種想法如今在影響著企業(yè)戰(zhàn)略甚至愿景的設(shè)定?!?/p>

另一方面,并不是所有公司都充分意識(shí)到了數(shù)據(jù)資產(chǎn)的價(jià)值。例如,拉德利指出,某些公司的CDO流動(dòng)率很高,說明這一崗位的職責(zé)還不夠明確,企業(yè)還不習(xí)慣領(lǐng)導(dǎo)層中的這個(gè)新角色。這方面的“不安定”可能與某些企業(yè)文化問題有關(guān)。數(shù)據(jù)驅(qū)動(dòng)企業(yè)必須靠有力的數(shù)據(jù)策略來推動(dòng),而這些問題的存在仍在拖慢它們進(jìn)步的腳步。

泰約說,有些企業(yè)認(rèn)為,建立數(shù)據(jù)驅(qū)動(dòng)的文化就是“企圖取代曾使企業(yè)功成名就的偉大傳承和文化”。事實(shí)并非如此。他說,使命和價(jià)值驅(qū)動(dòng)的文化會(huì)令企業(yè)變得很偉大,“而CDO只是試圖引入基于事實(shí)、洞察驅(qū)動(dòng)的方法,好讓這種文化與客戶更加契合?!?/p>

拉德利說,真正意義上的數(shù)據(jù)驅(qū)動(dòng)將大幅改變企業(yè)的商業(yè)模式,影響到管理、架構(gòu)和運(yùn)營。按照雷德曼的說法,不能只從字面上去理解“數(shù)據(jù)驅(qū)動(dòng)的文化”,可惜這種事情常常發(fā)生。

展望2017年(及以后)

受訪者談到了哪些將是企業(yè)數(shù)據(jù)策略的優(yōu)先事項(xiàng)。

雷德曼的回答是繼續(xù)朝向真正的數(shù)據(jù)驅(qū)動(dòng)文化邁進(jìn)。他說,成為數(shù)據(jù)驅(qū)動(dòng)型企業(yè)意味著做出意義深遠(yuǎn)的改變,包括:制定積極的計(jì)劃來照料數(shù)據(jù)(主要涉及質(zhì)量和安全);落實(shí)這一計(jì)劃,并及時(shí)制定和執(zhí)行以獲取市場競爭優(yōu)勢為目標(biāo)的數(shù)據(jù)策略;推進(jìn)管理體系建設(shè),充分發(fā)揮數(shù)據(jù)的特殊屬性。此外,還需要“一份積極主動(dòng)的計(jì)劃,獲取更多的數(shù)據(jù),并以越來越有效的方式將數(shù)據(jù)和直覺結(jié)合起來,使個(gè)人和團(tuán)隊(duì)作出更好的決策”。

他還說,看到他提出的“數(shù)據(jù)煽動(dòng)者”概念引起了很多人的共鳴,這讓他非常高興?!皵?shù)據(jù)煽動(dòng)者”是指一個(gè)人意識(shí)到有更好的方法來處理部門的數(shù)據(jù)問題并肩負(fù)起這個(gè)挑戰(zhàn),從而成為公司其他部門的榜樣。

他說:“我希望在2017年及以后,數(shù)據(jù)煽動(dòng)者的概念會(huì)繼續(xù)引起關(guān)注,有越來越多的人來扮演這個(gè)角色?!绷硗?,他認(rèn)為,最具前瞻性的企業(yè)已經(jīng)開始意識(shí)到利用專有數(shù)據(jù)獲取競爭優(yōu)勢的重要性。

拉德利把改進(jìn)商業(yè)智能(BI)和數(shù)據(jù)報(bào)告作為優(yōu)先事項(xiàng),因?yàn)樗f:“傳統(tǒng)的報(bào)告和BI架構(gòu)大多已經(jīng)過時(shí)”。加強(qiáng)數(shù)據(jù)的報(bào)告分析基礎(chǔ)也在泰約的清單上,原因是“和我交談過的十位企業(yè)高管中,有九位都把簡潔快速的報(bào)告和分析列為他們在數(shù)據(jù)方面的優(yōu)先事項(xiàng)”。他認(rèn)為,這在很大程度上源于數(shù)據(jù)辦公室的“酷因素”正在拓展到大數(shù)據(jù)、物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)、人工智能等方面,但中小型數(shù)據(jù)、運(yùn)營報(bào)告和更傳統(tǒng)的分析與建模需求同樣重要。

“獲取(恰當(dāng)數(shù)據(jù)的)能力不足將催生出影子企業(yè)或以外包優(yōu)先的數(shù)據(jù)策略?!碧┘s說。為了避免這種問題,數(shù)據(jù)策略應(yīng)該包括建立“一個(gè)專門的辦公室,為處于數(shù)據(jù)成熟度不同階段的業(yè)務(wù)提供不同選擇”。

泰約還認(rèn)為,利用數(shù)據(jù)來實(shí)現(xiàn)客戶體驗(yàn)差異化和規(guī)范性建模(就特定結(jié)果提供建議)將引起關(guān)注。而拉德利認(rèn)為,所有企業(yè)都將熱烈擁抱預(yù)測分析,不管他們需不需要。預(yù)測分析提供基于數(shù)據(jù)的可執(zhí)行見解?!懊课籆EO都想獲得新的見解,哪怕他們現(xiàn)在連準(zhǔn)確的運(yùn)營報(bào)告都還拿不到?!彼f。

拉德利還說,數(shù)據(jù)治理(仍然是重要的企業(yè)活動(dòng),常常作為主數(shù)據(jù)管理或者大數(shù)據(jù)等工作的一部分)將從IT或IM轉(zhuǎn)移到合規(guī)或風(fēng)險(xiǎn)管理領(lǐng)域?!癐T內(nèi)部的數(shù)據(jù)治理不管用。這種看法將繼續(xù)蔓延?!彼f。

從縱向角度來看(這里是指高等教育),費(fèi)希貝恩認(rèn)為,數(shù)據(jù)策略將圍繞著收集和利用新的數(shù)據(jù)來源展開,以便改善教學(xué)?!敖档蛯W(xué)生入學(xué)費(fèi)、提高畢業(yè)率的壓力很大?!彼f,“數(shù)據(jù)策略必須與這種壓力相適應(yīng)。”

提到數(shù)據(jù)策略,應(yīng)該對哪些方面多加注意?

費(fèi)希貝恩認(rèn)為,應(yīng)該更加注意理解數(shù)據(jù)背后的語境:數(shù)據(jù)是如何收集的?利用已有數(shù)據(jù)可以作出什么決定?還可利用哪些數(shù)據(jù)源切實(shí)看清局勢發(fā)展,從而作出更明智的決定?“如果只看數(shù)據(jù)而忽略語境,還能算是數(shù)據(jù)驅(qū)動(dòng)型文化嗎?”他如此發(fā)問。

拉德利說,元數(shù)據(jù)必不可少,也是最基本的要素,他希望看到更多的企業(yè)“認(rèn)真務(wù)實(shí)地部署一些出色的元數(shù)據(jù)設(shè)施”。他并不介意企業(yè)的數(shù)據(jù)策略將重心更多地放在數(shù)據(jù)使用方面的協(xié)作上。他說,大部分企業(yè)就連數(shù)據(jù)使用方面的配合都做不到:

“真正的協(xié)作需要企業(yè)拋棄過時(shí)的卓越中心概念,轉(zhuǎn)而把數(shù)據(jù)視為跨越各座孤島的大一統(tǒng)因素,就像財(cái)務(wù)和預(yù)算那樣?!?/p>

說到孤島,“我希望看到傳統(tǒng)的孤島型企業(yè)能以有實(shí)質(zhì)意義的方式,更好地接納數(shù)據(jù)可視化?!碧┘s說,“利用企業(yè)的工具與設(shè)施,更多地聚合數(shù)據(jù)源,將會(huì)加強(qiáng)整個(gè)計(jì)劃的效果,加速實(shí)現(xiàn)CDO的很多戰(zhàn)略目標(biāo)?!?/p>

在雷德曼看來,他到目前為止看到的種種數(shù)據(jù)策略“亮點(diǎn)”尚未有效疊加成有實(shí)際意義的模式。他仍然擔(dān)心,企業(yè)不會(huì)從以前犯下的數(shù)據(jù)質(zhì)量和數(shù)據(jù)架構(gòu)錯(cuò)誤中吸取教訓(xùn),比如尋求短期的緩解而放過更深層次的原因。此外,“我認(rèn)為很多企業(yè)的行動(dòng)不夠快,整個(gè)行業(yè)的行動(dòng)也不夠快?!彼f。

他認(rèn)為,現(xiàn)在是進(jìn)入數(shù)據(jù)領(lǐng)域的最好時(shí)機(jī)。但“如果行動(dòng)不夠快,那么發(fā)生另一場危機(jī)的可能性就會(huì)提高?!崩椎侣f,“經(jīng)濟(jì)大蕭條與壞數(shù)據(jù)有很深的淵源——而我們承受不起第二次?!?/p>

翻譯:于波

來源:Dataversity

造就:劇院式的線下演講平臺(tái),發(fā)現(xiàn)最有創(chuàng)造力的思想

  1、決問題

  如果這個(gè)不是你清單中的首位的話,馬上去修改。所有科學(xué)核心都是解決問題:一個(gè)偉大的數(shù)據(jù)科學(xué)家也是一個(gè)偉大的問題解決者;就是這么簡單。需要更進(jìn)一步的證明嗎,基本我在這個(gè)項(xiàng)目中碰到的每一個(gè)人(不管其背景和目前工作環(huán)境如何)都提到數(shù)據(jù)科學(xué)中最重要的因素就是解決問題。

  很明顯,你需要有工具去解決問題,但是它們只是:工具。在這種情況下,即便是統(tǒng)計(jì)/機(jī)器學(xué)習(xí)技術(shù)也可以認(rèn)為是你解決問題的工具。新的技術(shù)出現(xiàn)了,科技進(jìn)步了。唯一不變的就是解決問題。

  在某種程度上,你解決問題的能力是由天賦決定的,但是與此同時(shí)有且僅有一個(gè)方式來進(jìn)行提高:那就是練習(xí)、練習(xí)、練習(xí)。在后面我們會(huì)回顧這部分內(nèi)容,但是現(xiàn)在你只需要記?。耗阒荒芡ㄟ^嘗試來掌握某件事情。

  2. 統(tǒng)計(jì)/機(jī)器學(xué)習(xí)

  看完上面的內(nèi)容,似乎我輕視了統(tǒng)計(jì)和機(jī)器學(xué)習(xí)。不過在這里我們并不是討論一個(gè)強(qiáng)力的工具;它們是非常復(fù)雜的(而且在某種程度上是非常深?yuàn)W的領(lǐng)域),如果你沒有專業(yè)的知識(shí),你也不會(huì)很快地解決數(shù)據(jù)科學(xué)問題。

  進(jìn)一步對這些詞進(jìn)行解釋說明,機(jī)器學(xué)習(xí)可以被認(rèn)為是從人工智能/計(jì)算科學(xué)與統(tǒng)計(jì)學(xué)中發(fā)展起來的多學(xué)科領(lǐng)域。它通常被認(rèn)為是人工智能的一個(gè)子領(lǐng)域,這是正確的,但是很重要的是要意識(shí)到?jīng)]有統(tǒng)計(jì)學(xué)的話就沒有機(jī)器學(xué)習(xí)(機(jī)器學(xué)習(xí)非常依賴統(tǒng)計(jì)算法來工作)。很長一段時(shí)間依賴統(tǒng)計(jì)學(xué)家都被機(jī)器學(xué)習(xí)所輕視,但是在這兩個(gè)領(lǐng)域的合作才造就了最近的發(fā)展(參見統(tǒng)計(jì)學(xué)習(xí)理論),順便提下高維統(tǒng)計(jì)學(xué)習(xí)只有在統(tǒng)計(jì)學(xué)家與機(jī)器學(xué)習(xí)結(jié)果合作時(shí)才會(huì)有良好的結(jié)果。

  3. 計(jì)算

  編程

  對于我們來說只需要簡單的接觸程序就行,因?yàn)樗鼞?yīng)該是很直觀的:但是對數(shù)據(jù)科學(xué)家來說編程是必須要會(huì)的。設(shè)想下如果你不會(huì)編程的話,如何才能通過編寫一段獨(dú)特的算法來實(shí)現(xiàn)你的理論?又或者建立一個(gè)統(tǒng)計(jì)模型?

  如何成為一名數(shù)據(jù)科學(xué)家?

  分布式計(jì)算

  并不是所有事情都需要超級大的數(shù)據(jù)組,但是考慮到現(xiàn)代世界的情況,建議在工作中都加上大數(shù)據(jù)。簡而言之:單一計(jì)算機(jī)中的主要內(nèi)存并不能實(shí)現(xiàn)大數(shù)據(jù)處理,如果你想同時(shí)在數(shù)百臺(tái)虛擬機(jī)中訓(xùn)練模型的話,你需要能夠使用分布計(jì)算與并行算法。

  軟件工程

  對于A類數(shù)據(jù)科學(xué)而言,讓我明確一點(diǎn):工程是一門獨(dú)立的學(xué)科。因此如果這是你想成為的數(shù)據(jù)科學(xué)家類型,你其實(shí)不需要成為一個(gè)工程師。然而,如果你想把機(jī)器學(xué)習(xí)算法轉(zhuǎn)化到應(yīng)用中(即B類),那么你將需要一個(gè)強(qiáng)大的軟件工程基礎(chǔ)。

  手動(dòng)轉(zhuǎn)換數(shù)據(jù)

  數(shù)據(jù)清理/準(zhǔn)備是數(shù)據(jù)科學(xué)的重要內(nèi)在組成部分。這將耗費(fèi)你大多數(shù)時(shí)間。倘若你沒有成功地對數(shù)據(jù)集進(jìn)行降噪(例如,錯(cuò)誤賦值,非標(biāo)準(zhǔn)化分類等),將會(huì)對建模的準(zhǔn)確性產(chǎn)生影響,最終導(dǎo)致產(chǎn)生錯(cuò)誤的結(jié)論。因此,如果你尚未做好處理數(shù)據(jù)的準(zhǔn)備,這將使你先前的知識(shí)積累顯得無關(guān)重要。

  有一點(diǎn)是非常重要的且值得注意的,即在商業(yè)化組織中數(shù)據(jù)質(zhì)量一直以來成為飽受爭議的話題,在數(shù)據(jù)儲(chǔ)存方面,許多業(yè)務(wù)又涉及到復(fù)雜的基礎(chǔ)事務(wù)需要處理。所以,如果你尚未準(zhǔn)備好融入這個(gè)環(huán)境中,想要處理純粹的數(shù)據(jù)集,商業(yè)數(shù)據(jù)科學(xué)可能不是最適合你的選擇。

  工具與技術(shù)

  直至目前,你應(yīng)當(dāng)意識(shí)到,成為一名具備解決問題的能力的數(shù)據(jù)科學(xué)家相比于其他一切條件來講是重中之重:因?yàn)榧夹g(shù)將不斷發(fā)生變化,能夠在相對較短的時(shí)間內(nèi)得到掌握。但是,我們不能對其他影響因素置之不理,因而,能夠認(rèn)清楚如今應(yīng)用最廣泛的工具對于成為一名數(shù)據(jù)科學(xué)家是有用的。

  讓我們先從編程語言談起,R與Python是兩種最常用的編程語言,因而,如果能夠選擇的話,希望你選用其中一種語言用于實(shí)驗(yàn)研究。

  尤其是在A類數(shù)據(jù)科學(xué)工作領(lǐng)域,具備能夠直觀地觀察數(shù)據(jù)的能力將會(huì)對與非技術(shù)型商業(yè)股東交流溝通產(chǎn)生重大影響。你可能具有最優(yōu)的模型和最深刻的見解,但是如果不能有效地呈現(xiàn)/解釋這些研究成果,那又將有什么用呢?事實(shí)上,你運(yùn)用什么工具實(shí)現(xiàn)數(shù)據(jù)直觀可視化并不重要,可以是通過使用R或Tableau(當(dāng)時(shí)最為流行的編程語言),但是,說實(shí)話,工具是不太重要的。

  最后,不論我們所討論的是關(guān)系型數(shù)據(jù)庫,還是運(yùn)用大數(shù)據(jù)技術(shù)獲得的SQL衍生數(shù)據(jù)庫,由于SQL是當(dāng)時(shí)產(chǎn)業(yè)界用于數(shù)據(jù)庫中最為廣泛的編程語言,大多數(shù)公司都非??粗豐QL這種編程語言。SQL對于手動(dòng)轉(zhuǎn)換數(shù)據(jù)尤為重要,至少在處理更大規(guī)模的數(shù)據(jù)庫時(shí)。總之,SQL真的值得你花費(fèi)一定的時(shí)間來好好研究應(yīng)用。

  交流/商業(yè)頭腦

  在商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域工作,具備交流溝通能力/商業(yè)頭腦是不容忽視的。除非你將要從事非常具體的工作,可能是純研究類型的工作(盡管我們要面對現(xiàn)實(shí),在產(chǎn)業(yè)界并沒有很多這種類型的工作),絕大多數(shù)數(shù)據(jù)科學(xué)領(lǐng)域的工作都涉及到業(yè)界交流互動(dòng),通常是與非學(xué)者類型的人打交道。

  具備將商業(yè)化問題和催生這些問題的環(huán)境概念化是極為重要的。將統(tǒng)計(jì)學(xué)方面的觀點(diǎn)轉(zhuǎn)化為可以想普通大眾推薦的行動(dòng)或啟發(fā)性觀點(diǎn)也是重要的,特別是對于A類型數(shù)據(jù)科學(xué)領(lǐng)域的工作來講。我曾與Yanir就該話題交談過,他的觀點(diǎn)如下:

  “我發(fā)現(xiàn)一種奇怪的現(xiàn)象,當(dāng)一些技術(shù)型人才開始使用行話與人交流時(shí),他們并不留意他們的交談?wù)摺切┓羌夹g(shù)型人才,的目光早已落到了別處。在交談過程中,能夠設(shè)身處地地為他人著想是重要的。”


西線學(xué)院為大家整理了一套非常齊全的大數(shù)據(jù)視頻課程資料https://jinshuju.net/f/06LHFH?x_field_1=toutiao,它可以幫助大家更全面徹底地了解,不論是興趣愛好還是單純的為了就業(yè),它都是不錯(cuò)的選擇!

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數(shù)據(jù)科學(xué)家必備技能Top10
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服