這幾年，圍繞大數(shù)據(jù)和數(shù)據(jù)科學(xué)有許多炒作。其實(shí)要理解某樣?xùn)|西，有時(shí)需要清楚的了解它不是什么；數(shù)據(jù)科學(xué)家，不是統(tǒng)計(jì)學(xué)家，不是數(shù)據(jù)分析師，不是軟件工程師，不是業(yè)務(wù)分析師，他們對這些領(lǐng)域都有一些了解，但又不完全精通于這些領(lǐng)域。

所以正確的做法是抓住大數(shù)據(jù)行業(yè)的中點(diǎn)，摒棄過時(shí)的手法。比如，你需要了解的知識(shí)雖然有統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)。但你并不需要對其無所不知，也沒有必要糾結(jié)那些極其復(fù)雜的算法。

數(shù)據(jù)科學(xué)家在商業(yè)分析、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域是通才，他們可以開發(fā)數(shù)據(jù)、收集策略并使用數(shù)據(jù)發(fā)現(xiàn)一些可操作的商業(yè)見解。也就是說，數(shù)據(jù)科學(xué)家要具有創(chuàng)造性，能根據(jù)分析業(yè)務(wù)，通過數(shù)據(jù)，制定分析，提出方案，推動(dòng)增長。

所以現(xiàn)在你發(fā)現(xiàn)了，數(shù)據(jù)科學(xué)包含的知識(shí)非常廣泛，既不像網(wǎng)絡(luò)上說的各種算法那樣高深莫測，也不是三言兩語就能解釋清楚如何成為數(shù)據(jù)科學(xué)家這個(gè)問題那么簡單。

首先，要理解數(shù)據(jù)科學(xué)，基本數(shù)學(xué)知識(shí)包括：

代數(shù)，基本矩陣論；
微積分入門課程；要掌握的理論不多。只需要理解計(jì)算復(fù)雜度，了解特殊函數(shù)
統(tǒng)計(jì)與概率論基礎(chǔ)入門課程；可以挑一本基礎(chǔ)統(tǒng)計(jì)學(xué)書籍閱讀掌握

從技術(shù)的角度出發(fā)，要掌握的技能和知識(shí)有：

R語言；
Python(或Perl)；了解基本網(wǎng)絡(luò)爬蟲知識(shí)，有助于獲取互聯(lián)網(wǎng)上能找到的非結(jié)構(gòu)化數(shù)據(jù)
Excel；PowerPiviot插件可以用來處理大數(shù)據(jù)集
SQL ；數(shù)據(jù)庫的設(shè)計(jì)和訪問要有基本了解
(圖形)可視化工具；

但是掌握一門專業(yè)知識(shí)最好的方法還是系統(tǒng)性的閱讀書籍。如果想進(jìn)一步了解數(shù)據(jù)科學(xué)家的工作或者如何提升自己的數(shù)據(jù)科學(xué)技能，我推薦以下這幾本書籍：《數(shù)據(jù)天才》、《敏捷數(shù)據(jù)科學(xué)》、《數(shù)據(jù)科學(xué)家養(yǎng)成手冊》、《Python大戰(zhàn)機(jī)器學(xué)習(xí)》

評論

機(jī)器之心頭條號(hào)優(yōu)質(zhì)科技原創(chuàng)作者 05-16 18:14

43贊

踩

在外界看來，「大數(shù)據(jù)」和「數(shù)據(jù)科學(xué)」這樣的詞看起來復(fù)雜又神秘。數(shù)據(jù)科學(xué)被稱為「21世紀(jì)最性感的工作」。所要成為一名數(shù)據(jù)科學(xué)家，要實(shí)有際的付出，比如，需要具備成為數(shù)據(jù)科學(xué)家的三項(xiàng)能力，以及為走向數(shù)據(jù)科學(xué)做好一些準(zhǔn)備，觀看一些有關(guān)數(shù)據(jù)科學(xué)的優(yōu)秀在線課程，閱讀不得不讀的數(shù)據(jù)科學(xué)經(jīng)典書籍；如果，你學(xué)有所成，也可以找一些好的測試題自我檢驗(yàn)一下；而以上，正是本文所要分享的內(nèi)容，希望對你能有所幫助！

數(shù)據(jù)科學(xué)家需要具備的三項(xiàng)能力

數(shù)據(jù)科學(xué)家」這個(gè)詞覆蓋的角色很廣，涵蓋了學(xué)術(shù)、金融和政府等多種產(chǎn)業(yè)和組織。然而，有三個(gè)重要的能力是每位數(shù)據(jù)科學(xué)家都必須理解的：

1、必須理解數(shù)據(jù)是有意義的

我們經(jīng)常忽視一個(gè)事實(shí)，那就是數(shù)據(jù)是有含義的，并且理解其中的意義非常重要。如果我們想要在數(shù)字中獲得有用的洞察，就必須超越數(shù)字，理解它們暗藏的內(nèi)涵。這一點(diǎn)與算法和工程等沒有關(guān)系。理解數(shù)據(jù)是一門藝術(shù)，真的非常重要。

2、必須理解你需要解決的問題，以及數(shù)據(jù)與之的聯(lián)系

此時(shí)，你可以打開工具箱，找到正確的分析方法和算法來分析數(shù)據(jù)。機(jī)器學(xué)習(xí)可以進(jìn)行技術(shù)分析。除了機(jī)器學(xué)習(xí)之外，還有幾百種技術(shù)可以用數(shù)據(jù)來解決問題，例如運(yùn)籌學(xué)、決策論、博弈論、控制論等，這些理論都有很長的歷史。一旦你理解了數(shù)據(jù)和你試圖解決的問題，下一步就應(yīng)該選擇匹配的算法，來獲得有意義的解。

3、必須理解工程問題

第三個(gè)能力是理解和運(yùn)用執(zhí)行分析任務(wù)的設(shè)備，就是「如果你在正確的時(shí)間和地點(diǎn)沒有基礎(chǔ)設(shè)備來高效精確地運(yùn)行分析任務(wù)，那一切都是白搭?！?/p>

做好走向數(shù)據(jù)科學(xué)的準(zhǔn)備

1、最重要的是：無論你想要在目前的工作中學(xué)到什么，都要找到方法

找到一個(gè)涉及更多編碼/數(shù)據(jù)分析且對你的雇主有幫助的項(xiàng)目。嘗試使任何無聊的任務(wù)自動(dòng)化。即使這個(gè)過程需要 5 倍的時(shí)間（即使這樣的任務(wù)你只做一次！），但你正是通過這樣來學(xué)習(xí)。

2、分析您擁有的任何數(shù)據(jù)

比如消費(fèi)前的研究數(shù)據(jù)（即決定要購買哪種微波爐），個(gè)人健身追蹤器的數(shù)據(jù)，烹飪食譜的營養(yǎng)數(shù)據(jù)，為孩子調(diào)查的學(xué)前教育數(shù)據(jù)。把它變成一個(gè)小型的數(shù)據(jù)分析項(xiàng)目，并寫到博客中。例如如果你是研究生，你可以分析所教學(xué)生的年級數(shù)據(jù)。

3、學(xué)習(xí)最重要的數(shù)據(jù)科學(xué)軟件工具

Python's data science stack（pandas / numpy / scipy）是最有用的技術(shù)（閱讀本書?。?，緊隨其后的是 SQL。在學(xué)習(xí)其他語言之前我會(huì)專注于學(xué)習(xí) Python 和 SQL。Python 被廣泛使用且非常靈活。如果你決定參與到更多的軟件開發(fā)工作，或者全面進(jìn)入機(jī)器學(xué)習(xí)，你會(huì)有優(yōu)勢。

4、使用 Kaggle

做教程，參加論壇，參加比賽（不要擔(dān)心你處于什么水平- 只是專注于每天做得更好一點(diǎn)）。這是學(xué)習(xí)實(shí)用機(jī)器技能的最好方法。

5、搜索您所在地區(qū)的數(shù)據(jù)科學(xué)和技術(shù)會(huì)議

隨著數(shù)據(jù)科學(xué)在過去幾年的激增，如今在全球有各種會(huì)議。例如，Google 最近在加利福尼亞州山景城舉辦了一次 TensorFlow Dev 峰會(huì)，但有全世界觀眾一起觀看直播（包括尼日利亞的阿布賈，印度的哥印拜陀和摩洛哥的拉巴特）。

數(shù)據(jù)科學(xué)在線課程

在線課程是一個(gè)了不起的資源。你可以在家里舒適地跟隨世界上最好的數(shù)據(jù)科學(xué)家學(xué)習(xí)。通常作業(yè)是學(xué)習(xí)最多的地方，所以不要跳過它們！這里有幾個(gè)我最喜歡的課程：

Andrew Ng 的經(jīng)典機(jī)器學(xué)習(xí)公開課（雖然沒有在 Octave / MATLAB 上花太多時(shí)間，但他把算法解釋地非常完美），或許用 Python 完成這項(xiàng)工作更好
快速實(shí)習(xí)深度學(xué)習(xí)課程。透露：我協(xié)助開設(shè)了這門課程，我們得到了許多學(xué)生的積極反饋。其中唯一的先決條件是一年的編碼經(jīng)驗(yàn)。
Udacity 的數(shù)據(jù)科學(xué)系列。
Udacity 的 Web 開發(fā)課程。如果想成為一個(gè)數(shù)據(jù)科學(xué)家在技術(shù)上不需要了解這些，但成為一個(gè)更好的軟件開發(fā)人員可以使你成為一個(gè)更好的數(shù)據(jù)科學(xué)家，了解如何構(gòu)建自己的網(wǎng)絡(luò)應(yīng)用程序非常有用。

上述強(qiáng)調(diào)的問題之一是，在線可用的信息、教程和課程的數(shù)量或許巨大的，最大的風(fēng)險(xiǎn)之一是不能持之以恒，不能完成或堅(jiān)持足夠長的時(shí)間來學(xué)習(xí)它。重要的是找到一個(gè)「足夠好」的課程或項(xiàng)目，然后堅(jiān)持下去。找到或組建一個(gè)見面團(tuán)隊(duì)來一起學(xué)完在線課程或許對解決這個(gè)問題有幫助。

在線課程對獲取知識(shí)非常有用（做完作業(yè)非常重要，這是你學(xué)習(xí)的方式）。不過，我還沒發(fā)現(xiàn)獲得證書有啥好處。（雖然我知道這是一個(gè)新增長的領(lǐng)域）。因?yàn)橹肮蛡驍?shù)據(jù)科學(xué)家時(shí)，我面試過很多求職者，而且自己也有這方面的求職經(jīng)驗(yàn)，都是經(jīng)驗(yàn)之談。

數(shù)據(jù)科學(xué)家要讀的書籍

作為一位數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師或機(jī)器學(xué)習(xí)研究者，面對市面上各種各樣的相關(guān)書籍一定會(huì)感覺難以取舍。這是一份數(shù)據(jù)驅(qū)動(dòng)的客觀書單，希望可以有所幫助：

An Introduction to Statistical Learning: With Applications in R（統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論 : 基于R應(yīng)用）

價(jià)格：英文版 61.36 美元，中文版 63.1 元

品質(zhì)得分：10/10

這本書在亞馬遜上評分非常高，其作者是來自南加利福尼亞大學(xué)、斯坦福大學(xué)和華盛頓大學(xué)的四位教授 Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani；他們都有統(tǒng)計(jì)學(xué)背景。這本書比《The Elements of Statistical Learning（統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ)）》更為實(shí)用，它給出了一些使用 R 語言實(shí)現(xiàn)的案例。

2.The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition（統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ)：數(shù)據(jù)挖掘、推理和預(yù)測）

價(jià)格：英文版 62.0 美元，中文版 45 元

品質(zhì)得分：9/10

亞馬遜上的高分書籍，作者是斯坦福大學(xué)的三位統(tǒng)計(jì)學(xué)教授。第一作者 Trevor Hastie 具有統(tǒng)計(jì)學(xué)和生物統(tǒng)計(jì)學(xué)方面的研究背景。關(guān)于這本書的一個(gè)有趣的事情是作者們以統(tǒng)計(jì)學(xué)的視角看待機(jī)器學(xué)習(xí)問題。這本書似乎過于關(guān)注理論了，所以一些讀者可能傾向于略過它。

3.Pattern Recognition and Machine Learning（模式識(shí)別與機(jī)器學(xué)習(xí)）

價(jià)格：英文版 60.0 美元，無中文版

品質(zhì)得分：8/10

亞馬遜上的高分書籍，作者是著名作家 Christopher M. Bishop，他是微軟劍橋研究院的一位杰出科學(xué)家，領(lǐng)導(dǎo)微軟機(jī)器學(xué)習(xí)與感知研究組。這本書在技術(shù)上全面覆蓋了各種機(jī)器學(xué)習(xí)主題，包括回歸、線性分類、神經(jīng)網(wǎng)絡(luò)、核方法和圖模型。

4. Machine Learning: A Probabilistic Perspective（機(jī)器學(xué)習(xí)：概率學(xué)的觀點(diǎn)）

價(jià)格：英文版 79.16 美元，無中文版

品質(zhì)得分: 7/10

Machine Learning: A Probabilistic Perspective 一書提供了可以自動(dòng)檢測數(shù)據(jù)模式，然后使用得出的模式預(yù)測未來數(shù)據(jù)的方法。該教材基于統(tǒng)一的、概率學(xué)的方法對機(jī)器學(xué)習(xí)領(lǐng)域提供了全面的介紹。該書的作者 Kevin Murphy 是谷歌的一位研究人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、知識(shí)基礎(chǔ)建設(shè)和自然語言處理的研究科學(xué)家。

5. Data Mining: Concepts and Techniques, Third Edition（數(shù)據(jù)挖掘：概念與技術(shù)，第三版）

價(jià)格：英文版 50.0 美元，中文版 79.0 元

品質(zhì)得分： 6/10

Data Mining: Concepts and Techniques, Third Edition 一書的作者是伊利諾伊大學(xué)香檳分校計(jì)算機(jī)科學(xué)系的 Jiawei Han（韓家煒）教授。這本書能讓你了解、應(yīng)用從大數(shù)據(jù)集中發(fā)現(xiàn)隱藏模式的理論和實(shí)踐知識(shí)。這本書在亞馬遜上獲得了較為平均的評價(jià)。

6. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition（數(shù)據(jù)挖掘：實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)，第3版）

價(jià)格：英文版 37.5 美元，中文版 79.0 元

品質(zhì)得分： 6/10

這本書在亞馬遜上的評價(jià)相當(dāng)不錯(cuò)，其作者為新西蘭懷卡托大學(xué)的三位計(jì)算機(jī)科學(xué)教授。他們也是基于 Java 的數(shù)據(jù)挖掘軟件 Weka 的主要貢獻(xiàn)者。因此，這本書重在數(shù)據(jù)挖掘領(lǐng)域的具體實(shí)現(xiàn)方面，尤其是基于 Weka 軟件的工作平臺(tái)。

7. Probabilistic Graphical Models: Principles and Techniques（概率圖模型：原理與技術(shù)）

價(jià)格：英文版 91.66 美元，中文版 198 元

品質(zhì)得分： 6/10

Probabilistic Graphical Models: Principles and Techniques 這本獨(dú)特的書提供了設(shè)計(jì)自動(dòng)推理系統(tǒng)的概率圖框架。這本書的作者是兩位計(jì)算機(jī)科學(xué)教授：來自斯坦福大學(xué)人工智能實(shí)驗(yàn)室的 Daphne Koller 和來自耶路撒冷希伯來大學(xué)的 Nir Friedman。

8. Introduction to Information Retrieval（信息檢索導(dǎo)論）

價(jià)格：英文版 57.0 美元，中文版 69 元

品質(zhì)得分： 6/10

Introduction to Information Retrieval 的第一作者是斯坦福計(jì)算機(jī)科學(xué)教授 Christopher Manning。這是講解網(wǎng)絡(luò)時(shí)代的信息檢索的教科書，包括網(wǎng)絡(luò)搜索，以及與文本分類和文本聚類的基本概念相關(guān)的領(lǐng)域。

9. Machine Learning（機(jī)器學(xué)習(xí)）

價(jià)格：英文版 211.6 美元，中文版 35 元

品質(zhì)得分： 5/10

Machine Learning 是機(jī)器學(xué)習(xí)領(lǐng)域一本非常著名的著作，其作者是美國卡內(nèi)基·梅隆大學(xué)計(jì)算機(jī)科學(xué)教授 Tom Mitchell。Tom Mitchell 是世界上第一個(gè)機(jī)器學(xué)習(xí)系的第一任系主任。Machine Learning 一書涵蓋了機(jī)器學(xué)習(xí)的一些基本領(lǐng)域，包括學(xué)習(xí)、決策樹學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。

10. Speech and Language Processing, 2nd Edition（語音和語言處理，第二版）

價(jià)格：英文版 78.65 美元，無中文版

品質(zhì)得分： 5/10

Speech and Language Processing 的作者是斯坦福大學(xué)語言學(xué)和計(jì)算機(jī)科學(xué)教授 Dan Jurafsky。這是全面覆蓋語言技術(shù)的第一本書——在所有層次上且包含所有現(xiàn)代技術(shù)。基于大型企業(yè)使用的應(yīng)用統(tǒng)計(jì)和其它機(jī)器學(xué)習(xí)算法，這本書在語言技術(shù)這一主題上使用了實(shí)證的方法

11. Introduction to Data Mining（數(shù)據(jù)挖掘?qū)д摚?/p>

價(jià)格：英文版 118.91 美元，中文版 49.0 元

品質(zhì)得分： 4/10

這本書在亞馬遜上獲得了很好的評分，其作者是三位計(jì)算機(jī)科學(xué)教授：密歇根州立大學(xué)的 Pang-Ning Tan、明尼蘇達(dá)大學(xué)的 Michael Steinbach 和 Vipin Kumar。這本書涵蓋了數(shù)據(jù)挖掘的不同基本領(lǐng)域，如：分類、關(guān)聯(lián)分析、聚類和異常檢測。

12. Neural Networks for Pattern Recognition（用于模式識(shí)別的神經(jīng)網(wǎng)絡(luò)）

價(jià)格：英文版 88.42 美元，無中文版

品質(zhì)得分： 4/10

Neural Networks for Pattern Recognition 算是一本老書了，但其作者是微軟劍橋研究院的杰出科學(xué)家 Christopher M. Bishop。

13. Foundations of Statistical Natural Language Processing（統(tǒng)計(jì)自然語言處理基礎(chǔ)）

價(jià)格：英文版 87.27 美元，中文版 55 元

品質(zhì)得分： 4/10

Foundations of Statistical Natural Language Processing 是亞馬遜上評分非常好的一本自然語言處理書籍。用統(tǒng)計(jì)方法處理自然語言文本近來已經(jīng)占據(jù)了主導(dǎo)地位。這本書對統(tǒng)計(jì)自然語言處理（NLP）進(jìn)行了全面的介紹，含所有開發(fā) NLP 工具所需的理論和算法。

14. Handbook of Statistical Analysis and Data Mining Applications（統(tǒng)計(jì)分析和數(shù)據(jù)挖掘應(yīng)用手冊）

價(jià)格：英文版 72.81 美元，無中文版

品質(zhì)得分： 4/10

這本書在亞馬遜的評分高于平均分，其作者是三位在數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)領(lǐng)域有行業(yè)經(jīng)驗(yàn)的博士。這本書是一本指導(dǎo)商業(yè)分析師、科學(xué)家、工程師和研究者的全面的專業(yè)參考書，其中包含不同階段的數(shù)據(jù)分析、建模和實(shí)現(xiàn)。

15. Understanding Machine Learning: From Theory to Algorithms（理解機(jī)器學(xué)習(xí)：從理論到算法）

價(jià)格：英文版 52.76 美元，無中文版

品質(zhì)得分： 4/10

Understanding Machine Learning: From Theory to Algorithms 提供了解釋機(jī)器學(xué)習(xí)基本思想的廣泛理論和將這些原理轉(zhuǎn)化成實(shí)際算法的數(shù)學(xué)推導(dǎo)。這本書的兩位作者是分別來自耶路撒冷希伯來大學(xué)和滑鐵盧大學(xué)的計(jì)算機(jī)科學(xué)教授。

16. Foundations of Machine Learning（機(jī)器學(xué)習(xí)基礎(chǔ)）

價(jià)格：英文版 96.56 美元，無中文版

品質(zhì)得分： 3/10

Foundations of Machine Learning 是一本研究生階段的教科書，介紹了機(jī)器學(xué)習(xí)的基本概念和方法。這本書描述了幾種重要的算法，提供了這些算法的理論基礎(chǔ)，并闡釋了這些算法應(yīng)用的主要方面。其作者 Mehryar Mohri 是紐約大學(xué)庫朗數(shù)學(xué)科學(xué)研究所的計(jì)算機(jī)科學(xué)教授。

40 道數(shù)據(jù)科學(xué)測試題（附答案）

如果你是一名數(shù)據(jù)科學(xué)家，那就需要對機(jī)器學(xué)習(xí)很擅長，而不只是三腳貓的功夫。測試包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、時(shí)序問題以及概率。數(shù)據(jù)科學(xué)家可以就這些關(guān)鍵技能進(jìn)行自我評估。算是對以上內(nèi)容的一個(gè)補(bǔ)充。

假定特征 F1 可以取特定值：A、B、C、D、E 和 F，其代表著學(xué)生在大學(xué)所獲得的評分?，F(xiàn)在請答題：

1. 在下面說法中哪一項(xiàng)是正確的？

A. 特征 F1 是名義變量（nominal variable）的一個(gè)實(shí)例。

B. 特征 F1 是有序變量（ordinal variable）的一個(gè)實(shí)例。

C. 該特征并不屬于以上的分類。

D. 以上說法都正確。

答案為（B）：有序變量是一種在類別上有某些順序的變量。例如，等級 A 就要比等級 B 所代表的成績好一些。

2. 下面哪個(gè)選項(xiàng)中哪一項(xiàng)屬于確定性算法？

A.PCA

B.K-Means

C. 以上都不是

答案為（A）：確定性算法表明在不同運(yùn)行中，算法輸出并不會(huì)改變。如果我們再一次運(yùn)行算法，PCA 會(huì)得出相同的結(jié)果，而 k-means 不會(huì)。

3. 兩個(gè)變量的 Pearson 相關(guān)性系數(shù)為零，但這兩個(gè)變量的值同樣可以相關(guān)。

A. 正確

B. 錯(cuò)誤

答案為（A）：Y=X2，請注意他們不僅僅相關(guān)聯(lián)，同時(shí)一個(gè)還是另一個(gè)的函數(shù)。盡管如此，他們的相關(guān)性系數(shù)還是為 0，因?yàn)檫@兩個(gè)變量的關(guān)聯(lián)是正交的，而相關(guān)性系數(shù)就是檢測這種關(guān)聯(lián)。詳情查看：https://en.wikipedia.org/wiki/Anscombe's_quartet

4. 下面哪一項(xiàng)對梯度下降（GD）和隨機(jī)梯度下降（SGD）的描述是正確的？

在 GD 和 SGD 中，每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。
在 SGD 中，每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。
在 GD 中，每一次迭代需要使用整個(gè)訓(xùn)練集或子訓(xùn)練集的數(shù)據(jù)更新一個(gè)參數(shù)。

A. 只有 1

B. 只有 2

C. 只有 3

D.1 和 2

E.2 和 3

F. 都正確

答案為（A）：在隨機(jī)梯度下降中，每一次迭代選擇的批量是由數(shù)據(jù)集中的隨機(jī)樣本所組成，但在梯度下降，每一次迭代需要使用整個(gè)訓(xùn)練數(shù)據(jù)集。

5. 下面哪個(gè)/些超參數(shù)的增加可能會(huì)造成隨機(jī)森林?jǐn)?shù)據(jù)過擬合？

樹的數(shù)量
樹的深度
學(xué)習(xí)速率

A. 只有 1

B. 只有 2

C. 只有 3

D.1 和 2

E.2 和 3

F. 都正確

答案為（B）：通常情況下，我們增加樹的深度有可能會(huì)造成模型過擬合。學(xué)習(xí)速率在隨機(jī)森林中并不是超參數(shù)。增加樹的數(shù)量可能會(huì)造成欠擬合。

6. 假如你在「Analytics Vidhya」工作，并且想開發(fā)一個(gè)能預(yù)測文章評論次數(shù)的機(jī)器學(xué)習(xí)算法。你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 寫過的總文章數(shù)量等等。那么在這樣一個(gè)算法中，你會(huì)選擇哪一個(gè)評價(jià)度量標(biāo)準(zhǔn)？

均方誤差
精確度
F1 分?jǐn)?shù)

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 和 3

E. 2 和 3

F. 1 和 2

答案為（A）：你可以把文章評論數(shù)看作連續(xù)型的目標(biāo)變量，因此該問題可以劃分到回歸問題。因此均方誤差就可以作為損失函數(shù)的度量標(biāo)準(zhǔn)。

7. 給定以下三個(gè)圖表（從上往下依次為1，2，3）. 哪一個(gè)選項(xiàng)對以這三個(gè)圖表的描述是正確的？

A. 1 是 tanh，2 是 ReLU，3 是 SIGMOID 激活函數(shù)

B. 1 是 SIGMOID，2 是 ReLU，3 是 tanh 激活函數(shù)

C. 1 是 ReLU，2 是 tanh，3 是 SIGMOID 激活函數(shù)

D. 1 是 tanh，2 是 SIGMOID，3 是 ReLU 激活函數(shù)

答案為（D）：因?yàn)?SIGMOID 函數(shù)的取值范圍是 [0,1]，tanh 函數(shù)的取值范圍是 [-1,1]，RELU 函數(shù)的取值范圍是 [0,infinity]。

8. 以下是目標(biāo)變量在訓(xùn)練集上的 8 個(gè)實(shí)際值 [0,0,0,1,1,1,1,1]，目標(biāo)變量的熵是所少？

A. -(5/8 log(5/8) + 3/8 log(3/8))

B. 5/8 log(5/8) + 3/8 log(3/8)

C. 3/8 log(5/8) + 5/8 log(3/8)

D. 5/8 log(3/8) – 3/8 log(5/8)

答案為（A）：信息熵的公式為：

9. 假定你正在處理類屬特征，并且沒有查看分類變量在測試集中的分布?，F(xiàn)在你想將 one hot encoding（OHE）應(yīng)用到類屬特征中。那么在訓(xùn)練集中將 OHE 應(yīng)用到分類變量可能要面臨的困難是什么？

A. 分類變量所有的類別沒有全部出現(xiàn)在測試集中

B. 類別的頻率分布在訓(xùn)練集和測試集是不同的

C. 訓(xùn)練集和測試集通常會(huì)有一樣的分布

D. A 和 B 都正確

E. 以上都不正確

答案為（D）：A、B 項(xiàng)都正確，如果類別在測試集中出現(xiàn)，但沒有在訓(xùn)練集中出現(xiàn)，OHE 將會(huì)不能進(jìn)行編碼類別，這將是應(yīng)用 OHE 的主要困難。選項(xiàng) B 同樣也是正確的，在應(yīng)用 OHE 時(shí)，如果訓(xùn)練集和測試集的頻率分布不相同，我們需要多加小心。

10.Skip gram 模型是在 Word2vec 算法中為詞嵌入而設(shè)計(jì)的最優(yōu)模型。以下哪一項(xiàng)描繪了 Skip gram 模型？

A. A

B. B

C. A 和 B

D. 以上都不是

答案為（B）：這兩個(gè)模型都是在 Word2vec 算法中所使用的。模型 A 代表著 CBOW，模型 B 代表著 Skip gram。

11. 假定你在神經(jīng)網(wǎng)絡(luò)中的隱藏層中使用激活函數(shù) X。在特定神經(jīng)元給定任意輸入，你會(huì)得到輸出「-0.0001」。X 可能是以下哪一個(gè)激活函數(shù)？

A. ReLU

B. tanh

C. SIGMOID

D. 以上都不是

答案為（B）：該激活函數(shù)可能是 tanh，因?yàn)樵摵瘮?shù)的取值范圍是 (-1,1)。

12. 對數(shù)損失度量函數(shù)可以取負(fù)值。

A. 對

B. 錯(cuò)

答案為（B）：對數(shù)損失函數(shù)不可能取負(fù)值。

13. 下面哪個(gè)/些對「類型 1（Type-1）」和「類型 2（Type-2）」錯(cuò)誤的描述是正確的？

類型 1 通常稱之為假正類，類型 2 通常稱之為假負(fù)類。
類型 2 通常稱之為假正類，類型 1 通常稱之為假負(fù)類。
類型 1 錯(cuò)誤通常在其是正確的情況下拒絕假設(shè)而出現(xiàn)。

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 和 2

E. 1 和 3

F. 3 和 2

答案為（E）：在統(tǒng)計(jì)學(xué)假設(shè)測試中，I 類錯(cuò)誤即錯(cuò)誤地拒絕了正確的假設(shè)（即假正類錯(cuò)誤），II 類錯(cuò)誤通常指錯(cuò)誤地接受了錯(cuò)誤的假設(shè)（即假負(fù)類錯(cuò)誤）。

14. 下面在 NLP 項(xiàng)目中哪些是文本預(yù)處理的重要步驟？

詞干提?。⊿temming）
移去停止詞（Stop word removal）
目標(biāo)標(biāo)準(zhǔn)化（Object Standardization）

A. 1 和 2

B. 1 和 3

C. 2 和 3

D. 1、2 和 3

答案為（D）：詞干提取是剝離后綴（「ing」，「ly」，「es」，「s」等）的基于規(guī)則的過程。停止詞是與語境不相關(guān)的詞（is/am/are）。目標(biāo)標(biāo)準(zhǔn)化也是一種文本預(yù)處理的優(yōu)良方法。

15. 假定你想將高維數(shù)據(jù)映射到低維數(shù)據(jù)中，那么最出名的降維算法是 PAC 和 t-SNE。現(xiàn)在你將這兩個(gè)算法分別應(yīng)用到數(shù)據(jù)「X」上，并得到數(shù)據(jù)集「X_projected_PCA」，「X_projected_tSNE」。下面哪一項(xiàng)對「X_projected_PCA」和「X_projected_tSNE」的描述是正確的？

A. X_projected_PCA 在最近鄰空間能得到解釋

B. X_projected_tSNE 在最近鄰空間能得到解釋

C. 兩個(gè)都在最近鄰空間能得到解釋

D. 兩個(gè)都不能在最近鄰空間得到解釋

答案為（B）：t-SNE 算法考慮最近鄰點(diǎn)而減少數(shù)據(jù)維度。所以在使用 t-SNE 之后，所降的維可以在最近鄰空間得到解釋。但 PCA 不能。

16-17 題的背景：給定下面兩個(gè)特征的三個(gè)散點(diǎn)圖（從左到右依次為圖 1、2、3）。

16. 在上面的圖像中，哪一個(gè)是多元共線（multi-collinear）特征？

A. 圖 1 中的特征

B. 圖 2 中的特征

C. 圖 3 中的特征

D. 圖 1、2 中的特征

E. 圖 2、3 中的特征

F. 圖 1、3 中的特征

答案為（D）：在圖 1 中，特征之間有高度正相關(guān)，圖 2 中特征有高度負(fù)相關(guān)。所以這兩個(gè)圖的特征是多元共線特征。

17. 在先前問題中，假定你已經(jīng)鑒別了多元共線特征。那么下一步你可能的操作是什么？

移除兩個(gè)共線變量
不移除兩個(gè)變量，而是移除一個(gè)
移除相關(guān)變量可能會(huì)導(dǎo)致信息損失。為了保留這些變量，我們可以使用帶罰項(xiàng)的回歸模型（如 ridge 或 lasso regression）。

A. 只有 1

B. 只有 2

C. 只有 3

D. 1 或 3

E. 1 或 2

答案為（E）：因?yàn)橐瞥齼蓚€(gè)變量會(huì)損失一切信息，所以我們只能移除一個(gè)特征，或者也可以使用正則化算法（如 L1 和 L2）。

18. 給線性回歸模型添加一個(gè)不重要的特征可能會(huì)造成：

增加 R-square
減少 R-square

A. 只有 1 是對的

B. 只有 2 是對的

C. 1 或 2 是對的

D. 都不對

答案為（A）：在給特征空間添加了一個(gè)特征后，不論特征是重要還是不重要，R-square 通常會(huì)增加。

19. 假設(shè)給定三個(gè)變量 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關(guān)性系數(shù)分別為 C1、C2 和 C3。現(xiàn)在 X 的所有值加 2（即 X+2），Y 的全部值減 2（即 Y-2），Z 保持不變。那么運(yùn)算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相關(guān)性系數(shù)分別為 D1、D2 和 D3。現(xiàn)在試問 D1、D2、D3 和 C1、C2、C3 之間的關(guān)系是什么？

A. D1= C1, D2 < C2, D3 > C3

B. D1 = C1, D2 > C2, D3 > C3

C. D1 = C1, D2 > C2, D3 < C3

D. D1 = C1, D2 < C2, D3 < C3

E. D1 = C1, D2 = C2, D3 = C3

F. 無法確定

答案為（E）：特征之間的相關(guān)性系數(shù)不會(huì)因?yàn)樘卣骷踊驕p去一個(gè)數(shù)而改變。

20. 假定你現(xiàn)在解決一個(gè)有著非常不平衡類別的分類問題，即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的 99%?，F(xiàn)在你的模型在測試集上表現(xiàn)為 99% 的準(zhǔn)確度。那么下面哪一項(xiàng)表述是正確的？

準(zhǔn)確度并不適合于衡量不平衡類別問題
準(zhǔn)確度適合于衡量不平衡類別問題
精確率和召回率適合于衡量不平衡類別問題
精確率和召回率不適合于衡量不平衡類別問題

A. 1 and 3

B. 1 and 4

C. 2 and 3

D. 2 and 4

答案為（A）：參考問題 4 的解答。

21. 在集成學(xué)習(xí)中，模型集成了弱學(xué)習(xí)者的預(yù)測，所以這些模型的集成將比使用單個(gè)模型預(yù)測效果更好。下面哪個(gè)/些選項(xiàng)對集成學(xué)習(xí)模型中的弱學(xué)習(xí)者描述正確？

他們經(jīng)常不會(huì)過擬合
他們通常帶有高偏差，所以其并不能解決復(fù)雜學(xué)習(xí)問題
他們通常會(huì)過擬合

A. 1 和 2

B. 1 和 3

C. 2 和 3

D. 只有 1

E. 只有 2

F. 以上都不對

答案為（A）：弱學(xué)習(xí)者是問題的特定部分。所以他們通常不會(huì)過擬合，這也就意味著弱學(xué)習(xí)者通常擁有低方差和高偏差。

22. 下面哪個(gè)/些選項(xiàng)對 K 折交叉驗(yàn)證的描述是正確的

增大 K 將導(dǎo)致交叉驗(yàn)證結(jié)果時(shí)需要更多的時(shí)間
更大的 K 值相比于小 K 值將對交叉驗(yàn)證結(jié)構(gòu)有更高的信心
如果 K=N，那么其稱為留一交叉驗(yàn)證，其中 N 為驗(yàn)證集中的樣本數(shù)量

A. 1 和 2

B. 2 和 3

C. 1 和 3

D. 1、2 和 3

答案為（D)：大 K 值意味著對過高估計(jì)真實(shí)預(yù)期誤差（訓(xùn)練的折數(shù)將更接近于整個(gè)驗(yàn)證集樣本數(shù)）擁有更小的偏差和更多的運(yùn)行時(shí)間（并隨著越來越接近極限情況：留一交叉驗(yàn)證）。我們同樣在選擇 K 值時(shí)需要考慮 K 折準(zhǔn)確度和方差間的均衡。

23 題至 24 題的背景：交叉驗(yàn)證在機(jī)器學(xué)習(xí)超參數(shù)微調(diào)中是十分重要的步驟。假定你需要為 GBM 通過選擇 10 個(gè)不同的深度值（該值大于 2）而調(diào)整超參數(shù)「max_depth」，該樹型模型使用 5 折交叉驗(yàn)證。 4 折訓(xùn)練驗(yàn)證算法（模型 max_depth 為 2）的時(shí)間為 10 秒，在剩下的 1 折中預(yù)測為 2 秒。

23. 哪一項(xiàng)描述擁有 10 個(gè)「max_depth」不同值的 5 折交叉驗(yàn)證整體執(zhí)行時(shí)間是正確的？

A. 少于 100 秒

B. 100-300 秒

C. 300-600 秒

D. 大于等于 600 秒

E. 無法估計(jì)

答案為（D）：因?yàn)樯疃葹?2 的 5 折交叉驗(yàn)證每一次迭代需要訓(xùn)練 10 秒和測試 2 秒。因此五折驗(yàn)證需要 12*5 = 60 秒，又因?yàn)槲覀冃枰阉?10 個(gè)深度值，所以算法需要 60*10 = 600。

24. 在先前的答案中，如果你訓(xùn)練同樣的算法調(diào)整 2 個(gè)超參數(shù)，假設(shè)是 max_depth 和 learning_rate。你想要選擇正確的值對抗 max_depth（從給定的 10 個(gè)深度值中）和學(xué)習(xí)率（從 5 個(gè)不同的學(xué)習(xí)率做選擇）。在此情況下，整體時(shí)間是下面的哪個(gè)？

A.1000-1500 秒

B.1500-3000 秒

C. 多于或等于 3000 Second

D. 都不是

答案為（D）：和 23 題一樣。

25. 下表是機(jī)器學(xué)習(xí)算法 M1 的訓(xùn)練錯(cuò)誤率 TE 和驗(yàn)證錯(cuò)誤率 VE，基于 TE 和 VE 你想要選擇一個(gè)超參數(shù)（H）。

基于上表，你會(huì)選擇哪個(gè) H 值？

A.1

B.2

C.3

D.4

E.5

答案為（D）：看這個(gè)表，D 選項(xiàng)看起來是最好的。

26. 為了得到和 SVD 一樣的投射（projection），你需要在 PCA 中怎樣做？

A. 將數(shù)據(jù)轉(zhuǎn)換成零均值

B. 將數(shù)據(jù)轉(zhuǎn)換成零中位數(shù)

C. 無法做到

D. 以上方法不行

答案為（A）：當(dāng)數(shù)據(jù)有一個(gè) 0 均值向量時(shí)，PCA 有與 SVD 一樣的投射，否則在使用 SVD 之前，你必須將數(shù)據(jù)均值歸 0。

問題 27-28 的背景：假設(shè)存在一個(gè)黑箱算法，其輸入為有多個(gè)觀察（t1, t2, t3,…….. tn）的訓(xùn)練數(shù)據(jù)和一個(gè)新的觀察（q1）。該黑箱算法輸出 q1 的最近鄰 ti 及其對應(yīng)的類別標(biāo)簽 ci。你可以將這個(gè)黑箱算法看作是一個(gè) 1-NN（1-最近鄰）

27. 能夠僅基于該黑箱算法而構(gòu)建一個(gè) k-NN 分類算法？注：相對于 k 而言，n（訓(xùn)練觀察的數(shù)量）非常大。

A. 可以

B. 不行

答案為（A）：在第一步，你在這個(gè)黑箱算法中傳遞一個(gè)觀察樣本 q1，使該算法返回一個(gè)最近鄰的觀察樣本及其類別，在第二步，你在訓(xùn)練數(shù)據(jù)中找出最近觀察樣本，然后再一次輸入這個(gè)觀察樣本（q1）。該黑箱算法將再一次返回一個(gè)最近鄰的觀察樣本及其類別。你需要將這個(gè)流程重復(fù) k 次。

28. 我們不使用 1-NN 黑箱，而是使用 j-NN(j>1) 算法作為黑箱。為了使用 j-NN 尋找 k-NN，下面哪個(gè)選項(xiàng)是正確的？

A. j 必須是 k 的一個(gè)合適的因子

B. j>k

C. 不能辦到

答案為（C）：原因和 27 題一樣

29. 有以下 7 副散點(diǎn)圖（從左到右分別編號(hào)為 1-7），你需要比較每個(gè)散點(diǎn)圖的變量之間的皮爾遜相關(guān)系數(shù)。下面正確的比較順序是？

1<2<3<4
1>2>3 > 4
7<6<5<4
7>6>5>4

A. 1 和 3

B. 2 和 3

C. 1 和 4

D. 2 和 4

30. 你可以使用不同的標(biāo)準(zhǔn)評估二元分類問題的表現(xiàn)，例如準(zhǔn)確率、log-loss、F-Score。讓我們假設(shè)你使用 log-loss 函數(shù)作為評估標(biāo)準(zhǔn)。下面這些選項(xiàng)，哪個(gè)／些是對作為評估標(biāo)準(zhǔn)的 log-loss 的正確解釋。

如果一個(gè)分類器對不正確的分類很自信，log-loss 會(huì)嚴(yán)重的批評它。
對一個(gè)特別的觀察而言，分類器為正確的類別分配非常小的概率，然后對 log-loss 的相應(yīng)分布會(huì)非常大。
3.log-loss 越低，模型越好。

A.1 和 3

B.2 和 3

C.1 和 2

D.1、2、3

答案為（D）：答案無需解釋。

問題 31-32 背景：下面是數(shù)據(jù)集給出的 5 個(gè)樣本。

注意：圖像中點(diǎn)之間的視覺距離代表實(shí)際距離。

31. 下面哪個(gè)是 3-NN（3-最近鄰）的留一法交叉驗(yàn)證準(zhǔn)確率？

A.0

B.0.4

C.0.8

D.1

答案為（C)：留一法交叉驗(yàn)證，我們將選擇（n-1) 觀察值作為訓(xùn)練，以及驗(yàn)證的 1 觀察值。把每個(gè)點(diǎn)作為交叉驗(yàn)證點(diǎn)，然后找到 3 個(gè)最近鄰點(diǎn)。所以，如果你在每個(gè)點(diǎn)上重復(fù)該步驟，你會(huì)為上圖中給出的所有正類找到正確的分類，而錯(cuò)誤分類負(fù)類。因此，得到 80% 的準(zhǔn)確率。

32. 下面哪個(gè) K 值將會(huì)有最低的差一法（leave-one-out）交叉驗(yàn)證精確度？

A. 1NN

B. 3NN

C. 4NN

D. 以上所有具有相同的差一法錯(cuò)誤

答案（A）：在 1-NN 中，被錯(cuò)誤分類的每一個(gè)點(diǎn)都意味著你將得到 0% 的精確度。

33. 假設(shè)你被給到以下數(shù)據(jù)，你想要在給定的兩個(gè)類別中使用 logistic 回歸模型對它進(jìn)行分類。你正在使用帶有 L1 正則化的 logistic 回歸，其中 C 是正則化參數(shù)，w1 和 w2 是 x1 和 x2 的系數(shù)。當(dāng)你把 C 值從 0 增加至非常大的值時(shí)，下面哪個(gè)選項(xiàng)是正確的？

A. 第一個(gè) w2 成了 0，接著 w1 也成了 0

B. 第一個(gè) w1 成了 0，接著 w2 也成了 0

C. w1 和 w2 同時(shí)成了 0

D. 即使在 C 成為大值之后，w1 和 w2 都不能成 0

答案（B）：通過觀察圖像我們發(fā)現(xiàn)，即使只使用 x2，我們也能高效執(zhí)行分類。因此一開始 w1 將成 0；當(dāng)正則化參數(shù)不斷增加時(shí)，w2 也會(huì)越來越接近 0。

34. 假設(shè)我們有一個(gè)數(shù)據(jù)集，在一個(gè)深度為 6 的決策樹的幫助下，它可以使用 100% 的精確度被訓(xùn)練?，F(xiàn)在考慮一下兩點(diǎn)，并基于這兩點(diǎn)選擇正確的選項(xiàng)。

注意：所有其他超參數(shù)是相同的，所有其他因子不受影響。

深度為 4 時(shí)將有高偏差和低方差
深度為 4 時(shí)將有低偏差和低方差

A. 只有 1

B. 只有 2

C. 1 和 2

D. 沒有一個(gè)

答案（A)：如果在這樣的數(shù)據(jù)中你擬合深度為 4 的決策樹，這意味著其更有可能與數(shù)據(jù)欠擬合。因此，在欠擬合的情況下，你將獲得高偏差和低方差。

35. 在 k-均值算法中，以下哪個(gè)選項(xiàng)可用于獲得全局最??？

嘗試為不同的質(zhì)心（centroid）初始化運(yùn)行算法
調(diào)整迭代的次數(shù)
找到集群的最佳數(shù)量

A. 2 和 3

B. 1 和 3

C. 1 和 2

D. 以上所有

答案（D）：所有都可以用來調(diào)試以找到全局最小。

36. 假設(shè)你正在做一個(gè)項(xiàng)目，它是一個(gè)二元分類問題。你在數(shù)據(jù)集上訓(xùn)練一個(gè)模型，并在驗(yàn)證數(shù)據(jù)集上得到混淆矩陣?；谏鲜龌煜仃嚕旅婺膫€(gè)選項(xiàng)會(huì)給你正確的預(yù)測。

精確度是~0.91
錯(cuò)誤分類率是~0.91
假正率（False correct classification）是~0.95
真正率（True positive rate）是~0.95

A. 1 和 3

B. 2 和 4

C. 1 和 4

D. 2 和 3

答案（C）：精確度（正確分類）是 (50+100)/165，約等于 0.91。真正率是你正確預(yù)測正分類的次數(shù)，因此真正率將是 100/105 = 0.95，也被稱作敏感度或召回。

37. 對于下面的超參數(shù)來說，更高的值對于決策樹算法更好嗎？

用于拆分的樣本量
樹深
樹葉樣本

A. 1 和 2

B. 2 和 3

C. 1 和 3

D. 1、2 和 3

E. 無法分辨

答案（E）：對于選項(xiàng) A、B、C 來說，如果你增加參數(shù)的值，性能并不一定會(huì)提升。例如，如果我們有一個(gè)非常高的樹深值，結(jié)果樹可能會(huì)過擬合數(shù)據(jù)，并且也不會(huì)泛化。另一方面，如果我們有一個(gè)非常低的值，結(jié)果樹也許與數(shù)據(jù)欠擬合。因此我們不能確定更高的值對于決策樹算法就更好。

38-39 題背景：想象一下，你有一個(gè) 28x28 的圖片，并使用輸入深度為 3 和輸出深度為 8 在上面運(yùn)行一個(gè) 3x3 的卷積神經(jīng)網(wǎng)絡(luò)。注意，步幅是 1，你正在使用相同的填充（padding）。

38. 當(dāng)使用給定的參數(shù)時(shí)，輸出特征圖的尺寸是多少？

A. 28 寬、28 高、8 深

B. 13 寬、13 高、8 深

C. 28 寬、13 高、8 深

D. 13 寬、28 高、8 深

答案（A）：計(jì)算輸出尺寸的公式是：輸出尺寸=(N – F)/S + 1。其中，N 是輸入尺寸，F(xiàn) 是過濾器尺寸，S 是步幅。閱讀這篇文章（鏈接：https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/）獲得更多了解。

39. 當(dāng)使用以下參數(shù)時(shí)，輸出特征圖的尺寸是多少？

A. 28 寬、28 高、8 深

B. 13 寬、13 高、8 深

C. 28 寬、13 高、8 深

D. 13 寬、28 高、8 深

答案 (B)：同上

40. 假設(shè)，我們正在 SVM 算法中為 C（懲罰參數(shù)）的不同值進(jìn)行視覺化繪圖。由于某些原因，我們忘記了使用視覺化標(biāo)注 C 值。這個(gè)時(shí)候，下面的哪個(gè)選項(xiàng)在 rbf 內(nèi)核的情況下最好地解釋了下圖（1、2、3 從左到右，圖 1 的 C 值是 C 1，圖 2 的 C 值是 C 2，圖 3 的 C 值是 C 3）中的 C 值。

A. C1 = C2 = C3

B. C1 > C2 > C3

C. C1 < C2 < C3

D. 沒有一個(gè)

答案 (C)：錯(cuò)誤項(xiàng)的懲罰參數(shù) C。它也控制平滑決策邊界和訓(xùn)練點(diǎn)正確分類之間的權(quán)衡。對于 C 的大值，優(yōu)化會(huì)選擇一個(gè)較小邊距的超平面。

1評論

造就頭條號(hào)優(yōu)質(zhì)原創(chuàng)作者 04-26 14:40

157贊

踩

要想成為一名數(shù)據(jù)科學(xué)家，先了解一下2017年數(shù)據(jù)領(lǐng)域的趨勢，以及數(shù)據(jù)科學(xué)家在其中發(fā)揮的作用。
本文來自頭條號(hào)“造就”的文章《2017年的數(shù)據(jù)策略，會(huì)有哪些大趨勢？》希望對您有幫助，更多關(guān)于數(shù)據(jù)科學(xué)的內(nèi)容敬請關(guān)注頭條號(hào)“造就”。

數(shù)據(jù)不只是企業(yè)的一項(xiàng)業(yè)務(wù)，而是關(guān)系到整個(gè)公司的命運(yùn)——它是燃料，是飼料，是動(dòng)力。在過去一年里，這一事實(shí)越來越得到眾人的認(rèn)可。因此，積極制定改善企業(yè)數(shù)據(jù)策略的必要性應(yīng)該引起重視。關(guān)于數(shù)據(jù)策略在過去一年的情況和未來一年的趨勢，我們請多位數(shù)據(jù)專家和思想領(lǐng)袖談了他們的看法。

受訪者包括：美國威斯康星大學(xué)麥迪遜分校首席數(shù)據(jù)官杰森·費(fèi)希貝恩（Jason Fishbain）；First San Francisco Partners公司總裁約翰·拉德利（John Ladley）；被譽(yù)為“數(shù)據(jù)醫(yī)生”的Data Quality Solutions公司總裁托馬斯·雷德曼（Thomas C. Redman）；Nationwide公司首席數(shù)據(jù)官吉姆·泰約（Jim Tyo）。

他們的看法應(yīng)該有助于企業(yè)反思已經(jīng)采取的措施，并思索在新的一年里應(yīng)該采取哪些措施，讓數(shù)據(jù)策略能夠與數(shù)據(jù)價(jià)值相符。

回顧2016年

受訪者指出，在過去的一年里，數(shù)據(jù)策略取得了巨大進(jìn)步，但也存在美中不足之處。

越來越多的企業(yè)將設(shè)立首席數(shù)據(jù)官（CDO）崗位，這是大多數(shù)受訪者都認(rèn)同的一個(gè)趨勢。拉德利說，CDO的涌現(xiàn)表明，企業(yè)已經(jīng)開始認(rèn)識(shí)到數(shù)據(jù)資產(chǎn)的重要性。

據(jù)預(yù)測，到2020年，近九成的財(cái)富500強(qiáng)企業(yè)將設(shè)立首席數(shù)據(jù)官或同等職位。泰約覺得這是件值得慶賀的好事，因?yàn)椋?/p>

“這一職務(wù)不斷涌現(xiàn)的好處在于，CDO越多，我們可以參考和仿效的商業(yè)模式就越多，數(shù)據(jù)界的成功機(jī)會(huì)就越多?！?/p>

泰約說，早期的CDO們“克服最初的艱難困苦，制定出正確的策略，如今將可在利用數(shù)據(jù)推動(dòng)業(yè)務(wù)發(fā)展方面處于非常有利的地位”。在Nationwide公司，每一位業(yè)務(wù)主管都說數(shù)據(jù)很重要，這與幾年前形成鮮明對比。他說：“現(xiàn)在，復(fù)雜棘手的下一個(gè)問題在于，我們?nèi)绾卫脭?shù)據(jù)來獲得競爭優(yōu)勢？”

拉德利認(rèn)為，這是很多企業(yè)將在2017年面對的一個(gè)數(shù)據(jù)策略問題，因?yàn)楦餍懈鳂I(yè)不同規(guī)模的公司都越來越重視數(shù)據(jù)的貨幣化。他說：“把數(shù)據(jù)視為具有可替代價(jià)值的資產(chǎn)，這種想法如今在影響著企業(yè)戰(zhàn)略甚至愿景的設(shè)定?！?/p>

另一方面，并不是所有公司都充分意識(shí)到了數(shù)據(jù)資產(chǎn)的價(jià)值。例如，拉德利指出，某些公司的CDO流動(dòng)率很高，說明這一崗位的職責(zé)還不夠明確，企業(yè)還不習(xí)慣領(lǐng)導(dǎo)層中的這個(gè)新角色。這方面的“不安定”可能與某些企業(yè)文化問題有關(guān)。數(shù)據(jù)驅(qū)動(dòng)企業(yè)必須靠有力的數(shù)據(jù)策略來推動(dòng)，而這些問題的存在仍在拖慢它們進(jìn)步的腳步。

泰約說，有些企業(yè)認(rèn)為，建立數(shù)據(jù)驅(qū)動(dòng)的文化就是“企圖取代曾使企業(yè)功成名就的偉大傳承和文化”。事實(shí)并非如此。他說，使命和價(jià)值驅(qū)動(dòng)的文化會(huì)令企業(yè)變得很偉大，“而CDO只是試圖引入基于事實(shí)、洞察驅(qū)動(dòng)的方法，好讓這種文化與客戶更加契合?！?/p>

拉德利說，真正意義上的數(shù)據(jù)驅(qū)動(dòng)將大幅改變企業(yè)的商業(yè)模式，影響到管理、架構(gòu)和運(yùn)營。按照雷德曼的說法，不能只從字面上去理解“數(shù)據(jù)驅(qū)動(dòng)的文化”，可惜這種事情常常發(fā)生。

展望2017年（及以后）

受訪者談到了哪些將是企業(yè)數(shù)據(jù)策略的優(yōu)先事項(xiàng)。

雷德曼的回答是繼續(xù)朝向真正的數(shù)據(jù)驅(qū)動(dòng)文化邁進(jìn)。他說，成為數(shù)據(jù)驅(qū)動(dòng)型企業(yè)意味著做出意義深遠(yuǎn)的改變，包括：制定積極的計(jì)劃來照料數(shù)據(jù)（主要涉及質(zhì)量和安全）；落實(shí)這一計(jì)劃，并及時(shí)制定和執(zhí)行以獲取市場競爭優(yōu)勢為目標(biāo)的數(shù)據(jù)策略；推進(jìn)管理體系建設(shè)，充分發(fā)揮數(shù)據(jù)的特殊屬性。此外，還需要“一份積極主動(dòng)的計(jì)劃，獲取更多的數(shù)據(jù)，并以越來越有效的方式將數(shù)據(jù)和直覺結(jié)合起來，使個(gè)人和團(tuán)隊(duì)作出更好的決策”。

他還說，看到他提出的“數(shù)據(jù)煽動(dòng)者”概念引起了很多人的共鳴，這讓他非常高興?！皵?shù)據(jù)煽動(dòng)者”是指一個(gè)人意識(shí)到有更好的方法來處理部門的數(shù)據(jù)問題并肩負(fù)起這個(gè)挑戰(zhàn)，從而成為公司其他部門的榜樣。

他說：“我希望在2017年及以后，數(shù)據(jù)煽動(dòng)者的概念會(huì)繼續(xù)引起關(guān)注，有越來越多的人來扮演這個(gè)角色?！绷硗?，他認(rèn)為，最具前瞻性的企業(yè)已經(jīng)開始意識(shí)到利用專有數(shù)據(jù)獲取競爭優(yōu)勢的重要性。

拉德利把改進(jìn)商業(yè)智能（BI）和數(shù)據(jù)報(bào)告作為優(yōu)先事項(xiàng)，因?yàn)樗f：“傳統(tǒng)的報(bào)告和BI架構(gòu)大多已經(jīng)過時(shí)”。加強(qiáng)數(shù)據(jù)的報(bào)告分析基礎(chǔ)也在泰約的清單上，原因是“和我交談過的十位企業(yè)高管中，有九位都把簡潔快速的報(bào)告和分析列為他們在數(shù)據(jù)方面的優(yōu)先事項(xiàng)”。他認(rèn)為，這在很大程度上源于數(shù)據(jù)辦公室的“酷因素”正在拓展到大數(shù)據(jù)、物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)、人工智能等方面，但中小型數(shù)據(jù)、運(yùn)營報(bào)告和更傳統(tǒng)的分析與建模需求同樣重要。

“獲取（恰當(dāng)數(shù)據(jù)的）能力不足將催生出影子企業(yè)或以外包優(yōu)先的數(shù)據(jù)策略?！碧┘s說。為了避免這種問題，數(shù)據(jù)策略應(yīng)該包括建立“一個(gè)專門的辦公室，為處于數(shù)據(jù)成熟度不同階段的業(yè)務(wù)提供不同選擇”。

泰約還認(rèn)為，利用數(shù)據(jù)來實(shí)現(xiàn)客戶體驗(yàn)差異化和規(guī)范性建模（就特定結(jié)果提供建議）將引起關(guān)注。而拉德利認(rèn)為，所有企業(yè)都將熱烈擁抱預(yù)測分析，不管他們需不需要。預(yù)測分析提供基于數(shù)據(jù)的可執(zhí)行見解?！懊课籆EO都想獲得新的見解，哪怕他們現(xiàn)在連準(zhǔn)確的運(yùn)營報(bào)告都還拿不到?！彼f。

拉德利還說，數(shù)據(jù)治理（仍然是重要的企業(yè)活動(dòng)，常常作為主數(shù)據(jù)管理或者大數(shù)據(jù)等工作的一部分）將從IT或IM轉(zhuǎn)移到合規(guī)或風(fēng)險(xiǎn)管理領(lǐng)域?！癐T內(nèi)部的數(shù)據(jù)治理不管用。這種看法將繼續(xù)蔓延?！彼f。

從縱向角度來看（這里是指高等教育），費(fèi)希貝恩認(rèn)為，數(shù)據(jù)策略將圍繞著收集和利用新的數(shù)據(jù)來源展開，以便改善教學(xué)?！敖档蛯W(xué)生入學(xué)費(fèi)、提高畢業(yè)率的壓力很大?！彼f，“數(shù)據(jù)策略必須與這種壓力相適應(yīng)。”

提到數(shù)據(jù)策略，應(yīng)該對哪些方面多加注意？

費(fèi)希貝恩認(rèn)為，應(yīng)該更加注意理解數(shù)據(jù)背后的語境：數(shù)據(jù)是如何收集的？利用已有數(shù)據(jù)可以作出什么決定？還可利用哪些數(shù)據(jù)源切實(shí)看清局勢發(fā)展，從而作出更明智的決定？“如果只看數(shù)據(jù)而忽略語境，還能算是數(shù)據(jù)驅(qū)動(dòng)型文化嗎？”他如此發(fā)問。

拉德利說，元數(shù)據(jù)必不可少，也是最基本的要素，他希望看到更多的企業(yè)“認(rèn)真務(wù)實(shí)地部署一些出色的元數(shù)據(jù)設(shè)施”。他并不介意企業(yè)的數(shù)據(jù)策略將重心更多地放在數(shù)據(jù)使用方面的協(xié)作上。他說，大部分企業(yè)就連數(shù)據(jù)使用方面的配合都做不到：

“真正的協(xié)作需要企業(yè)拋棄過時(shí)的卓越中心概念，轉(zhuǎn)而把數(shù)據(jù)視為跨越各座孤島的大一統(tǒng)因素，就像財(cái)務(wù)和預(yù)算那樣?！?/p>

說到孤島，“我希望看到傳統(tǒng)的孤島型企業(yè)能以有實(shí)質(zhì)意義的方式，更好地接納數(shù)據(jù)可視化?！碧┘s說，“利用企業(yè)的工具與設(shè)施，更多地聚合數(shù)據(jù)源，將會(huì)加強(qiáng)整個(gè)計(jì)劃的效果，加速實(shí)現(xiàn)CDO的很多戰(zhàn)略目標(biāo)?！?/p>

在雷德曼看來，他到目前為止看到的種種數(shù)據(jù)策略“亮點(diǎn)”尚未有效疊加成有實(shí)際意義的模式。他仍然擔(dān)心，企業(yè)不會(huì)從以前犯下的數(shù)據(jù)質(zhì)量和數(shù)據(jù)架構(gòu)錯(cuò)誤中吸取教訓(xùn)，比如尋求短期的緩解而放過更深層次的原因。此外，“我認(rèn)為很多企業(yè)的行動(dòng)不夠快，整個(gè)行業(yè)的行動(dòng)也不夠快?！彼f。

他認(rèn)為，現(xiàn)在是進(jìn)入數(shù)據(jù)領(lǐng)域的最好時(shí)機(jī)。但“如果行動(dòng)不夠快，那么發(fā)生另一場危機(jī)的可能性就會(huì)提高?！崩椎侣f，“經(jīng)濟(jì)大蕭條與壞數(shù)據(jù)有很深的淵源——而我們承受不起第二次?！?/p>

翻譯：于波

來源：Dataversity

造就：劇院式的線下演講平臺(tái)，發(fā)現(xiàn)最有創(chuàng)造力的思想

評論

西線學(xué)院 08-01 18:28

1贊

踩

　　1、決問題

　　如果這個(gè)不是你清單中的首位的話，馬上去修改。所有科學(xué)核心都是解決問題：一個(gè)偉大的數(shù)據(jù)科學(xué)家也是一個(gè)偉大的問題解決者；就是這么簡單。需要更進(jìn)一步的證明嗎，基本我在這個(gè)項(xiàng)目中碰到的每一個(gè)人（不管其背景和目前工作環(huán)境如何）都提到數(shù)據(jù)科學(xué)中最重要的因素就是解決問題。

　　很明顯，你需要有工具去解決問題，但是它們只是：工具。在這種情況下，即便是統(tǒng)計(jì)/機(jī)器學(xué)習(xí)技術(shù)也可以認(rèn)為是你解決問題的工具。新的技術(shù)出現(xiàn)了，科技進(jìn)步了。唯一不變的就是解決問題。

　　在某種程度上，你解決問題的能力是由天賦決定的，但是與此同時(shí)有且僅有一個(gè)方式來進(jìn)行提高：那就是練習(xí)、練習(xí)、練習(xí)。在后面我們會(huì)回顧這部分內(nèi)容，但是現(xiàn)在你只需要記?。耗阒荒芡ㄟ^嘗試來掌握某件事情。

　　2. 統(tǒng)計(jì)/機(jī)器學(xué)習(xí)

　　看完上面的內(nèi)容，似乎我輕視了統(tǒng)計(jì)和機(jī)器學(xué)習(xí)。不過在這里我們并不是討論一個(gè)強(qiáng)力的工具；它們是非常復(fù)雜的（而且在某種程度上是非常深?yuàn)W的領(lǐng)域），如果你沒有專業(yè)的知識(shí)，你也不會(huì)很快地解決數(shù)據(jù)科學(xué)問題。

　　進(jìn)一步對這些詞進(jìn)行解釋說明，機(jī)器學(xué)習(xí)可以被認(rèn)為是從人工智能/計(jì)算科學(xué)與統(tǒng)計(jì)學(xué)中發(fā)展起來的多學(xué)科領(lǐng)域。它通常被認(rèn)為是人工智能的一個(gè)子領(lǐng)域，這是正確的，但是很重要的是要意識(shí)到?jīng)]有統(tǒng)計(jì)學(xué)的話就沒有機(jī)器學(xué)習(xí)（機(jī)器學(xué)習(xí)非常依賴統(tǒng)計(jì)算法來工作）。很長一段時(shí)間依賴統(tǒng)計(jì)學(xué)家都被機(jī)器學(xué)習(xí)所輕視，但是在這兩個(gè)領(lǐng)域的合作才造就了最近的發(fā)展（參見統(tǒng)計(jì)學(xué)習(xí)理論），順便提下高維統(tǒng)計(jì)學(xué)習(xí)只有在統(tǒng)計(jì)學(xué)家與機(jī)器學(xué)習(xí)結(jié)果合作時(shí)才會(huì)有良好的結(jié)果。

　　3. 計(jì)算

　　編程

　　對于我們來說只需要簡單的接觸程序就行，因?yàn)樗鼞?yīng)該是很直觀的：但是對數(shù)據(jù)科學(xué)家來說編程是必須要會(huì)的。設(shè)想下如果你不會(huì)編程的話，如何才能通過編寫一段獨(dú)特的算法來實(shí)現(xiàn)你的理論？又或者建立一個(gè)統(tǒng)計(jì)模型？

　　如何成為一名數(shù)據(jù)科學(xué)家？

　　分布式計(jì)算

　　并不是所有事情都需要超級大的數(shù)據(jù)組，但是考慮到現(xiàn)代世界的情況，建議在工作中都加上大數(shù)據(jù)。簡而言之：單一計(jì)算機(jī)中的主要內(nèi)存并不能實(shí)現(xiàn)大數(shù)據(jù)處理，如果你想同時(shí)在數(shù)百臺(tái)虛擬機(jī)中訓(xùn)練模型的話，你需要能夠使用分布計(jì)算與并行算法。

　　軟件工程

　　對于A類數(shù)據(jù)科學(xué)而言，讓我明確一點(diǎn)：工程是一門獨(dú)立的學(xué)科。因此如果這是你想成為的數(shù)據(jù)科學(xué)家類型，你其實(shí)不需要成為一個(gè)工程師。然而，如果你想把機(jī)器學(xué)習(xí)算法轉(zhuǎn)化到應(yīng)用中（即B類），那么你將需要一個(gè)強(qiáng)大的軟件工程基礎(chǔ)。

　　手動(dòng)轉(zhuǎn)換數(shù)據(jù)

　　數(shù)據(jù)清理/準(zhǔn)備是數(shù)據(jù)科學(xué)的重要內(nèi)在組成部分。這將耗費(fèi)你大多數(shù)時(shí)間。倘若你沒有成功地對數(shù)據(jù)集進(jìn)行降噪（例如，錯(cuò)誤賦值，非標(biāo)準(zhǔn)化分類等），將會(huì)對建模的準(zhǔn)確性產(chǎn)生影響，最終導(dǎo)致產(chǎn)生錯(cuò)誤的結(jié)論。因此，如果你尚未做好處理數(shù)據(jù)的準(zhǔn)備，這將使你先前的知識(shí)積累顯得無關(guān)重要。

　　有一點(diǎn)是非常重要的且值得注意的，即在商業(yè)化組織中數(shù)據(jù)質(zhì)量一直以來成為飽受爭議的話題，在數(shù)據(jù)儲(chǔ)存方面，許多業(yè)務(wù)又涉及到復(fù)雜的基礎(chǔ)事務(wù)需要處理。所以，如果你尚未準(zhǔn)備好融入這個(gè)環(huán)境中，想要處理純粹的數(shù)據(jù)集，商業(yè)數(shù)據(jù)科學(xué)可能不是最適合你的選擇。

　　工具與技術(shù)

　　直至目前，你應(yīng)當(dāng)意識(shí)到，成為一名具備解決問題的能力的數(shù)據(jù)科學(xué)家相比于其他一切條件來講是重中之重：因?yàn)榧夹g(shù)將不斷發(fā)生變化，能夠在相對較短的時(shí)間內(nèi)得到掌握。但是，我們不能對其他影響因素置之不理，因而，能夠認(rèn)清楚如今應(yīng)用最廣泛的工具對于成為一名數(shù)據(jù)科學(xué)家是有用的。

　　讓我們先從編程語言談起，R與Python是兩種最常用的編程語言，因而，如果能夠選擇的話，希望你選用其中一種語言用于實(shí)驗(yàn)研究。

　　尤其是在A類數(shù)據(jù)科學(xué)工作領(lǐng)域，具備能夠直觀地觀察數(shù)據(jù)的能力將會(huì)對與非技術(shù)型商業(yè)股東交流溝通產(chǎn)生重大影響。你可能具有最優(yōu)的模型和最深刻的見解，但是如果不能有效地呈現(xiàn)/解釋這些研究成果，那又將有什么用呢？事實(shí)上，你運(yùn)用什么工具實(shí)現(xiàn)數(shù)據(jù)直觀可視化并不重要，可以是通過使用R或Tableau（當(dāng)時(shí)最為流行的編程語言），但是，說實(shí)話，工具是不太重要的。

　　最后，不論我們所討論的是關(guān)系型數(shù)據(jù)庫，還是運(yùn)用大數(shù)據(jù)技術(shù)獲得的SQL衍生數(shù)據(jù)庫，由于SQL是當(dāng)時(shí)產(chǎn)業(yè)界用于數(shù)據(jù)庫中最為廣泛的編程語言，大多數(shù)公司都非?？粗豐QL這種編程語言。SQL對于手動(dòng)轉(zhuǎn)換數(shù)據(jù)尤為重要，至少在處理更大規(guī)模的數(shù)據(jù)庫時(shí)。總之，SQL真的值得你花費(fèi)一定的時(shí)間來好好研究應(yīng)用。

　　交流/商業(yè)頭腦

　　在商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域工作，具備交流溝通能力/商業(yè)頭腦是不容忽視的。除非你將要從事非常具體的工作，可能是純研究類型的工作（盡管我們要面對現(xiàn)實(shí)，在產(chǎn)業(yè)界并沒有很多這種類型的工作），絕大多數(shù)數(shù)據(jù)科學(xué)領(lǐng)域的工作都涉及到業(yè)界交流互動(dòng)，通常是與非學(xué)者類型的人打交道。

　　具備將商業(yè)化問題和催生這些問題的環(huán)境概念化是極為重要的。將統(tǒng)計(jì)學(xué)方面的觀點(diǎn)轉(zhuǎn)化為可以想普通大眾推薦的行動(dòng)或啟發(fā)性觀點(diǎn)也是重要的，特別是對于A類型數(shù)據(jù)科學(xué)領(lǐng)域的工作來講。我曾與Yanir就該話題交談過，他的觀點(diǎn)如下：

　　“我發(fā)現(xiàn)一種奇怪的現(xiàn)象，當(dāng)一些技術(shù)型人才開始使用行話與人交流時(shí)，他們并不留意他們的交談?wù)摺切┓羌夹g(shù)型人才，的目光早已落到了別處。在交談過程中，能夠設(shè)身處地地為他人著想是重要的。”

西線學(xué)院為大家整理了一套非常齊全的大數(shù)據(jù)視頻課程資料https://jinshuju.net/f/06LHFH?x_field_1=toutiao，它可以幫助大家更全面徹底地了解，不論是興趣愛好還是單純的為了就業(yè)，它都是不錯(cuò)的選擇！

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

數(shù)據(jù)科學(xué)家需要具備的三項(xiàng)能力

做好走向數(shù)據(jù)科學(xué)的準(zhǔn)備

數(shù)據(jù)科學(xué)在線課程

數(shù)據(jù)科學(xué)家要讀的書籍

40 道數(shù)據(jù)科學(xué)測試題（附答案）

回顧2016年

展望2017年（及以后）

提到數(shù)據(jù)策略，應(yīng)該對哪些方面多加注意？

提到數(shù)據(jù)策略，應(yīng)該對哪些方面多加注意？