這幾年,圍繞大數(shù)據(jù)和數(shù)據(jù)科學(xué)有許多炒作。其實(shí)要理解某樣?xùn)|西,有時(shí)需要清楚的了解它不是什么;數(shù)據(jù)科學(xué)家,不是統(tǒng)計(jì)學(xué)家,不是數(shù)據(jù)分析師,不是軟件工程師,不是業(yè)務(wù)分析師,他們對這些領(lǐng)域都有一些了解,但又不完全精通于這些領(lǐng)域。
所以正確的做法是抓住大數(shù)據(jù)行業(yè)的中點(diǎn),摒棄過時(shí)的手法。比如,你需要了解的知識(shí)雖然有統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)。但你并不需要對其無所不知,也沒有必要糾結(jié)那些極其復(fù)雜的算法。
數(shù)據(jù)科學(xué)家在商業(yè)分析、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域是通才,他們可以開發(fā)數(shù)據(jù)、收集策略并使用數(shù)據(jù)發(fā)現(xiàn)一些可操作的商業(yè)見解。也就是說,數(shù)據(jù)科學(xué)家要具有創(chuàng)造性,能根據(jù)分析業(yè)務(wù),通過數(shù)據(jù),制定分析,提出方案,推動(dòng)增長。
所以現(xiàn)在你發(fā)現(xiàn)了,數(shù)據(jù)科學(xué)包含的知識(shí)非常廣泛,既不像網(wǎng)絡(luò)上說的各種算法那樣高深莫測,也不是三言兩語就能解釋清楚如何成為數(shù)據(jù)科學(xué)家這個(gè)問題那么簡單。
首先,要理解數(shù)據(jù)科學(xué),基本數(shù)學(xué)知識(shí)包括:
代數(shù),基本矩陣論;
微積分入門課程;要掌握的理論不多。只需要理解計(jì)算復(fù)雜度,了解特殊函數(shù)
統(tǒng)計(jì)與概率論基礎(chǔ)入門課程;可以挑一本基礎(chǔ)統(tǒng)計(jì)學(xué)書籍閱讀掌握
從技術(shù)的角度出發(fā),要掌握的技能和知識(shí)有:
R語言;
Python(或Perl);了解基本網(wǎng)絡(luò)爬蟲知識(shí),有助于獲取互聯(lián)網(wǎng)上能找到的非結(jié)構(gòu)化數(shù)據(jù)
但是掌握一門專業(yè)知識(shí)最好的方法還是系統(tǒng)性的閱讀書籍。如果想進(jìn)一步了解數(shù)據(jù)科學(xué)家的工作或者如何提升自己的數(shù)據(jù)科學(xué)技能,我推薦以下這幾本書籍:《數(shù)據(jù)天才》、《敏捷數(shù)據(jù)科學(xué)》、《數(shù)據(jù)科學(xué)家養(yǎng)成手冊》、《Python大戰(zhàn)機(jī)器學(xué)習(xí)》
在外界看來,「大數(shù)據(jù)」和「數(shù)據(jù)科學(xué)」這樣的詞看起來復(fù)雜又神秘。數(shù)據(jù)科學(xué)被稱為「21世紀(jì)最性感的工作」。所要成為一名數(shù)據(jù)科學(xué)家,要實(shí)有際的付出,比如,需要具備成為數(shù)據(jù)科學(xué)家的三項(xiàng)能力,以及為走向數(shù)據(jù)科學(xué)做好一些準(zhǔn)備,觀看一些有關(guān)數(shù)據(jù)科學(xué)的優(yōu)秀在線課程,閱讀不得不讀的數(shù)據(jù)科學(xué)經(jīng)典書籍;如果,你學(xué)有所成,也可以找一些好的測試題自我檢驗(yàn)一下;而以上,正是本文所要分享的內(nèi)容,希望對你能有所幫助!
數(shù)據(jù)科學(xué)家」這個(gè)詞覆蓋的角色很廣,涵蓋了學(xué)術(shù)、金融和政府等多種產(chǎn)業(yè)和組織。然而,有三個(gè)重要的能力是每位數(shù)據(jù)科學(xué)家都必須理解的:
1、必須理解數(shù)據(jù)是有意義的
我們經(jīng)常忽視一個(gè)事實(shí),那就是數(shù)據(jù)是有含義的,并且理解其中的意義非常重要。如果我們想要在數(shù)字中獲得有用的洞察,就必須超越數(shù)字,理解它們暗藏的內(nèi)涵。這一點(diǎn)與算法和工程等沒有關(guān)系。理解數(shù)據(jù)是一門藝術(shù),真的非常重要。
2、必須理解你需要解決的問題,以及數(shù)據(jù)與之的聯(lián)系
此時(shí),你可以打開工具箱,找到正確的分析方法和算法來分析數(shù)據(jù)。機(jī)器學(xué)習(xí)可以進(jìn)行技術(shù)分析。除了機(jī)器學(xué)習(xí)之外,還有幾百種技術(shù)可以用數(shù)據(jù)來解決問題,例如運(yùn)籌學(xué)、決策論、博弈論、控制論等,這些理論都有很長的歷史。一旦你理解了數(shù)據(jù)和你試圖解決的問題,下一步就應(yīng)該選擇匹配的算法,來獲得有意義的解。
3、必須理解工程問題
第三個(gè)能力是理解和運(yùn)用執(zhí)行分析任務(wù)的設(shè)備,就是「如果你在正確的時(shí)間和地點(diǎn)沒有基礎(chǔ)設(shè)備來高效精確地運(yùn)行分析任務(wù),那一切都是白搭?!?/p>
1、 最重要的是:無論你想要在目前的工作中學(xué)到什么,都要找到方法
找到一個(gè)涉及更多編碼/數(shù)據(jù)分析且對你的雇主有幫助的項(xiàng)目。嘗試使任何無聊的任務(wù)自動(dòng)化。即使這個(gè)過程需要 5 倍的時(shí)間(即使這樣的任務(wù)你只做一次!),但你正是通過這樣來學(xué)習(xí)。
2、分析您擁有的任何數(shù)據(jù)
比如消費(fèi)前的研究數(shù)據(jù)(即決定要購買哪種微波爐),個(gè)人健身追蹤器的數(shù)據(jù),烹飪食譜的營養(yǎng)數(shù)據(jù),為孩子調(diào)查的學(xué)前教育數(shù)據(jù)。把它變成一個(gè)小型的數(shù)據(jù)分析項(xiàng)目,并寫到博客中。例如如果你是研究生,你可以分析所教學(xué)生的年級數(shù)據(jù)。
3、學(xué)習(xí)最重要的數(shù)據(jù)科學(xué)軟件工具
Python's data science stack(pandas / numpy / scipy)是最有用的技術(shù)(閱讀本書?。?,緊隨其后的是 SQL。在學(xué)習(xí)其他語言之前我會(huì)專注于學(xué)習(xí) Python 和 SQL。Python 被廣泛使用且非常靈活。如果你決定參與到更多的軟件開發(fā)工作,或者全面進(jìn)入機(jī)器學(xué)習(xí),你會(huì)有優(yōu)勢。
4、使用 Kaggle
做教程,參加論壇,參加比賽(不要擔(dān)心你處于什么水平- 只是專注于每天做得更好一點(diǎn))。這是學(xué)習(xí)實(shí)用機(jī)器技能的最好方法。
5、搜索您所在地區(qū)的數(shù)據(jù)科學(xué)和技術(shù)會(huì)議
隨著數(shù)據(jù)科學(xué)在過去幾年的激增,如今在全球有各種會(huì)議。例如,Google 最近在加利福尼亞州山景城舉辦了一次 TensorFlow Dev 峰會(huì),但有全世界觀眾一起觀看直播(包括尼日利亞的阿布賈,印度的哥印拜陀和摩洛哥的拉巴特)。
在線課程是一個(gè)了不起的資源。你可以在家里舒適地跟隨世界上最好的數(shù)據(jù)科學(xué)家學(xué)習(xí)。通常作業(yè)是學(xué)習(xí)最多的地方,所以不要跳過它們!這里有幾個(gè)我最喜歡的課程:
Andrew Ng 的經(jīng)典機(jī)器學(xué)習(xí)公開課(雖然沒有在 Octave / MATLAB 上花太多時(shí)間,但他把算法解釋地非常完美),或許用 Python 完成這項(xiàng)工作更好
快速實(shí)習(xí)深度學(xué)習(xí)課程。透露:我協(xié)助開設(shè)了這門課程,我們得到了許多學(xué)生的積極反饋。其中唯一的先決條件是一年的編碼經(jīng)驗(yàn)。
Udacity 的數(shù)據(jù)科學(xué)系列。
Udacity 的 Web 開發(fā)課程。如果想成為一個(gè)數(shù)據(jù)科學(xué)家在技術(shù)上不需要了解這些,但成為一個(gè)更好的軟件開發(fā)人員可以使你成為一個(gè)更好的數(shù)據(jù)科學(xué)家,了解如何構(gòu)建自己的網(wǎng)絡(luò)應(yīng)用程序非常有用。
上述強(qiáng)調(diào)的問題之一是,在線可用的信息、教程和課程的數(shù)量或許巨大的,最大的風(fēng)險(xiǎn)之一是不能持之以恒,不能完成或堅(jiān)持足夠長的時(shí)間來學(xué)習(xí)它。重要的是找到一個(gè)「足夠好」的課程或項(xiàng)目,然后堅(jiān)持下去。找到或組建一個(gè)見面團(tuán)隊(duì)來一起學(xué)完在線課程或許對解決這個(gè)問題有幫助。
在線課程對獲取知識(shí)非常有用(做完作業(yè)非常重要,這是你學(xué)習(xí)的方式)。不過,我還沒發(fā)現(xiàn)獲得證書有啥好處。(雖然我知道這是一個(gè)新增長的領(lǐng)域)。因?yàn)橹肮蛡驍?shù)據(jù)科學(xué)家時(shí),我面試過很多求職者,而且自己也有這方面的求職經(jīng)驗(yàn),都是經(jīng)驗(yàn)之談。
作為一位數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師或機(jī)器學(xué)習(xí)研究者,面對市面上各種各樣的相關(guān)書籍一定會(huì)感覺難以取舍。這是一份數(shù)據(jù)驅(qū)動(dòng)的客觀書單,希望可以有所幫助:
價(jià)格:英文版 61.36 美元,中文版 63.1 元
品質(zhì)得分:10/10
這本書在亞馬遜上評分非常高,其作者是來自南加利福尼亞大學(xué)、斯坦福大學(xué)和華盛頓大學(xué)的四位教授 Gareth James、Daniela Witten、Trevor Hastie 和 Rob Tibshirani;他們都有統(tǒng)計(jì)學(xué)背景。這本書比《The Elements of Statistical Learning(統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ))》更為實(shí)用,它給出了一些使用 R 語言實(shí)現(xiàn)的案例。
2.The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理和預(yù)測)
價(jià)格:英文版 62.0 美元,中文版 45 元
品質(zhì)得分:9/10
亞馬遜上的高分書籍,作者是斯坦福大學(xué)的三位統(tǒng)計(jì)學(xué)教授。第一作者 Trevor Hastie 具有統(tǒng)計(jì)學(xué)和生物統(tǒng)計(jì)學(xué)方面的研究背景。關(guān)于這本書的一個(gè)有趣的事情是作者們以統(tǒng)計(jì)學(xué)的視角看待機(jī)器學(xué)習(xí)問題。這本書似乎過于關(guān)注理論了,所以一些讀者可能傾向于略過它。
3.Pattern Recognition and Machine Learning(模式識(shí)別與機(jī)器學(xué)習(xí))
價(jià)格:英文版 60.0 美元,無中文版
品質(zhì)得分:8/10
亞馬遜上的高分書籍,作者是著名作家 Christopher M. Bishop,他是微軟劍橋研究院的一位杰出科學(xué)家,領(lǐng)導(dǎo)微軟機(jī)器學(xué)習(xí)與感知研究組。這本書在技術(shù)上全面覆蓋了各種機(jī)器學(xué)習(xí)主題,包括回歸、線性分類、神經(jīng)網(wǎng)絡(luò)、核方法和圖模型。
4. Machine Learning: A Probabilistic Perspective(機(jī)器學(xué)習(xí):概率學(xué)的觀點(diǎn))
價(jià)格:英文版 79.16 美元,無中文版
品質(zhì)得分: 7/10
Machine Learning: A Probabilistic Perspective 一書提供了可以自動(dòng)檢測數(shù)據(jù)模式,然后使用得出的模式預(yù)測未來數(shù)據(jù)的方法。該教材基于統(tǒng)一的、概率學(xué)的方法對機(jī)器學(xué)習(xí)領(lǐng)域提供了全面的介紹。該書的作者 Kevin Murphy 是谷歌的一位研究人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、知識(shí)基礎(chǔ)建設(shè)和自然語言處理的研究科學(xué)家。
5. Data Mining: Concepts and Techniques, Third Edition(數(shù)據(jù)挖掘:概念與技術(shù),第三版)
價(jià)格:英文版 50.0 美元,中文版 79.0 元
品質(zhì)得分: 6/10
Data Mining: Concepts and Techniques, Third Edition 一書的作者是伊利諾伊大學(xué)香檳分校計(jì)算機(jī)科學(xué)系的 Jiawei Han(韓家煒)教授。這本書能讓你了解、應(yīng)用從大數(shù)據(jù)集中發(fā)現(xiàn)隱藏模式的理論和實(shí)踐知識(shí)。這本書在亞馬遜上獲得了較為平均的評價(jià)。
6. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition(數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù),第3版)
價(jià)格:英文版 37.5 美元,中文版 79.0 元
品質(zhì)得分: 6/10
這本書在亞馬遜上的評價(jià)相當(dāng)不錯(cuò),其作者為新西蘭懷卡托大學(xué)的三位計(jì)算機(jī)科學(xué)教授。他們也是基于 Java 的數(shù)據(jù)挖掘軟件 Weka 的主要貢獻(xiàn)者。因此,這本書重在數(shù)據(jù)挖掘領(lǐng)域的具體實(shí)現(xiàn)方面,尤其是基于 Weka 軟件的工作平臺(tái)。
7. Probabilistic Graphical Models: Principles and Techniques(概率圖模型:原理與技術(shù))
價(jià)格:英文版 91.66 美元,中文版 198 元
品質(zhì)得分: 6/10
Probabilistic Graphical Models: Principles and Techniques 這本獨(dú)特的書提供了設(shè)計(jì)自動(dòng)推理系統(tǒng)的概率圖框架。這本書的作者是兩位計(jì)算機(jī)科學(xué)教授:來自斯坦福大學(xué)人工智能實(shí)驗(yàn)室的 Daphne Koller 和來自耶路撒冷希伯來大學(xué)的 Nir Friedman。
8. Introduction to Information Retrieval(信息檢索導(dǎo)論)
價(jià)格:英文版 57.0 美元,中文版 69 元
品質(zhì)得分: 6/10
Introduction to Information Retrieval 的第一作者是斯坦福計(jì)算機(jī)科學(xué)教授 Christopher Manning。這是講解網(wǎng)絡(luò)時(shí)代的信息檢索的教科書,包括網(wǎng)絡(luò)搜索,以及與文本分類和文本聚類的基本概念相關(guān)的領(lǐng)域。
9. Machine Learning(機(jī)器學(xué)習(xí))
價(jià)格:英文版 211.6 美元,中文版 35 元
品質(zhì)得分: 5/10
Machine Learning 是機(jī)器學(xué)習(xí)領(lǐng)域一本非常著名的著作,其作者是美國卡內(nèi)基·梅隆大學(xué)計(jì)算機(jī)科學(xué)教授 Tom Mitchell。Tom Mitchell 是世界上第一個(gè)機(jī)器學(xué)習(xí)系的第一任系主任。Machine Learning 一書涵蓋了機(jī)器學(xué)習(xí)的一些基本領(lǐng)域,包括學(xué)習(xí)、決策樹學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。
10. Speech and Language Processing, 2nd Edition(語音和語言處理,第二版)
價(jià)格:英文版 78.65 美元,無中文版
品質(zhì)得分: 5/10
Speech and Language Processing 的作者是斯坦福大學(xué)語言學(xué)和計(jì)算機(jī)科學(xué)教授 Dan Jurafsky。這是全面覆蓋語言技術(shù)的第一本書——在所有層次上且包含所有現(xiàn)代技術(shù)。基于大型企業(yè)使用的應(yīng)用統(tǒng)計(jì)和其它機(jī)器學(xué)習(xí)算法,這本書在語言技術(shù)這一主題上使用了實(shí)證的方法
11. Introduction to Data Mining(數(shù)據(jù)挖掘?qū)д摚?/p>
價(jià)格:英文版 118.91 美元,中文版 49.0 元
品質(zhì)得分: 4/10
這本書在亞馬遜上獲得了很好的評分,其作者是三位計(jì)算機(jī)科學(xué)教授:密歇根州立大學(xué)的 Pang-Ning Tan、明尼蘇達(dá)大學(xué)的 Michael Steinbach 和 Vipin Kumar。這本書涵蓋了數(shù)據(jù)挖掘的不同基本領(lǐng)域,如:分類、關(guān)聯(lián)分析、聚類和異常檢測。
12. Neural Networks for Pattern Recognition(用于模式識(shí)別的神經(jīng)網(wǎng)絡(luò))
價(jià)格:英文版 88.42 美元,無中文版
品質(zhì)得分: 4/10
Neural Networks for Pattern Recognition 算是一本老書了,但其作者是微軟劍橋研究院的杰出科學(xué)家 Christopher M. Bishop。
13. Foundations of Statistical Natural Language Processing(統(tǒng)計(jì)自然語言處理基礎(chǔ))
價(jià)格:英文版 87.27 美元,中文版 55 元
品質(zhì)得分: 4/10
Foundations of Statistical Natural Language Processing 是亞馬遜上評分非常好的一本自然語言處理書籍。用統(tǒng)計(jì)方法處理自然語言文本近來已經(jīng)占據(jù)了主導(dǎo)地位。這本書對統(tǒng)計(jì)自然語言處理(NLP)進(jìn)行了全面的介紹,含所有開發(fā) NLP 工具所需的理論和算法。
14. Handbook of Statistical Analysis and Data Mining Applications(統(tǒng)計(jì)分析和數(shù)據(jù)挖掘應(yīng)用手冊)
價(jià)格:英文版 72.81 美元,無中文版
品質(zhì)得分: 4/10
這本書在亞馬遜的評分高于平均分,其作者是三位在數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)領(lǐng)域有行業(yè)經(jīng)驗(yàn)的博士。這本書是一本指導(dǎo)商業(yè)分析師、科學(xué)家、工程師和研究者的全面的專業(yè)參考書,其中包含不同階段的數(shù)據(jù)分析、建模和實(shí)現(xiàn)。
15. Understanding Machine Learning: From Theory to Algorithms(理解機(jī)器學(xué)習(xí):從理論到算法)
價(jià)格:英文版 52.76 美元,無中文版
品質(zhì)得分: 4/10
Understanding Machine Learning: From Theory to Algorithms 提供了解釋機(jī)器學(xué)習(xí)基本思想的廣泛理論和將這些原理轉(zhuǎn)化成實(shí)際算法的數(shù)學(xué)推導(dǎo)。這本書的兩位作者是分別來自耶路撒冷希伯來大學(xué)和滑鐵盧大學(xué)的計(jì)算機(jī)科學(xué)教授。
16. Foundations of Machine Learning(機(jī)器學(xué)習(xí)基礎(chǔ))
價(jià)格:英文版 96.56 美元,無中文版
品質(zhì)得分: 3/10
Foundations of Machine Learning 是一本研究生階段的教科書,介紹了機(jī)器學(xué)習(xí)的基本概念和方法。這本書描述了幾種重要的算法,提供了這些算法的理論基礎(chǔ),并闡釋了這些算法應(yīng)用的主要方面。其作者 Mehryar Mohri 是紐約大學(xué)庫朗數(shù)學(xué)科學(xué)研究所的計(jì)算機(jī)科學(xué)教授。
如果你是一名數(shù)據(jù)科學(xué)家,那就需要對機(jī)器學(xué)習(xí)很擅長,而不只是三腳貓的功夫。測試包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、時(shí)序問題以及概率。數(shù)據(jù)科學(xué)家可以就這些關(guān)鍵技能進(jìn)行自我評估。算是對以上內(nèi)容的一個(gè)補(bǔ)充。
假定特征 F1 可以取特定值:A、B、C、D、E 和 F,其代表著學(xué)生在大學(xué)所獲得的評分?,F(xiàn)在請答題:
1. 在下面說法中哪一項(xiàng)是正確的?
A. 特征 F1 是名義變量(nominal variable)的一個(gè)實(shí)例。
B. 特征 F1 是有序變量(ordinal variable)的一個(gè)實(shí)例。
C. 該特征并不屬于以上的分類。
D. 以上說法都正確。
答案為(B):有序變量是一種在類別上有某些順序的變量。例如,等級 A 就要比等級 B 所代表的成績好一些。
2. 下面哪個(gè)選項(xiàng)中哪一項(xiàng)屬于確定性算法?
A.PCA
B.K-Means
C. 以上都不是
答案為(A):確定性算法表明在不同運(yùn)行中,算法輸出并不會(huì)改變。如果我們再一次運(yùn)行算法,PCA 會(huì)得出相同的結(jié)果,而 k-means 不會(huì)。
3. 兩個(gè)變量的 Pearson 相關(guān)性系數(shù)為零,但這兩個(gè)變量的值同樣可以相關(guān)。
A. 正確
B. 錯(cuò)誤
答案為(A):Y=X2,請注意他們不僅僅相關(guān)聯(lián),同時(shí)一個(gè)還是另一個(gè)的函數(shù)。盡管如此,他們的相關(guān)性系數(shù)還是為 0,因?yàn)檫@兩個(gè)變量的關(guān)聯(lián)是正交的,而相關(guān)性系數(shù)就是檢測這種關(guān)聯(lián)。詳情查看:https://en.wikipedia.org/wiki/Anscombe's_quartet
4. 下面哪一項(xiàng)對梯度下降(GD)和隨機(jī)梯度下降(SGD)的描述是正確的?
在 GD 和 SGD 中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。
在 SGD 中,每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。
在 GD 中,每一次迭代需要使用整個(gè)訓(xùn)練集或子訓(xùn)練集的數(shù)據(jù)更新一個(gè)參數(shù)。
A. 只有 1
B. 只有 2
C. 只有 3
D.1 和 2
E.2 和 3
F. 都正確
答案為(A):在隨機(jī)梯度下降中,每一次迭代選擇的批量是由數(shù)據(jù)集中的隨機(jī)樣本所組成,但在梯度下降,每一次迭代需要使用整個(gè)訓(xùn)練數(shù)據(jù)集。
5. 下面哪個(gè)/些超參數(shù)的增加可能會(huì)造成隨機(jī)森林?jǐn)?shù)據(jù)過擬合?
樹的數(shù)量
樹的深度
學(xué)習(xí)速率
A. 只有 1
B. 只有 2
C. 只有 3
D.1 和 2
E.2 和 3
F. 都正確
答案為(B):通常情況下,我們增加樹的深度有可能會(huì)造成模型過擬合。學(xué)習(xí)速率在隨機(jī)森林中并不是超參數(shù)。增加樹的數(shù)量可能會(huì)造成欠擬合。
6. 假如你在「Analytics Vidhya」工作,并且想開發(fā)一個(gè)能預(yù)測文章評論次數(shù)的機(jī)器學(xué)習(xí)算法。你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 寫過的總文章數(shù)量等等。那么在這樣一個(gè)算法中,你會(huì)選擇哪一個(gè)評價(jià)度量標(biāo)準(zhǔn)?
均方誤差
精確度
F1 分?jǐn)?shù)
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 和 3
E. 2 和 3
F. 1 和 2
答案為(A):你可以把文章評論數(shù)看作連續(xù)型的目標(biāo)變量,因此該問題可以劃分到回歸問題。因此均方誤差就可以作為損失函數(shù)的度量標(biāo)準(zhǔn)。
7. 給定以下三個(gè)圖表(從上往下依次為1,2,3). 哪一個(gè)選項(xiàng)對以這三個(gè)圖表的描述是正確的?
A. 1 是 tanh,2 是 ReLU,3 是 SIGMOID 激活函數(shù)
B. 1 是 SIGMOID,2 是 ReLU,3 是 tanh 激活函數(shù)
C. 1 是 ReLU,2 是 tanh,3 是 SIGMOID 激活函數(shù)
D. 1 是 tanh,2 是 SIGMOID,3 是 ReLU 激活函數(shù)
答案為(D):因?yàn)?SIGMOID 函數(shù)的取值范圍是 [0,1],tanh 函數(shù)的取值范圍是 [-1,1],RELU 函數(shù)的取值范圍是 [0,infinity]。
8. 以下是目標(biāo)變量在訓(xùn)練集上的 8 個(gè)實(shí)際值 [0,0,0,1,1,1,1,1],目標(biāo)變量的熵是所少?
A. -(5/8 log(5/8) + 3/8 log(3/8))
B. 5/8 log(5/8) + 3/8 log(3/8)
C. 3/8 log(5/8) + 5/8 log(3/8)
D. 5/8 log(3/8) – 3/8 log(5/8)
答案為(A):信息熵的公式為:
9. 假定你正在處理類屬特征,并且沒有查看分類變量在測試集中的分布?,F(xiàn)在你想將 one hot encoding(OHE)應(yīng)用到類屬特征中。那么在訓(xùn)練集中將 OHE 應(yīng)用到分類變量可能要面臨的困難是什么?
A. 分類變量所有的類別沒有全部出現(xiàn)在測試集中
B. 類別的頻率分布在訓(xùn)練集和測試集是不同的
C. 訓(xùn)練集和測試集通常會(huì)有一樣的分布
D. A 和 B 都正確
E. 以上都不正確
答案為(D):A、B 項(xiàng)都正確,如果類別在測試集中出現(xiàn),但沒有在訓(xùn)練集中出現(xiàn),OHE 將會(huì)不能進(jìn)行編碼類別,這將是應(yīng)用 OHE 的主要困難。選項(xiàng) B 同樣也是正確的,在應(yīng)用 OHE 時(shí),如果訓(xùn)練集和測試集的頻率分布不相同,我們需要多加小心。
10.Skip gram 模型是在 Word2vec 算法中為詞嵌入而設(shè)計(jì)的最優(yōu)模型。以下哪一項(xiàng)描繪了 Skip gram 模型?
A. A
B. B
C. A 和 B
D. 以上都不是
答案為(B):這兩個(gè)模型都是在 Word2vec 算法中所使用的。模型 A 代表著 CBOW,模型 B 代表著 Skip gram。
11. 假定你在神經(jīng)網(wǎng)絡(luò)中的隱藏層中使用激活函數(shù) X。在特定神經(jīng)元給定任意輸入,你會(huì)得到輸出「-0.0001」。X 可能是以下哪一個(gè)激活函數(shù)?
A. ReLU
B. tanh
C. SIGMOID
D. 以上都不是
答案為(B):該激活函數(shù)可能是 tanh,因?yàn)樵摵瘮?shù)的取值范圍是 (-1,1)。
12. 對數(shù)損失度量函數(shù)可以取負(fù)值。
A. 對
B. 錯(cuò)
答案為(B):對數(shù)損失函數(shù)不可能取負(fù)值。
13. 下面哪個(gè)/些對「類型 1(Type-1)」和「類型 2(Type-2)」錯(cuò)誤的描述是正確的?
類型 1 通常稱之為假正類,類型 2 通常稱之為假負(fù)類。
類型 2 通常稱之為假正類,類型 1 通常稱之為假負(fù)類。
類型 1 錯(cuò)誤通常在其是正確的情況下拒絕假設(shè)而出現(xiàn)。
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 和 2
E. 1 和 3
F. 3 和 2
答案為(E):在統(tǒng)計(jì)學(xué)假設(shè)測試中,I 類錯(cuò)誤即錯(cuò)誤地拒絕了正確的假設(shè)(即假正類錯(cuò)誤),II 類錯(cuò)誤通常指錯(cuò)誤地接受了錯(cuò)誤的假設(shè)(即假負(fù)類錯(cuò)誤)。
14. 下面在 NLP 項(xiàng)目中哪些是文本預(yù)處理的重要步驟?
詞干提?。⊿temming)
移去停止詞(Stop word removal)
目標(biāo)標(biāo)準(zhǔn)化(Object Standardization)
A. 1 和 2
B. 1 和 3
C. 2 和 3
D. 1、2 和 3
答案為(D):詞干提取是剝離后綴(「ing」,「ly」,「es」,「s」等)的基于規(guī)則的過程。停止詞是與語境不相關(guān)的詞(is/am/are)。目標(biāo)標(biāo)準(zhǔn)化也是一種文本預(yù)處理的優(yōu)良方法。
15. 假定你想將高維數(shù)據(jù)映射到低維數(shù)據(jù)中,那么最出名的降維算法是 PAC 和 t-SNE。現(xiàn)在你將這兩個(gè)算法分別應(yīng)用到數(shù)據(jù)「X」上,并得到數(shù)據(jù)集「X_projected_PCA」,「X_projected_tSNE」。下面哪一項(xiàng)對「X_projected_PCA」和「X_projected_tSNE」的描述是正確的?
A. X_projected_PCA 在最近鄰空間能得到解釋
B. X_projected_tSNE 在最近鄰空間能得到解釋
C. 兩個(gè)都在最近鄰空間能得到解釋
D. 兩個(gè)都不能在最近鄰空間得到解釋
答案為(B):t-SNE 算法考慮最近鄰點(diǎn)而減少數(shù)據(jù)維度。所以在使用 t-SNE 之后,所降的維可以在最近鄰空間得到解釋。但 PCA 不能。
16-17 題的背景:給定下面兩個(gè)特征的三個(gè)散點(diǎn)圖(從左到右依次為圖 1、2、3)。
16. 在上面的圖像中,哪一個(gè)是多元共線(multi-collinear)特征?
A. 圖 1 中的特征
B. 圖 2 中的特征
C. 圖 3 中的特征
D. 圖 1、2 中的特征
E. 圖 2、3 中的特征
F. 圖 1、3 中的特征
答案為(D):在圖 1 中,特征之間有高度正相關(guān),圖 2 中特征有高度負(fù)相關(guān)。所以這兩個(gè)圖的特征是多元共線特征。
17. 在先前問題中,假定你已經(jīng)鑒別了多元共線特征。那么下一步你可能的操作是什么?
移除兩個(gè)共線變量
不移除兩個(gè)變量,而是移除一個(gè)
移除相關(guān)變量可能會(huì)導(dǎo)致信息損失。為了保留這些變量,我們可以使用帶罰項(xiàng)的回歸模型(如 ridge 或 lasso regression)。
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 或 3
E. 1 或 2
答案為(E):因?yàn)橐瞥齼蓚€(gè)變量會(huì)損失一切信息,所以我們只能移除一個(gè)特征,或者也可以使用正則化算法(如 L1 和 L2)。
18. 給線性回歸模型添加一個(gè)不重要的特征可能會(huì)造成:
增加 R-square
減少 R-square
A. 只有 1 是對的
B. 只有 2 是對的
C. 1 或 2 是對的
D. 都不對
答案為(A):在給特征空間添加了一個(gè)特征后,不論特征是重要還是不重要,R-square 通常會(huì)增加。
19. 假設(shè)給定三個(gè)變量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關(guān)性系數(shù)分別為 C1、C2 和 C3。現(xiàn)在 X 的所有值加 2(即 X+2),Y 的全部值減 2(即 Y-2),Z 保持不變。那么運(yùn)算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相關(guān)性系數(shù)分別為 D1、D2 和 D3。現(xiàn)在試問 D1、D2、D3 和 C1、C2、C3 之間的關(guān)系是什么?
A. D1= C1, D2 < C2, D3 > C3
B. D1 = C1, D2 > C2, D3 > C3
C. D1 = C1, D2 > C2, D3 < C3
D. D1 = C1, D2 < C2, D3 < C3
E. D1 = C1, D2 = C2, D3 = C3
F. 無法確定
答案為(E):特征之間的相關(guān)性系數(shù)不會(huì)因?yàn)樘卣骷踊驕p去一個(gè)數(shù)而改變。
20. 假定你現(xiàn)在解決一個(gè)有著非常不平衡類別的分類問題,即主要類別占據(jù)了訓(xùn)練數(shù)據(jù)的 99%?,F(xiàn)在你的模型在測試集上表現(xiàn)為 99% 的準(zhǔn)確度。那么下面哪一項(xiàng)表述是正確的?
準(zhǔn)確度并不適合于衡量不平衡類別問題
準(zhǔn)確度適合于衡量不平衡類別問題
精確率和召回率適合于衡量不平衡類別問題
精確率和召回率不適合于衡量不平衡類別問題
A. 1 and 3
B. 1 and 4
C. 2 and 3
D. 2 and 4
答案為(A):參考問題 4 的解答。
21. 在集成學(xué)習(xí)中,模型集成了弱學(xué)習(xí)者的預(yù)測,所以這些模型的集成將比使用單個(gè)模型預(yù)測效果更好。下面哪個(gè)/些選項(xiàng)對集成學(xué)習(xí)模型中的弱學(xué)習(xí)者描述正確?
他們經(jīng)常不會(huì)過擬合
他們通常帶有高偏差,所以其并不能解決復(fù)雜學(xué)習(xí)問題
他們通常會(huì)過擬合
A. 1 和 2
B. 1 和 3
C. 2 和 3
D. 只有 1
E. 只有 2
F. 以上都不對
答案為(A):弱學(xué)習(xí)者是問題的特定部分。所以他們通常不會(huì)過擬合,這也就意味著弱學(xué)習(xí)者通常擁有低方差和高偏差。
22. 下面哪個(gè)/些選項(xiàng)對 K 折交叉驗(yàn)證的描述是正確的
增大 K 將導(dǎo)致交叉驗(yàn)證結(jié)果時(shí)需要更多的時(shí)間
更大的 K 值相比于小 K 值將對交叉驗(yàn)證結(jié)構(gòu)有更高的信心
如果 K=N,那么其稱為留一交叉驗(yàn)證,其中 N 為驗(yàn)證集中的樣本數(shù)量
A. 1 和 2
B. 2 和 3
C. 1 和 3
D. 1、2 和 3
答案為(D):大 K 值意味著對過高估計(jì)真實(shí)預(yù)期誤差(訓(xùn)練的折數(shù)將更接近于整個(gè)驗(yàn)證集樣本數(shù))擁有更小的偏差和更多的運(yùn)行時(shí)間(并隨著越來越接近極限情況:留一交叉驗(yàn)證)。我們同樣在選擇 K 值時(shí)需要考慮 K 折準(zhǔn)確度和方差間的均衡。
23 題至 24 題的背景:交叉驗(yàn)證在機(jī)器學(xué)習(xí)超參數(shù)微調(diào)中是十分重要的步驟。假定你需要為 GBM 通過選擇 10 個(gè)不同的深度值(該值大于 2)而調(diào)整超參數(shù)「max_depth」,該樹型模型使用 5 折交叉驗(yàn)證。 4 折訓(xùn)練驗(yàn)證算法(模型 max_depth 為 2)的時(shí)間為 10 秒,在剩下的 1 折中預(yù)測為 2 秒。
23. 哪一項(xiàng)描述擁有 10 個(gè)「max_depth」不同值的 5 折交叉驗(yàn)證整體執(zhí)行時(shí)間是正確的?
A. 少于 100 秒
B. 100-300 秒
C. 300-600 秒
D. 大于等于 600 秒
E. 無法估計(jì)
答案為(D):因?yàn)樯疃葹?2 的 5 折交叉驗(yàn)證每一次迭代需要訓(xùn)練 10 秒和測試 2 秒。因此五折驗(yàn)證需要 12*5 = 60 秒,又因?yàn)槲覀冃枰阉?10 個(gè)深度值,所以算法需要 60*10 = 600。
24. 在先前的答案中,如果你訓(xùn)練同樣的算法調(diào)整 2 個(gè)超參數(shù),假設(shè)是 max_depth 和 learning_rate。你想要選擇正確的值對抗 max_depth(從給定的 10 個(gè)深度值中)和學(xué)習(xí)率(從 5 個(gè)不同的學(xué)習(xí)率做選擇)。在此情況下,整體時(shí)間是下面的哪個(gè)?
A.1000-1500 秒
B.1500-3000 秒
C. 多于或等于 3000 Second
D. 都不是
答案為(D):和 23 題一樣。
25. 下表是機(jī)器學(xué)習(xí)算法 M1 的訓(xùn)練錯(cuò)誤率 TE 和驗(yàn)證錯(cuò)誤率 VE,基于 TE 和 VE 你想要選擇一個(gè)超參數(shù)(H)。
基于上表,你會(huì)選擇哪個(gè) H 值?
A.1
B.2
C.3
D.4
E.5
答案為(D):看這個(gè)表,D 選項(xiàng)看起來是最好的。
26. 為了得到和 SVD 一樣的投射(projection),你需要在 PCA 中怎樣做?
A. 將數(shù)據(jù)轉(zhuǎn)換成零均值
B. 將數(shù)據(jù)轉(zhuǎn)換成零中位數(shù)
C. 無法做到
D. 以上方法不行
答案為(A):當(dāng)數(shù)據(jù)有一個(gè) 0 均值向量時(shí),PCA 有與 SVD 一樣的投射,否則在使用 SVD 之前,你必須將數(shù)據(jù)均值歸 0。
問題 27-28 的背景:假設(shè)存在一個(gè)黑箱算法,其輸入為有多個(gè)觀察(t1, t2, t3,…….. tn)的訓(xùn)練數(shù)據(jù)和一個(gè)新的觀察(q1)。該黑箱算法輸出 q1 的最近鄰 ti 及其對應(yīng)的類別標(biāo)簽 ci。你可以將這個(gè)黑箱算法看作是一個(gè) 1-NN(1-最近鄰)
27. 能夠僅基于該黑箱算法而構(gòu)建一個(gè) k-NN 分類算法?注:相對于 k 而言,n(訓(xùn)練觀察的數(shù)量)非常大。
A. 可以
B. 不行
答案為(A):在第一步,你在這個(gè)黑箱算法中傳遞一個(gè)觀察樣本 q1,使該算法返回一個(gè)最近鄰的觀察樣本及其類別,在第二步,你在訓(xùn)練數(shù)據(jù)中找出最近觀察樣本,然后再一次輸入這個(gè)觀察樣本(q1)。該黑箱算法將再一次返回一個(gè)最近鄰的觀察樣本及其類別。你需要將這個(gè)流程重復(fù) k 次。
28. 我們不使用 1-NN 黑箱,而是使用 j-NN(j>1) 算法作為黑箱。為了使用 j-NN 尋找 k-NN,下面哪個(gè)選項(xiàng)是正確的?
A. j 必須是 k 的一個(gè)合適的因子
B. j>k
C. 不能辦到
答案為(C):原因和 27 題一樣
29. 有以下 7 副散點(diǎn)圖(從左到右分別編號(hào)為 1-7),你需要比較每個(gè)散點(diǎn)圖的變量之間的皮爾遜相關(guān)系數(shù)。下面正確的比較順序是?
1<2<3<4
1>2>3 > 4
7<6<5<4
7>6>5>4
A. 1 和 3
B. 2 和 3
C. 1 和 4
D. 2 和 4
30. 你可以使用不同的標(biāo)準(zhǔn)評估二元分類問題的表現(xiàn),例如準(zhǔn)確率、log-loss、F-Score。讓我們假設(shè)你使用 log-loss 函數(shù)作為評估標(biāo)準(zhǔn)。下面這些選項(xiàng),哪個(gè)/些是對作為評估標(biāo)準(zhǔn)的 log-loss 的正確解釋。
如果一個(gè)分類器對不正確的分類很自信,log-loss 會(huì)嚴(yán)重的批評它。
對一個(gè)特別的觀察而言,分類器為正確的類別分配非常小的概率,然后對 log-loss 的相應(yīng)分布會(huì)非常大。
3.log-loss 越低,模型越好。
A.1 和 3
B.2 和 3
C.1 和 2
D.1、2、3
答案為(D):答案無需解釋。
問題 31-32 背景:下面是數(shù)據(jù)集給出的 5 個(gè)樣本。
注意:圖像中點(diǎn)之間的視覺距離代表實(shí)際距離。
31. 下面哪個(gè)是 3-NN(3-最近鄰)的留一法交叉驗(yàn)證準(zhǔn)確率?
A.0
B.0.4
C.0.8
D.1
答案為(C):留一法交叉驗(yàn)證,我們將選擇(n-1) 觀察值作為訓(xùn)練,以及驗(yàn)證的 1 觀察值。把每個(gè)點(diǎn)作為交叉驗(yàn)證點(diǎn),然后找到 3 個(gè)最近鄰點(diǎn)。所以,如果你在每個(gè)點(diǎn)上重復(fù)該步驟,你會(huì)為上圖中給出的所有正類找到正確的分類,而錯(cuò)誤分類負(fù)類。因此,得到 80% 的準(zhǔn)確率。
32. 下面哪個(gè) K 值將會(huì)有最低的差一法(leave-one-out)交叉驗(yàn)證精確度?
A. 1NN
B. 3NN
C. 4NN
D. 以上所有具有相同的差一法錯(cuò)誤
答案(A):在 1-NN 中,被錯(cuò)誤分類的每一個(gè)點(diǎn)都意味著你將得到 0% 的精確度。
33. 假設(shè)你被給到以下數(shù)據(jù),你想要在給定的兩個(gè)類別中使用 logistic 回歸模型對它進(jìn)行分類。你正在使用帶有 L1 正則化的 logistic 回歸,其中 C 是正則化參數(shù),w1 和 w2 是 x1 和 x2 的系數(shù)。當(dāng)你把 C 值從 0 增加至非常大的值時(shí),下面哪個(gè)選項(xiàng)是正確的?
A. 第一個(gè) w2 成了 0,接著 w1 也成了 0
B. 第一個(gè) w1 成了 0,接著 w2 也成了 0
C. w1 和 w2 同時(shí)成了 0
D. 即使在 C 成為大值之后,w1 和 w2 都不能成 0
答案(B):通過觀察圖像我們發(fā)現(xiàn),即使只使用 x2,我們也能高效執(zhí)行分類。因此一開始 w1 將成 0;當(dāng)正則化參數(shù)不斷增加時(shí),w2 也會(huì)越來越接近 0。
34. 假設(shè)我們有一個(gè)數(shù)據(jù)集,在一個(gè)深度為 6 的決策樹的幫助下,它可以使用 100% 的精確度被訓(xùn)練?,F(xiàn)在考慮一下兩點(diǎn),并基于這兩點(diǎn)選擇正確的選項(xiàng)。
注意:所有其他超參數(shù)是相同的,所有其他因子不受影響。
深度為 4 時(shí)將有高偏差和低方差
深度為 4 時(shí)將有低偏差和低方差
A. 只有 1
B. 只有 2
C. 1 和 2
D. 沒有一個(gè)
答案(A):如果在這樣的數(shù)據(jù)中你擬合深度為 4 的決策樹,這意味著其更有可能與數(shù)據(jù)欠擬合。因此,在欠擬合的情況下,你將獲得高偏差和低方差。
35. 在 k-均值算法中,以下哪個(gè)選項(xiàng)可用于獲得全局最???
嘗試為不同的質(zhì)心(centroid)初始化運(yùn)行算法
調(diào)整迭代的次數(shù)
找到集群的最佳數(shù)量
A. 2 和 3
B. 1 和 3
C. 1 和 2
D. 以上所有
答案(D):所有都可以用來調(diào)試以找到全局最小。
36. 假設(shè)你正在做一個(gè)項(xiàng)目,它是一個(gè)二元分類問題。你在數(shù)據(jù)集上訓(xùn)練一個(gè)模型,并在驗(yàn)證數(shù)據(jù)集上得到混淆矩陣?;谏鲜龌煜仃嚕旅婺膫€(gè)選項(xiàng)會(huì)給你正確的預(yù)測。
精確度是~0.91
錯(cuò)誤分類率是~0.91
假正率(False correct classification)是~0.95
真正率(True positive rate)是~0.95
A. 1 和 3
B. 2 和 4
C. 1 和 4
D. 2 和 3
答案(C):精確度(正確分類)是 (50+100)/165,約等于 0.91。真正率是你正確預(yù)測正分類的次數(shù),因此真正率將是 100/105 = 0.95,也被稱作敏感度或召回。
37. 對于下面的超參數(shù)來說,更高的值對于決策樹算法更好嗎?
用于拆分的樣本量
樹深
樹葉樣本
A. 1 和 2
B. 2 和 3
C. 1 和 3
D. 1、2 和 3
E. 無法分辨
答案(E):對于選項(xiàng) A、B、C 來說,如果你增加參數(shù)的值,性能并不一定會(huì)提升。例如,如果我們有一個(gè)非常高的樹深值,結(jié)果樹可能會(huì)過擬合數(shù)據(jù),并且也不會(huì)泛化。另一方面,如果我們有一個(gè)非常低的值,結(jié)果樹也許與數(shù)據(jù)欠擬合。因此我們不能確定更高的值對于決策樹算法就更好。
38-39 題背景 :想象一下,你有一個(gè) 28x28 的圖片,并使用輸入深度為 3 和輸出深度為 8 在上面運(yùn)行一個(gè) 3x3 的卷積神經(jīng)網(wǎng)絡(luò)。注意,步幅是 1,你正在使用相同的填充(padding)。
38. 當(dāng)使用給定的參數(shù)時(shí),輸出特征圖的尺寸是多少?
A. 28 寬、28 高、8 深
B. 13 寬、13 高、8 深
C. 28 寬、13 高、8 深
D. 13 寬、28 高、8 深
答案(A):計(jì)算輸出尺寸的公式是:輸出尺寸=(N – F)/S + 1。其中,N 是輸入尺寸,F(xiàn) 是過濾器尺寸,S 是步幅。閱讀這篇文章(鏈接:https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/)獲得更多了解。
39. 當(dāng)使用以下參數(shù)時(shí),輸出特征圖的尺寸是多少?
A. 28 寬、28 高、8 深
B. 13 寬、13 高、8 深
C. 28 寬、13 高、8 深
D. 13 寬、28 高、8 深
答案 (B):同上
40. 假設(shè),我們正在 SVM 算法中為 C(懲罰參數(shù))的不同值進(jìn)行視覺化繪圖。由于某些原因,我們忘記了使用視覺化標(biāo)注 C 值。這個(gè)時(shí)候,下面的哪個(gè)選項(xiàng)在 rbf 內(nèi)核的情況下最好地解釋了下圖(1、2、3 從左到右,圖 1 的 C 值 是 C 1,圖 2 的 C 值 是 C 2,圖 3 的 C 值 是 C 3)中的 C 值。
A. C1 = C2 = C3
B. C1 > C2 > C3
C. C1 < C2 < C3
D. 沒有一個(gè)
答案 (C):錯(cuò)誤項(xiàng)的懲罰參數(shù) C。它也控制平滑決策邊界和訓(xùn)練點(diǎn)正確分類之間的權(quán)衡。對于 C 的大值,優(yōu)化會(huì)選擇一個(gè)較小邊距的超平面。
要想成為一名數(shù)據(jù)科學(xué)家,先了解一下2017年數(shù)據(jù)領(lǐng)域的趨勢,以及數(shù)據(jù)科學(xué)家在其中發(fā)揮的作用。
數(shù)據(jù)不只是企業(yè)的一項(xiàng)業(yè)務(wù),而是關(guān)系到整個(gè)公司的命運(yùn)——它是燃料,是飼料,是動(dòng)力。在過去一年里,這一事實(shí)越來越得到眾人的認(rèn)可。因此,積極制定改善企業(yè)數(shù)據(jù)策略的必要性應(yīng)該引起重視。關(guān)于數(shù)據(jù)策略在過去一年的情況和未來一年的趨勢,我們請多位數(shù)據(jù)專家和思想領(lǐng)袖談了他們的看法。
受訪者包括:美國威斯康星大學(xué)麥迪遜分校首席數(shù)據(jù)官杰森·費(fèi)希貝恩(Jason Fishbain);First San Francisco Partners公司總裁約翰·拉德利(John Ladley);被譽(yù)為“數(shù)據(jù)醫(yī)生”的Data Quality Solutions公司總裁托馬斯·雷德曼(Thomas C. Redman);Nationwide公司首席數(shù)據(jù)官吉姆·泰約(Jim Tyo)。
他們的看法應(yīng)該有助于企業(yè)反思已經(jīng)采取的措施,并思索在新的一年里應(yīng)該采取哪些措施,讓數(shù)據(jù)策略能夠與數(shù)據(jù)價(jià)值相符。
受訪者指出,在過去的一年里,數(shù)據(jù)策略取得了巨大進(jìn)步,但也存在美中不足之處。
越來越多的企業(yè)將設(shè)立首席數(shù)據(jù)官(CDO)崗位,這是大多數(shù)受訪者都認(rèn)同的一個(gè)趨勢。拉德利說,CDO的涌現(xiàn)表明,企業(yè)已經(jīng)開始認(rèn)識(shí)到數(shù)據(jù)資產(chǎn)的重要性。
據(jù)預(yù)測,到2020年,近九成的財(cái)富500強(qiáng)企業(yè)將設(shè)立首席數(shù)據(jù)官或同等職位。泰約覺得這是件值得慶賀的好事,因?yàn)椋?/p>
“這一職務(wù)不斷涌現(xiàn)的好處在于,CDO越多,我們可以參考和仿效的商業(yè)模式就越多,數(shù)據(jù)界的成功機(jī)會(huì)就越多?!?/p>
泰約說,早期的CDO們“克服最初的艱難困苦,制定出正確的策略,如今將可在利用數(shù)據(jù)推動(dòng)業(yè)務(wù)發(fā)展方面處于非常有利的地位”。在Nationwide公司,每一位業(yè)務(wù)主管都說數(shù)據(jù)很重要,這與幾年前形成鮮明對比。他說:“現(xiàn)在,復(fù)雜棘手的下一個(gè)問題在于,我們?nèi)绾卫脭?shù)據(jù)來獲得競爭優(yōu)勢?”
拉德利認(rèn)為,這是很多企業(yè)將在2017年面對的一個(gè)數(shù)據(jù)策略問題,因?yàn)楦餍懈鳂I(yè)不同規(guī)模的公司都越來越重視數(shù)據(jù)的貨幣化。他說:“把數(shù)據(jù)視為具有可替代價(jià)值的資產(chǎn),這種想法如今在影響著企業(yè)戰(zhàn)略甚至愿景的設(shè)定?!?/p>
另一方面,并不是所有公司都充分意識(shí)到了數(shù)據(jù)資產(chǎn)的價(jià)值。例如,拉德利指出,某些公司的CDO流動(dòng)率很高,說明這一崗位的職責(zé)還不夠明確,企業(yè)還不習(xí)慣領(lǐng)導(dǎo)層中的這個(gè)新角色。這方面的“不安定”可能與某些企業(yè)文化問題有關(guān)。數(shù)據(jù)驅(qū)動(dòng)企業(yè)必須靠有力的數(shù)據(jù)策略來推動(dòng),而這些問題的存在仍在拖慢它們進(jìn)步的腳步。
泰約說,有些企業(yè)認(rèn)為,建立數(shù)據(jù)驅(qū)動(dòng)的文化就是“企圖取代曾使企業(yè)功成名就的偉大傳承和文化”。事實(shí)并非如此。他說,使命和價(jià)值驅(qū)動(dòng)的文化會(huì)令企業(yè)變得很偉大,“而CDO只是試圖引入基于事實(shí)、洞察驅(qū)動(dòng)的方法,好讓這種文化與客戶更加契合?!?/p>
拉德利說,真正意義上的數(shù)據(jù)驅(qū)動(dòng)將大幅改變企業(yè)的商業(yè)模式,影響到管理、架構(gòu)和運(yùn)營。按照雷德曼的說法,不能只從字面上去理解“數(shù)據(jù)驅(qū)動(dòng)的文化”,可惜這種事情常常發(fā)生。
受訪者談到了哪些將是企業(yè)數(shù)據(jù)策略的優(yōu)先事項(xiàng)。
雷德曼的回答是繼續(xù)朝向真正的數(shù)據(jù)驅(qū)動(dòng)文化邁進(jìn)。他說,成為數(shù)據(jù)驅(qū)動(dòng)型企業(yè)意味著做出意義深遠(yuǎn)的改變,包括:制定積極的計(jì)劃來照料數(shù)據(jù)(主要涉及質(zhì)量和安全);落實(shí)這一計(jì)劃,并及時(shí)制定和執(zhí)行以獲取市場競爭優(yōu)勢為目標(biāo)的數(shù)據(jù)策略;推進(jìn)管理體系建設(shè),充分發(fā)揮數(shù)據(jù)的特殊屬性。此外,還需要“一份積極主動(dòng)的計(jì)劃,獲取更多的數(shù)據(jù),并以越來越有效的方式將數(shù)據(jù)和直覺結(jié)合起來,使個(gè)人和團(tuán)隊(duì)作出更好的決策”。
他還說,看到他提出的“數(shù)據(jù)煽動(dòng)者”概念引起了很多人的共鳴,這讓他非常高興?!皵?shù)據(jù)煽動(dòng)者”是指一個(gè)人意識(shí)到有更好的方法來處理部門的數(shù)據(jù)問題并肩負(fù)起這個(gè)挑戰(zhàn),從而成為公司其他部門的榜樣。
他說:“我希望在2017年及以后,數(shù)據(jù)煽動(dòng)者的概念會(huì)繼續(xù)引起關(guān)注,有越來越多的人來扮演這個(gè)角色?!绷硗?,他認(rèn)為,最具前瞻性的企業(yè)已經(jīng)開始意識(shí)到利用專有數(shù)據(jù)獲取競爭優(yōu)勢的重要性。
拉德利把改進(jìn)商業(yè)智能(BI)和數(shù)據(jù)報(bào)告作為優(yōu)先事項(xiàng),因?yàn)樗f:“傳統(tǒng)的報(bào)告和BI架構(gòu)大多已經(jīng)過時(shí)”。加強(qiáng)數(shù)據(jù)的報(bào)告分析基礎(chǔ)也在泰約的清單上,原因是“和我交談過的十位企業(yè)高管中,有九位都把簡潔快速的報(bào)告和分析列為他們在數(shù)據(jù)方面的優(yōu)先事項(xiàng)”。他認(rèn)為,這在很大程度上源于數(shù)據(jù)辦公室的“酷因素”正在拓展到大數(shù)據(jù)、物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)、人工智能等方面,但中小型數(shù)據(jù)、運(yùn)營報(bào)告和更傳統(tǒng)的分析與建模需求同樣重要。
“獲取(恰當(dāng)數(shù)據(jù)的)能力不足將催生出影子企業(yè)或以外包優(yōu)先的數(shù)據(jù)策略?!碧┘s說。為了避免這種問題,數(shù)據(jù)策略應(yīng)該包括建立“一個(gè)專門的辦公室,為處于數(shù)據(jù)成熟度不同階段的業(yè)務(wù)提供不同選擇”。
泰約還認(rèn)為,利用數(shù)據(jù)來實(shí)現(xiàn)客戶體驗(yàn)差異化和規(guī)范性建模(就特定結(jié)果提供建議)將引起關(guān)注。而拉德利認(rèn)為,所有企業(yè)都將熱烈擁抱預(yù)測分析,不管他們需不需要。預(yù)測分析提供基于數(shù)據(jù)的可執(zhí)行見解?!懊课籆EO都想獲得新的見解,哪怕他們現(xiàn)在連準(zhǔn)確的運(yùn)營報(bào)告都還拿不到?!彼f。
拉德利還說,數(shù)據(jù)治理(仍然是重要的企業(yè)活動(dòng),常常作為主數(shù)據(jù)管理或者大數(shù)據(jù)等工作的一部分)將從IT或IM轉(zhuǎn)移到合規(guī)或風(fēng)險(xiǎn)管理領(lǐng)域?!癐T內(nèi)部的數(shù)據(jù)治理不管用。這種看法將繼續(xù)蔓延?!彼f。
從縱向角度來看(這里是指高等教育),費(fèi)希貝恩認(rèn)為,數(shù)據(jù)策略將圍繞著收集和利用新的數(shù)據(jù)來源展開,以便改善教學(xué)?!敖档蛯W(xué)生入學(xué)費(fèi)、提高畢業(yè)率的壓力很大?!彼f,“數(shù)據(jù)策略必須與這種壓力相適應(yīng)。”
費(fèi)希貝恩認(rèn)為,應(yīng)該更加注意理解數(shù)據(jù)背后的語境:數(shù)據(jù)是如何收集的?利用已有數(shù)據(jù)可以作出什么決定?還可利用哪些數(shù)據(jù)源切實(shí)看清局勢發(fā)展,從而作出更明智的決定?“如果只看數(shù)據(jù)而忽略語境,還能算是數(shù)據(jù)驅(qū)動(dòng)型文化嗎?”他如此發(fā)問。
拉德利說,元數(shù)據(jù)必不可少,也是最基本的要素,他希望看到更多的企業(yè)“認(rèn)真務(wù)實(shí)地部署一些出色的元數(shù)據(jù)設(shè)施”。他并不介意企業(yè)的數(shù)據(jù)策略將重心更多地放在數(shù)據(jù)使用方面的協(xié)作上。他說,大部分企業(yè)就連數(shù)據(jù)使用方面的配合都做不到:
“真正的協(xié)作需要企業(yè)拋棄過時(shí)的卓越中心概念,轉(zhuǎn)而把數(shù)據(jù)視為跨越各座孤島的大一統(tǒng)因素,就像財(cái)務(wù)和預(yù)算那樣?!?/p>
說到孤島,“我希望看到傳統(tǒng)的孤島型企業(yè)能以有實(shí)質(zhì)意義的方式,更好地接納數(shù)據(jù)可視化?!碧┘s說,“利用企業(yè)的工具與設(shè)施,更多地聚合數(shù)據(jù)源,將會(huì)加強(qiáng)整個(gè)計(jì)劃的效果,加速實(shí)現(xiàn)CDO的很多戰(zhàn)略目標(biāo)?!?/p>
在雷德曼看來,他到目前為止看到的種種數(shù)據(jù)策略“亮點(diǎn)”尚未有效疊加成有實(shí)際意義的模式。他仍然擔(dān)心,企業(yè)不會(huì)從以前犯下的數(shù)據(jù)質(zhì)量和數(shù)據(jù)架構(gòu)錯(cuò)誤中吸取教訓(xùn),比如尋求短期的緩解而放過更深層次的原因。此外,“我認(rèn)為很多企業(yè)的行動(dòng)不夠快,整個(gè)行業(yè)的行動(dòng)也不夠快?!彼f。
他認(rèn)為,現(xiàn)在是進(jìn)入數(shù)據(jù)領(lǐng)域的最好時(shí)機(jī)。但“如果行動(dòng)不夠快,那么發(fā)生另一場危機(jī)的可能性就會(huì)提高?!崩椎侣f,“經(jīng)濟(jì)大蕭條與壞數(shù)據(jù)有很深的淵源——而我們承受不起第二次?!?/p>
翻譯:于波
來源:Dataversity
造就:劇院式的線下演講平臺(tái),發(fā)現(xiàn)最有創(chuàng)造力的思想
1、決問題
如果這個(gè)不是你清單中的首位的話,馬上去修改。所有科學(xué)核心都是解決問題:一個(gè)偉大的數(shù)據(jù)科學(xué)家也是一個(gè)偉大的問題解決者;就是這么簡單。需要更進(jìn)一步的證明嗎,基本我在這個(gè)項(xiàng)目中碰到的每一個(gè)人(不管其背景和目前工作環(huán)境如何)都提到數(shù)據(jù)科學(xué)中最重要的因素就是解決問題。
很明顯,你需要有工具去解決問題,但是它們只是:工具。在這種情況下,即便是統(tǒng)計(jì)/機(jī)器學(xué)習(xí)技術(shù)也可以認(rèn)為是你解決問題的工具。新的技術(shù)出現(xiàn)了,科技進(jìn)步了。唯一不變的就是解決問題。
在某種程度上,你解決問題的能力是由天賦決定的,但是與此同時(shí)有且僅有一個(gè)方式來進(jìn)行提高:那就是練習(xí)、練習(xí)、練習(xí)。在后面我們會(huì)回顧這部分內(nèi)容,但是現(xiàn)在你只需要記?。耗阒荒芡ㄟ^嘗試來掌握某件事情。
2. 統(tǒng)計(jì)/機(jī)器學(xué)習(xí)
看完上面的內(nèi)容,似乎我輕視了統(tǒng)計(jì)和機(jī)器學(xué)習(xí)。不過在這里我們并不是討論一個(gè)強(qiáng)力的工具;它們是非常復(fù)雜的(而且在某種程度上是非常深?yuàn)W的領(lǐng)域),如果你沒有專業(yè)的知識(shí),你也不會(huì)很快地解決數(shù)據(jù)科學(xué)問題。
進(jìn)一步對這些詞進(jìn)行解釋說明,機(jī)器學(xué)習(xí)可以被認(rèn)為是從人工智能/計(jì)算科學(xué)與統(tǒng)計(jì)學(xué)中發(fā)展起來的多學(xué)科領(lǐng)域。它通常被認(rèn)為是人工智能的一個(gè)子領(lǐng)域,這是正確的,但是很重要的是要意識(shí)到?jīng)]有統(tǒng)計(jì)學(xué)的話就沒有機(jī)器學(xué)習(xí)(機(jī)器學(xué)習(xí)非常依賴統(tǒng)計(jì)算法來工作)。很長一段時(shí)間依賴統(tǒng)計(jì)學(xué)家都被機(jī)器學(xué)習(xí)所輕視,但是在這兩個(gè)領(lǐng)域的合作才造就了最近的發(fā)展(參見統(tǒng)計(jì)學(xué)習(xí)理論),順便提下高維統(tǒng)計(jì)學(xué)習(xí)只有在統(tǒng)計(jì)學(xué)家與機(jī)器學(xué)習(xí)結(jié)果合作時(shí)才會(huì)有良好的結(jié)果。
3. 計(jì)算
編程
對于我們來說只需要簡單的接觸程序就行,因?yàn)樗鼞?yīng)該是很直觀的:但是對數(shù)據(jù)科學(xué)家來說編程是必須要會(huì)的。設(shè)想下如果你不會(huì)編程的話,如何才能通過編寫一段獨(dú)特的算法來實(shí)現(xiàn)你的理論?又或者建立一個(gè)統(tǒng)計(jì)模型?
如何成為一名數(shù)據(jù)科學(xué)家?
分布式計(jì)算
并不是所有事情都需要超級大的數(shù)據(jù)組,但是考慮到現(xiàn)代世界的情況,建議在工作中都加上大數(shù)據(jù)。簡而言之:單一計(jì)算機(jī)中的主要內(nèi)存并不能實(shí)現(xiàn)大數(shù)據(jù)處理,如果你想同時(shí)在數(shù)百臺(tái)虛擬機(jī)中訓(xùn)練模型的話,你需要能夠使用分布計(jì)算與并行算法。
軟件工程
對于A類數(shù)據(jù)科學(xué)而言,讓我明確一點(diǎn):工程是一門獨(dú)立的學(xué)科。因此如果這是你想成為的數(shù)據(jù)科學(xué)家類型,你其實(shí)不需要成為一個(gè)工程師。然而,如果你想把機(jī)器學(xué)習(xí)算法轉(zhuǎn)化到應(yīng)用中(即B類),那么你將需要一個(gè)強(qiáng)大的軟件工程基礎(chǔ)。
手動(dòng)轉(zhuǎn)換數(shù)據(jù)
數(shù)據(jù)清理/準(zhǔn)備是數(shù)據(jù)科學(xué)的重要內(nèi)在組成部分。這將耗費(fèi)你大多數(shù)時(shí)間。倘若你沒有成功地對數(shù)據(jù)集進(jìn)行降噪(例如,錯(cuò)誤賦值,非標(biāo)準(zhǔn)化分類等),將會(huì)對建模的準(zhǔn)確性產(chǎn)生影響,最終導(dǎo)致產(chǎn)生錯(cuò)誤的結(jié)論。因此,如果你尚未做好處理數(shù)據(jù)的準(zhǔn)備,這將使你先前的知識(shí)積累顯得無關(guān)重要。
有一點(diǎn)是非常重要的且值得注意的,即在商業(yè)化組織中數(shù)據(jù)質(zhì)量一直以來成為飽受爭議的話題,在數(shù)據(jù)儲(chǔ)存方面,許多業(yè)務(wù)又涉及到復(fù)雜的基礎(chǔ)事務(wù)需要處理。所以,如果你尚未準(zhǔn)備好融入這個(gè)環(huán)境中,想要處理純粹的數(shù)據(jù)集,商業(yè)數(shù)據(jù)科學(xué)可能不是最適合你的選擇。
工具與技術(shù)
直至目前,你應(yīng)當(dāng)意識(shí)到,成為一名具備解決問題的能力的數(shù)據(jù)科學(xué)家相比于其他一切條件來講是重中之重:因?yàn)榧夹g(shù)將不斷發(fā)生變化,能夠在相對較短的時(shí)間內(nèi)得到掌握。但是,我們不能對其他影響因素置之不理,因而,能夠認(rèn)清楚如今應(yīng)用最廣泛的工具對于成為一名數(shù)據(jù)科學(xué)家是有用的。
讓我們先從編程語言談起,R與Python是兩種最常用的編程語言,因而,如果能夠選擇的話,希望你選用其中一種語言用于實(shí)驗(yàn)研究。
尤其是在A類數(shù)據(jù)科學(xué)工作領(lǐng)域,具備能夠直觀地觀察數(shù)據(jù)的能力將會(huì)對與非技術(shù)型商業(yè)股東交流溝通產(chǎn)生重大影響。你可能具有最優(yōu)的模型和最深刻的見解,但是如果不能有效地呈現(xiàn)/解釋這些研究成果,那又將有什么用呢?事實(shí)上,你運(yùn)用什么工具實(shí)現(xiàn)數(shù)據(jù)直觀可視化并不重要,可以是通過使用R或Tableau(當(dāng)時(shí)最為流行的編程語言),但是,說實(shí)話,工具是不太重要的。
最后,不論我們所討論的是關(guān)系型數(shù)據(jù)庫,還是運(yùn)用大數(shù)據(jù)技術(shù)獲得的SQL衍生數(shù)據(jù)庫,由于SQL是當(dāng)時(shí)產(chǎn)業(yè)界用于數(shù)據(jù)庫中最為廣泛的編程語言,大多數(shù)公司都非??粗豐QL這種編程語言。SQL對于手動(dòng)轉(zhuǎn)換數(shù)據(jù)尤為重要,至少在處理更大規(guī)模的數(shù)據(jù)庫時(shí)。總之,SQL真的值得你花費(fèi)一定的時(shí)間來好好研究應(yīng)用。
交流/商業(yè)頭腦
在商業(yè)數(shù)據(jù)科學(xué)領(lǐng)域工作,具備交流溝通能力/商業(yè)頭腦是不容忽視的。除非你將要從事非常具體的工作,可能是純研究類型的工作(盡管我們要面對現(xiàn)實(shí),在產(chǎn)業(yè)界并沒有很多這種類型的工作),絕大多數(shù)數(shù)據(jù)科學(xué)領(lǐng)域的工作都涉及到業(yè)界交流互動(dòng),通常是與非學(xué)者類型的人打交道。
具備將商業(yè)化問題和催生這些問題的環(huán)境概念化是極為重要的。將統(tǒng)計(jì)學(xué)方面的觀點(diǎn)轉(zhuǎn)化為可以想普通大眾推薦的行動(dòng)或啟發(fā)性觀點(diǎn)也是重要的,特別是對于A類型數(shù)據(jù)科學(xué)領(lǐng)域的工作來講。我曾與Yanir就該話題交談過,他的觀點(diǎn)如下:
“我發(fā)現(xiàn)一種奇怪的現(xiàn)象,當(dāng)一些技術(shù)型人才開始使用行話與人交流時(shí),他們并不留意他們的交談?wù)摺切┓羌夹g(shù)型人才,的目光早已落到了別處。在交談過程中,能夠設(shè)身處地地為他人著想是重要的。”
西線學(xué)院為大家整理了一套非常齊全的大數(shù)據(jù)視頻課程資料https://jinshuju.net/f/06LHFH?x_field_1=toutiao,它可以幫助大家更全面徹底地了解,不論是興趣愛好還是單純的為了就業(yè),它都是不錯(cuò)的選擇!
聯(lián)系客服