第十一屆CDA數(shù)據(jù)分析師認(rèn)證考試,在2019年12月28日圓滿地落下了帷幕。
昨天,我們分享了本屆CDA認(rèn)證考試Level Ⅰ 中幾位優(yōu)秀考生的備考經(jīng)驗(yàn)。
今天我們帶來的是Level Ⅱ 建模和大數(shù)據(jù)方向中取得優(yōu)異成績的幾位考生,他們當(dāng)中有學(xué)校在讀的研究生,還有經(jīng)驗(yàn)豐富的數(shù)據(jù)工作者,那么他們有怎樣的備考心得體會呢?
下面讓我們來一睹他們的風(fēng)采吧!
本篇采訪約 5753字,建議先收藏后看
1.目前從事的工作
目前就職于一家股份制銀行,從事算法模型研發(fā)工作,負(fù)責(zé)風(fēng)險(xiǎn)管理、市場營銷、客戶服務(wù)等領(lǐng)域的算法模型支撐。
2.報(bào)考CDA認(rèn)證考試的契機(jī)
在此非常感謝我的公司。2019年公司面向員工開展機(jī)器學(xué)習(xí)培訓(xùn),為保證培訓(xùn)效果,公司在培訓(xùn)后組織內(nèi)部測試選拔了10名員工參與CDA二級認(rèn)證考試,我有幸成為一員參加了CDA認(rèn)證考試。
3.我是如何備考的
我準(zhǔn)備了三四周的時(shí)間,主要是晚上和周末的時(shí)間學(xué)習(xí)。備考時(shí)我用了個(gè)小策略,選擇題每題分?jǐn)?shù)很少,考試成績?nèi)Q于案例操作題的成績,因此針對選擇題的備考,我主要看了考試大綱,對考試大綱中的內(nèi)容要做到熟練掌握,至于其他的知識點(diǎn)就靠平時(shí)積累。案例操作題對備考材料中的兩套模擬題進(jìn)行了全流程的模擬操作,并在之后對代碼不斷進(jìn)行優(yōu)化。
4.備考中有哪些知識難點(diǎn)
難點(diǎn)在于客觀題中會有些迷惑性的選項(xiàng)或字樣,如果不加辨別很容易出錯(cuò);還有些之前未了解過的算法,很難在較短時(shí)間內(nèi)有深刻記憶;案例操作題中缺失值較多,需要使用合適的缺失值填充方法。
5.推薦的書籍和課程
備考期間主要是看2019年培訓(xùn)的材料、視頻以及CDA二級認(rèn)證考試大綱,考完之后決定把以前看過的《數(shù)據(jù)挖掘技術(shù)》再翻過來看看,應(yīng)該會有些新的理解。
6.對備考者們的建議
考試涉及到的內(nèi)容多,范圍廣,在準(zhǔn)備的時(shí)候要抓重點(diǎn);另外案例操作題一定要先理解數(shù)據(jù),理解數(shù)據(jù)背后的業(yè)務(wù)邏輯,不要一上來就直接訓(xùn)練模型。
6.今后的職業(yè)發(fā)展規(guī)劃
今后會學(xué)以致用,將理論與實(shí)際業(yè)務(wù)相結(jié)合,嘗試不同場景下的算法模型,讓數(shù)據(jù)發(fā)聲,創(chuàng)造價(jià)值。
1.報(bào)考CDA認(rèn)證考試的契機(jī)
我是南京理工大學(xué)統(tǒng)計(jì)學(xué)的研一學(xué)生,方向是數(shù)據(jù)挖掘。近年來數(shù)據(jù)分析、數(shù)據(jù)挖掘很熱門,CDA Level 2建模分析師的考試兼并對機(jī)器學(xué)習(xí)算法和軟件操作的考察,導(dǎo)師也推薦報(bào)考,因此報(bào)考。
2.我是如何備考的
備考大概從10月份開始的,每天大概兩個(gè)小時(shí)左右。
備考分為理論和實(shí)操兩部分,理論部分的準(zhǔn)備時(shí)間比較長,實(shí)操看個(gè)人基礎(chǔ)。
理論部分是看大綱,按照大綱的要求復(fù)習(xí)一遍,然后針對每個(gè)算法研究細(xì)節(jié)。最后做一下模擬題,找到自己的不足,再查缺補(bǔ)漏。
實(shí)操部分有基礎(chǔ)可以嘗試各個(gè)算法的應(yīng)用,并找案例操作一下。沒有基礎(chǔ)需要先補(bǔ)習(xí)基礎(chǔ)知識。
3.備考中有哪些知識難點(diǎn)
理論題中的部分算法細(xì)節(jié)不好理解,需要從多個(gè)角度反復(fù)思考。操作題不均衡樣本的處理,特征工程,模型調(diào)參等等。
4.推薦的書籍和課程
書籍方面主要以考試大綱為主,更多的細(xì)節(jié)推薦《數(shù)據(jù)挖掘:概念與技術(shù)》,這本書和大綱聯(lián)系比較密切,內(nèi)容很充實(shí);有能力可以看看西瓜書,統(tǒng)計(jì)學(xué)習(xí)方法,考試不會涉及這么深,有興趣可以了解。
課程方面主要在操作軟件,可以參考CDA官方的一些課程。
5.對備考者們的建議
1)大綱中的內(nèi)容要全部掌握,參考書盡量看
2)復(fù)習(xí)到位的話,理論題分?jǐn)?shù)差距不大,重點(diǎn)在實(shí)操題,多動手,多嘗試。
3)做好日常的學(xué)習(xí)工作,空閑時(shí)間補(bǔ)充自己
6.今后的職業(yè)發(fā)展規(guī)劃
加深學(xué)過模型的理解,關(guān)注前言模型,加強(qiáng)分析能力、代碼能力,提升理論、操作的熟練度,注重總結(jié)。
1.目前從事的工作
從2011年開始工作到現(xiàn)在已是第九個(gè)工作年,一直在保險(xiǎn)公司精算部門工作,現(xiàn)在主要負(fù)責(zé)資產(chǎn)負(fù)債量化分析相關(guān)工作。
2.報(bào)考CDA考試的契機(jī)
近年來隨著大數(shù)據(jù)、人工智能等技術(shù)發(fā)展,傳統(tǒng)精算未來將面臨越來越大的挑戰(zhàn),報(bào)考CDA一方面是想通過拓展自身知識邊界來保證自身專業(yè)價(jià)值;另一方面也是期望通過學(xué)習(xí)機(jī)器學(xué)習(xí)算法相關(guān)的內(nèi)容能為公司經(jīng)營管理決策提供新的思路和方法。
3.我是如何備考的
首先根據(jù)自己實(shí)際情況統(tǒng)計(jì)每天可以用于復(fù)習(xí)的時(shí)間:周一至周五由于白天要上班,主要利用晚上空閑時(shí)間復(fù)習(xí),每天堅(jiān)持復(fù)習(xí)1個(gè)小時(shí)(除了上班,回家還要肩負(fù)家庭小孩教育,可用于備考復(fù)習(xí)時(shí)間比較零散);周末的時(shí)間則較為充裕,復(fù)習(xí)也較為系統(tǒng),一般是早中晚各2小時(shí)。
然后結(jié)合考試大綱對各章節(jié)內(nèi)容進(jìn)行復(fù)習(xí)時(shí)間分配,制定復(fù)習(xí)計(jì)劃表。比如我對貝葉斯統(tǒng)計(jì)、回歸、神經(jīng)網(wǎng)絡(luò)等章節(jié)已有一定知識基礎(chǔ),時(shí)間分配少一些,而對隨機(jī)森林、集成學(xué)習(xí)等較陌生的章節(jié),時(shí)間分配就多一些。
最后就是根據(jù)復(fù)習(xí)計(jì)劃表嚴(yán)格執(zhí)行計(jì)劃,為保證復(fù)習(xí)質(zhì)量和進(jìn)度,備考期間不可避免要犧牲與親友一起交流活動的時(shí)間。
4.備考中有哪些知識難點(diǎn)
在做案例操作題時(shí)遇到有較大的問題,比如如何選擇合適的算法。在算法選擇后,如何調(diào)整最優(yōu)參數(shù)來提升模型預(yù)測或分類的準(zhǔn)確度。如有一起備考可以討論的伙伴,會大大減少這方面的困擾。
5.推薦的書籍和課程
考試大綱推薦的書籍都很經(jīng)典,根據(jù)其中的書目挑選其中1-2本來復(fù)習(xí)就差不多了。如想快速有效提升在數(shù)據(jù)分析方面的專業(yè)水平,可考慮參加CDA相關(guān)的培訓(xùn)課程。
6.對備考者們的建議
建模分析師考試目的除了要求掌握各種理論算法外,更重要還是要將算法應(yīng)用到實(shí)踐中去,所以平時(shí)學(xué)習(xí)過程在看教材的同時(shí),進(jìn)行案例操作必不可少,只有通過大量的案例編程分析,才能熟能生巧,從而進(jìn)一步鞏固對各種算法的理解。
7.今后的職業(yè)發(fā)展規(guī)劃
今后還會在精算這條道路上繼續(xù)前行,希望能將CDA所學(xué)知識與精算理論有機(jī)結(jié)合,真正應(yīng)用到日常工作中,更有效直接地體現(xiàn)為公司創(chuàng)造的價(jià)值。
1.目前從事的工作
原來在上海電信從事數(shù)據(jù)分析工作,今年剛剛轉(zhuǎn)崗成一名數(shù)據(jù)挖掘工程師兼項(xiàng)目經(jīng)理。
2.報(bào)考CDA考試的契機(jī)
之前一直用比較原始的方法(excel等傳統(tǒng)工具)做簡單的描述性統(tǒng)計(jì)分析,所以希望能夠提升自己的數(shù)據(jù)分析能力。在去年5月比較了一下市面上比較好的數(shù)據(jù)分析認(rèn)證,CDA比較符合我的需求,就報(bào)考了CDA Level1。經(jīng)過一個(gè)月的努力,雖然統(tǒng)計(jì)學(xué)幾乎零基礎(chǔ)但順利通過了。又比較了一下Level2建模和大數(shù)據(jù),覺得建模更適合現(xiàn)在的自己,所以在去年9月又馬上報(bào)名了Level2建模。
3.我是如何備考的
雖然我是去年9月下定決心報(bào)名考試的,但是在去年6月剛剛考過CDA LEVEL1后就馬上開始學(xué)習(xí)數(shù)據(jù)挖掘的相關(guān)知識,同時(shí)之前已經(jīng)自學(xué)了Python,所以還是有一些基礎(chǔ)的。
從9月開始一直到12月考試前,也就是整整4個(gè)月的時(shí)間,白天需要工作,大多是在工作閑暇或晚上抽空學(xué)習(xí),平均每天耗費(fèi)在學(xué)習(xí)上的時(shí)間為3個(gè)小時(shí)。主要的學(xué)習(xí)內(nèi)容包括:
1)大綱解析的閱讀和理解
大綱我總共看過4遍,每個(gè)月1次,每次都有新的體會。
第一遍閱讀,讓我了解自己哪些基礎(chǔ)不對,針對性調(diào)整。
第二遍閱讀,整理出了思維導(dǎo)圖。
第三遍閱讀,是和后面的兩份模擬卷結(jié)合起來看的,同時(shí)在筆記本上做好筆記。
第四遍閱讀,查遺補(bǔ)漏,最后溫習(xí)。
2)模擬卷和官方題庫的自學(xué)
模擬卷很重要,實(shí)際考試中有不少都是大綱解析和模擬卷中的原題,有可能稍有變動,但只要搞清楚了得分也就很容易了。
3)參加一次數(shù)據(jù)挖掘比賽
使用Kaggle和CDA的練習(xí)賽是可以,但最好是參加一次實(shí)際的比賽,將學(xué)到的東西運(yùn)用在比賽中會更有感覺。
相關(guān)的比賽有很多,比如Kaggle、天池、CCF,甚至CDA自己舉辦的競賽都是可以的。
4)知識點(diǎn)的自我整理
學(xué)好后如果不做整理,最后必然是慢慢遺忘。在備考前,我花了一周的時(shí)間把所學(xué)所知都整理了一遍,并以博客的形式分享,主要包括:
《七種常用監(jiān)督類預(yù)測模型的特征、優(yōu)缺點(diǎn)整理》
《CDA LEVEL2 大綱解析案例題Python實(shí)現(xiàn)代碼》
《Python:3個(gè)常用數(shù)據(jù)檢驗(yàn)代碼實(shí)現(xiàn)》
《Python:14個(gè)常用數(shù)據(jù)清洗代碼》
《CDA Level2 模擬題1 Python代碼實(shí)現(xiàn)》
《CDA Level2 模擬題2 Python代碼實(shí)現(xiàn)》
4.備考中有哪些知識難點(diǎn)
CDA2建模相比CDA1來說更偏重于實(shí)戰(zhàn)多一些,所以對我這種實(shí)戰(zhàn)大于理論的人來說更適應(yīng)一些。印象比較深刻的是在做第二套模擬題時(shí)碰到一道計(jì)算貝葉斯的題目,算出來的答案和標(biāo)準(zhǔn)答案不一致,群里討論了很久,最后還是依靠CDA老師給出了解題思路。所以群內(nèi)討論是一個(gè)很好的學(xué)習(xí)方法,只有溝通交流才能迅速進(jìn)步。
5.推薦的書籍和課程
首先CDA大綱是最好的復(fù)習(xí)資料,跟著學(xué)至少可以掌握60%的知識點(diǎn),加上《數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫坊灸芎w95%以上的理論知識了。
然后對于數(shù)據(jù)挖掘,使用的工具一般都是Python,所以有4本書值得一看:《Python基礎(chǔ)教程(第3版)》、《利用Python進(jìn)行數(shù)據(jù)分析》、《Python機(jī)器學(xué)習(xí)基礎(chǔ)教程》、《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》。
最后視頻和課程的話,吳恩達(dá)的《 機(jī)器學(xué)習(xí) 》、唐宇迪的《 Python數(shù)據(jù)分析與機(jī)器學(xué)習(xí)實(shí)戰(zhàn) 》還有CDA官網(wǎng)的視頻課程都是不錯(cuò)的選擇。
6.對備考者們的建議
建?;蛘哒f數(shù)據(jù)挖掘是目前比較火的一個(gè)行業(yè),入門容易但是想要深入?yún)s非常困難,需要大量的實(shí)戰(zhàn)經(jīng)驗(yàn)和很好的數(shù)學(xué)基礎(chǔ),如果單純只是使用模型和調(diào)參的話走的路并不會太遠(yuǎn),所以在學(xué)習(xí)中盡量鉆研的深入一些,理解模型和代碼背后的原理,這對于將來的實(shí)際工作會有很大的幫助。
7.今后的職業(yè)發(fā)展規(guī)劃
目前剛剛轉(zhuǎn)到新的崗位上,既要承擔(dān)管理的工作,也要負(fù)責(zé)數(shù)據(jù)挖掘的研究,同時(shí)還需要學(xué)習(xí)網(wǎng)絡(luò)、云、大數(shù)據(jù)等多種新的知識,所以痛并快樂著。希望自己能在這幾年里以技術(shù)為核心,完善自己的知識體系,全面提升自己的能力。
1.目前從事的工作
我目前在PayPal項(xiàng)目擔(dān)任大數(shù)據(jù)工程師一職,主要從事移動支付平臺的大數(shù)據(jù)分析和產(chǎn)品開發(fā)工作
2.報(bào)考CDA考試的契機(jī)
當(dāng)今職場競爭激烈,手握一個(gè)技能證書也是提升自身競爭力的途徑之一,同時(shí)適當(dāng)參加一些考試也是對自己學(xué)習(xí)成果的一個(gè)檢驗(yàn)和回顧,因此在年底報(bào)考了CDA。
3.我是如何備考的
其實(shí)個(gè)人是個(gè)很容易沉迷于某件事里去的人,所以在備考時(shí)也沒有想太多,基本就是把自己的全部時(shí)間都投入到完成這一個(gè)目標(biāo)上去了;話雖如此,為了高效學(xué)習(xí),還是要尋求一些方法論的,自己備考大致花了兩個(gè)月的時(shí)間,其中大部分的時(shí)間并不是花在學(xué)習(xí)新知識上,而是反復(fù)溫習(xí)以前的舊知識,越是覺得難的知識點(diǎn),就越要把它們搞懂,溫習(xí)好之后,立馬將其寫成一篇博文,這樣就能將一個(gè)短期記憶轉(zhuǎn)化成長期記憶,不容易遺忘,美國物理學(xué)家費(fèi)曼也提出了學(xué)習(xí)的方法論,那就是試著將自己掌握的知識教給一個(gè)完全不懂的人,如果他都能夠聽懂,就說明你是真的學(xué)會了。
4.備考中有哪些知識難點(diǎn)
因?yàn)橹揽荚囍袝猩婕暗缴蠙C(jī)的部分,因此自己在一邊復(fù)習(xí)理論的時(shí)候,更加看重實(shí)踐的部分,如何搭建集群環(huán)境,如何快速定位問題并找出解決辦法,這些都是沒有捷徑可尋的,唯一的辦法就是賣油翁里的老漢所說的,“無他,唯手熟爾”,只有反復(fù)地去“折騰”,去踩坑,才能真正鍛煉出在實(shí)際項(xiàng)目中面對壓力,自己獨(dú)立思考并解決問題的能力。
5.推薦的書籍和課程
可以將視頻教程和書籍兩者相結(jié)合著來學(xué)習(xí),視頻建議直接購買一些培訓(xùn)機(jī)構(gòu)的課程系統(tǒng)全面地進(jìn)行學(xué)習(xí),比如九章算法等,這些課程往往都很實(shí)用,貼合項(xiàng)目實(shí)際生產(chǎn)環(huán)境,但是如果想要對某個(gè)領(lǐng)域進(jìn)行更為深入地研究的話,就推薦買些書靜下心來啃一啃了,比如,當(dāng)時(shí)在學(xué)習(xí)ML的知識時(shí),就買了《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》,《機(jī)器學(xué)習(xí)線性代數(shù)基礎(chǔ)》等書,而在學(xué)習(xí)大數(shù)據(jù)框架時(shí),則是在Apache官網(wǎng)上找的技術(shù)文檔拿來研究
6.對備考者們的建議
考試不是最終目的,考試最主要的作用還是為更好地邁入數(shù)據(jù)行業(yè)做準(zhǔn)備,如果想要真正地開始學(xué)習(xí)的話,那CDA的課程是一個(gè)不錯(cuò)的選擇,目前主流的編程語言如Python,分析引擎如Spark等都會在課程中詳細(xì)介紹,想要備考的同學(xué),建議每天抽出足夠多的時(shí)間系統(tǒng)地進(jìn)行一下學(xué)習(xí),并且一定要堅(jiān)持下去,要相信最終一定會有成果
7.今后的職業(yè)發(fā)展規(guī)劃
行業(yè):本人對整個(gè)行業(yè)的構(gòu)想是,未來社會數(shù)字化,信息化的趨勢必定發(fā)展得會越來越好,技術(shù)將會發(fā)揮越來越大的作用,將死水盤活,消除行業(yè)的壁壘,將以往一些需要很長時(shí)間才能構(gòu)筑起來的東西快速地完成搭建,未來AI,云,大數(shù)據(jù)的發(fā)展也絕不會是互聯(lián)網(wǎng)一家獨(dú)大,而是會成為像空氣一般稀疏平常的事物,因此提前做好準(zhǔn)備,展望未來社會的發(fā)展趨勢,具備一些未來可能會用得到的技能個(gè)人覺得是很有必要的。
職業(yè):針對實(shí)際業(yè)務(wù)場景,如何真正幫助傳統(tǒng)行業(yè)做數(shù)字化轉(zhuǎn)型,數(shù)據(jù)中臺到底要怎么搭建才能真正做到快速響應(yīng),支持決策,這些都是未來職業(yè)上的一些期望;而在未來,AI的使用也會越來越方便,也許每個(gè)人只需花費(fèi)很少的學(xué)習(xí)成本就能搭建出一套底層原理極為復(fù)雜的機(jī)器學(xué)習(xí)框架,每個(gè)人都可以是工程師,每個(gè)人又都可以是產(chǎn)品經(jīng)理,技術(shù)的門檻會降低,只要有足夠好的idea,就有辦法將其實(shí)現(xiàn)。
1.報(bào)考CDA考試的契機(jī)
我目前是北京交通大學(xué)交通信息工程及控制專業(yè)的研二學(xué)生。
我在本科畢設(shè)做了有關(guān)Storm的流數(shù)據(jù)分析,在研究生期間對應(yīng)用更廣泛的Spark產(chǎn)生了興趣,希望系統(tǒng)的學(xué)習(xí)并結(jié)合實(shí)際項(xiàng)目以應(yīng)用在未來工作中。在網(wǎng)上對比了大數(shù)據(jù)相關(guān)考試后,發(fā)現(xiàn)CDA的考綱更加系統(tǒng)合理,有助于我系統(tǒng)的學(xué)習(xí)并在有限期間內(nèi)進(jìn)行檢測,因此決定報(bào)考。
2.我是如何備考的
備考3個(gè)月,每天學(xué)習(xí)3-4個(gè)小時(shí),對應(yīng)每個(gè)大數(shù)據(jù)工具借1-2本書,對照考綱和書籍進(jìn)行學(xué)習(xí)。
第一個(gè)月:復(fù)習(xí)Linux,搭建Hadoop、Spark集群,學(xué)習(xí)Hadoop、spark原理,學(xué)習(xí)Scala編程。
第二個(gè)月:使用Spark進(jìn)行實(shí)例的編寫,學(xué)習(xí)MySQL、Hive、HBase原理及與Spark的結(jié)合使用。
第三個(gè)月:融合所學(xué)知識,對照網(wǎng)上實(shí)戰(zhàn)教程,進(jìn)行項(xiàng)目的編寫以加深對各個(gè)大數(shù)據(jù)工具的理解。并根據(jù)考綱解析進(jìn)行擴(kuò)展學(xué)習(xí),理解并記憶。
3.備考中有哪些知識難點(diǎn)
1)Hadoop和Spark運(yùn)行機(jī)制不易理解,有條件的應(yīng)去圖書館尋找相關(guān)書籍,多看多思考多記憶,閱讀源碼和斷點(diǎn)調(diào)試有助于理解。
2)SparkMLlib機(jī)器學(xué)習(xí)部分內(nèi)容較多,也是實(shí)操的重點(diǎn)內(nèi)容,應(yīng)結(jié)合實(shí)例加深對各個(gè)算法的理解。
4.推薦的書籍和課程
《鳥哥的Linux私房菜》是Linux學(xué)習(xí)比較生動形象的一本書。
《Spark編程基礎(chǔ)》是學(xué)習(xí)Spark入門很好的書籍。
《Hadoop專家: 管理、調(diào)優(yōu)與Spark》是Spark和Hadoop進(jìn)階學(xué)習(xí)不錯(cuò)的一本書。
5.對備考者們的建議
1)由于大數(shù)據(jù)生態(tài)涉及架構(gòu)較多,沒有基礎(chǔ)的同學(xué)應(yīng)以Spark學(xué)習(xí)為主,有基礎(chǔ)的同學(xué)應(yīng)以Spark與各生態(tài)結(jié)合應(yīng)用為主,通過考試系統(tǒng)的學(xué)習(xí)或復(fù)習(xí)相關(guān)知識點(diǎn),同時(shí)Scala的學(xué)習(xí)有助于閱讀Spark源碼,加深對Spark原理及應(yīng)用的理解。
2)考綱解析內(nèi)容有限,要對照考綱動手整理筆記,以下是我的部分筆記摘要。
3) 學(xué)習(xí)的目的是應(yīng)用,不只是考試,每一章節(jié)都應(yīng)尋找相關(guān)練習(xí),動手操作,做到每一部分代碼至少碼三遍。
7.今后的職業(yè)發(fā)展規(guī)劃
更加熟練的應(yīng)用大數(shù)據(jù)生態(tài),實(shí)現(xiàn)高效高價(jià)值的數(shù)據(jù)分析,實(shí)現(xiàn)更加精準(zhǔn)的數(shù)據(jù)推薦。