數(shù)據(jù)不是現(xiàn)實,“數(shù)據(jù)驅(qū)動”會導(dǎo)致很多問題,有三種數(shù)據(jù)處理的方法,能夠豐富你的創(chuàng)造力,并且可以讓你十分有效的利用所獲得的信息。
1、發(fā)揮創(chuàng)造力—提問和實驗
2、提出問題,能想到的所有問題
3、包容性思考
過快:急于求成,還沒找到實際問題就提出解決方案
過量:圖圇吞——對于重要的和無關(guān)緊要的指標(biāo)不做區(qū)分
過度:信息過載,試圖發(fā)現(xiàn)根本不存在的模式
使用可重用的保留數(shù)據(jù)法來避免在交互式數(shù)據(jù)分析中出現(xiàn)過擬合
數(shù)據(jù)驅(qū)動決策的13種思維
第一、信度與效度思維
所謂信度,是指一個數(shù)據(jù)或指標(biāo)自身的可靠程度,包括準(zhǔn)確性和穩(wěn)定性”
所謂效度,是指一個數(shù)據(jù)或指標(biāo)的生成,需貼合它所要衡量的事物,即指標(biāo)的變化能夠代表該事物的變化。”
信度和效度的本質(zhì),其實就是**數(shù)據(jù)質(zhì)量**的問題,
第二、平衡思維
“平衡思維的關(guān)鍵點,在于尋找能展示出平衡狀態(tài)的指標(biāo)!
第三、分類思維
關(guān)鍵點在于,分類后的事物,需要在核心指標(biāo)上能拉開距離!
第四、矩陣化思維
第五、管道/漏斗思維
第六、相關(guān)思維
第七、遠(yuǎn)近度思維
第八、邏輯樹思維
第九、時間序列思維
第十、隊列分析思維
第十一、循環(huán)/閉環(huán)思維
第十二、測試/對比思維
第十三、指數(shù)化思維
數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、數(shù)據(jù)架構(gòu)師、數(shù)據(jù)工程師、統(tǒng)計學(xué)家、數(shù)據(jù)庫管理員、業(yè)務(wù)數(shù)據(jù)分析師、數(shù)據(jù)產(chǎn)品經(jīng)理。
角色 | 任務(wù) | 必備語言 | 技能和特長 |
數(shù)據(jù)科學(xué)家 | 清洗,管理和組織(大)數(shù)據(jù) | R,SAS,Python,Matlab,SQL,HivePig,Spark | 分布式計算、預(yù)測模型 故事講述和可視化 數(shù)學(xué)\統(tǒng)計,機器學(xué)習(xí) |
數(shù)據(jù)分析師 | 收集,處理和執(zhí)行統(tǒng)計數(shù)據(jù)分析 | R,Python,HTML,Javscript,C/C++,SQL | 電子表格工具 數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL) 通信可視化 數(shù)學(xué),統(tǒng)計,機器學(xué)習(xí) |
數(shù)據(jù)架構(gòu)師 | 創(chuàng)建數(shù)據(jù)管理系統(tǒng)進(jìn)行整合 集中、保護(hù)和維護(hù)數(shù)據(jù)源 | SQL,XML,HIVE,PIG,SPARK | 數(shù)據(jù)倉庫解決方案 深入了解數(shù)據(jù)庫體系結(jié)構(gòu) 提取thansformation和加載(ETL) 電子表格和BI工具 數(shù)據(jù)建模 系統(tǒng)開發(fā) |
數(shù)據(jù)工程師 | 開發(fā),建設(shè),測試和維護(hù)架構(gòu)(如數(shù)據(jù)庫,以及較大規(guī)模的處理系統(tǒng)) | SQL,Hive,Pig,R,Mtlab,SAS,SPSS Python,Java,Ruby,C++,Perl | 數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL) 數(shù)據(jù)建模ETL工具 數(shù)據(jù)API 數(shù)據(jù)倉庫解決方案 |
統(tǒng)計學(xué)家 | 收集,分析和解釋 定性和定量的數(shù)據(jù)統(tǒng)計理論和方法 | R,SAS,SPSS,Mtlab,Stata Python,Perl,Hive,Pig,Spark,SQL | 統(tǒng)計理論方法 數(shù)據(jù)挖掘機器學(xué)習(xí) 分布式計算(Hadoop的) 數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL) 云工具 |
數(shù)據(jù)庫管理員 | 確保數(shù)據(jù)庫是提供給所有相關(guān)用戶,并且安全運行 | SQL,Java,Ruby on Rails, XML,C#,Python | 備份恢復(fù) 數(shù)據(jù)建模和設(shè)計 分布式計算(Hadoop的) 數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL) 數(shù)據(jù)安全 ERP業(yè)務(wù)知識 |
業(yè)務(wù)數(shù)據(jù)分析師 | 改進(jìn)業(yè)務(wù)流程的業(yè)務(wù)和IT之間的中介 | SQL | 基本工具(例如微軟Office) 數(shù)據(jù)可視化工具(e.g.Tableau) 自覺聽和講故事 商業(yè)智能的理解 數(shù)據(jù)建模 |
數(shù)據(jù)產(chǎn)品經(jīng)理 | 管理團隊分析師和數(shù)據(jù)科學(xué)家 | SQL,R,SAS,Python,Matlab,Java | 數(shù)據(jù)庫系統(tǒng)(SQL和基于NO SQL) 領(lǐng)導(dǎo)項目管理 人際溝通 數(shù)據(jù)挖掘預(yù)測建模數(shù)據(jù)建模 |
數(shù)據(jù)科學(xué)工作的三種風(fēng)格
我們決定根據(jù)這三個方向來重新定義數(shù)據(jù)科學(xué)職位。
分析追蹤(Analytics track)
這個非常適合那些擅長提出問題的數(shù)據(jù)科學(xué)家,他們能夠正確地對數(shù)據(jù)進(jìn)行提取、探索,然后用儀表盤和可視化工具進(jìn)行自動分析,能夠通過給出合理建議來推動商業(yè)決策。
算法追蹤(Algorithms track)
這項能力則是為機器學(xué)習(xí)專家準(zhǔn)備的,他們熱衷于在產(chǎn)品設(shè)計和運營流程中加入數(shù)據(jù)思維,然后為商業(yè)行為創(chuàng)造價值。
推理追蹤(Inference track)
這則是針對統(tǒng)計學(xué)家、經(jīng)濟學(xué)家和社會學(xué)家的,他們能夠利用統(tǒng)計學(xué)知識來提高決策效率,并正確衡量我們工作造成的影響。
對于技術(shù)方面的數(shù)據(jù)科學(xué)家,我們的評價體系包括以下主要方面:
技術(shù)層面
分析:定義并監(jiān)控指標(biāo),進(jìn)行數(shù)據(jù)的描述性分析,并構(gòu)建工具來推動決策
算法:為數(shù)據(jù)產(chǎn)品構(gòu)建算法,并能夠進(jìn)行解釋
推理:采用統(tǒng)計學(xué)知識來建立因果關(guān)系
基礎(chǔ):每個數(shù)據(jù)科學(xué)家都要為數(shù)據(jù)質(zhì)量和代碼質(zhì)量負(fù)責(zé)任(對于所有方向都適用)
商業(yè)層面(對于所有方向都適用)
所有權(quán):能夠推動項目取得成功,并為其他人創(chuàng)造影響力
影響力:溝通清晰,有團隊精神,能夠建立良好關(guān)系
豐富性:通過指導(dǎo)、招聘、創(chuàng)建企業(yè)文化和其他多樣性的行動來為團隊建設(shè)做出貢獻(xiàn)
數(shù)據(jù)科學(xué)的實踐需要三個一般領(lǐng)域的技能:商業(yè)洞察、計算機技術(shù)/編程和統(tǒng)計學(xué)/數(shù)學(xué)。