国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)科學家VS數(shù)據(jù)工程師,真的是一山不容二虎?

原作者 Karlijn Willems

編譯 CDA 編譯團隊

本文為 CDA 數(shù)據(jù)分析師原創(chuàng)作品,轉(zhuǎn)載需授權(quán)

數(shù)據(jù)科學是一個蓬勃發(fā)展的產(chǎn)業(yè),相關(guān)大數(shù)據(jù)的職業(yè)也成為熱門,給人才發(fā)展帶來帶來了很多機會。數(shù)據(jù)科學家、數(shù)據(jù)工程師等已經(jīng)成為大數(shù)據(jù)行業(yè)最熱門的職位。今天讓我們先來看一下這兩種職業(yè)之間的區(qū)別,具體的工作,使用的語言、技能,發(fā)展前景等等問題。

職責

數(shù)據(jù)工程師的職責

數(shù)據(jù)工程師的職責主要是開發(fā),構(gòu)建,測試和維護架構(gòu),如數(shù)據(jù)庫和大型處理系統(tǒng)。而數(shù)據(jù)科學家主要負責清潔,“按摩”和組織數(shù)據(jù)。

你會發(fā)現(xiàn)這里使用“按摩”這個動詞的很奇特,這是因為這明顯反映了數(shù)據(jù)工程師和數(shù)據(jù)科學家之間的差異。

一般來說,兩者為獲得可用的數(shù)據(jù)所付出的努力是截然不同的。

數(shù)據(jù)工程師處理包括人,機器或儀器錯誤的原始數(shù)據(jù)。數(shù)據(jù)可能未經(jīng)驗證并包含可疑記錄;它是未格式化的,且包含系統(tǒng)特定的代碼。

數(shù)據(jù)工程師需要采取措施提高數(shù)據(jù)的可靠性、效率和質(zhì)量。為此,他們需要使用各種語言和工具來將系統(tǒng)結(jié)合在一起,或者嘗試從其他系統(tǒng)獲取新數(shù)據(jù),從而這些系統(tǒng)特定的代碼可以被數(shù)據(jù)科學家進一步處理。

與這兩者密切相關(guān)的是,數(shù)據(jù)工程師需要確保,現(xiàn)有的架構(gòu)支持數(shù)據(jù)科學家和利益相關(guān)者的業(yè)務(wù)需求。

最后,為了將數(shù)據(jù)提供給數(shù)據(jù)科學團隊,數(shù)據(jù)工程團隊將需要開發(fā)數(shù)據(jù)集過程,從而實現(xiàn)數(shù)據(jù)建模、挖掘和生產(chǎn)。

數(shù)據(jù)科學家的職責

數(shù)據(jù)科學家得到的數(shù)據(jù)通常已經(jīng)過了第一輪的清理和操作。這些被處理過的數(shù)據(jù)可用被進一步運用于復雜的分析程序、機器學習和統(tǒng)計方法,從而預測和規(guī)范建模。當然,要構(gòu)建模型,他們需要做研究行業(yè)和業(yè)務(wù)現(xiàn)狀,他們需要利用來自內(nèi)部和外部的大量數(shù)據(jù)來應答業(yè)務(wù)需求。有時這也涉及探索和檢查數(shù)據(jù)以找到隱藏模式。

一旦數(shù)據(jù)科學家完成了分析,他們需要向相關(guān)業(yè)務(wù)人員提供一個清晰的方案。一旦方案通過時,他們需要確保此分析工作能夠自動完成,以便能夠向企業(yè)提供每日、每月甚至每年的數(shù)據(jù)。

很明顯,雙方都需要共同努力,爭取數(shù)據(jù)并提供關(guān)鍵商務(wù)決策的見解。兩者在技能上存在明顯的重疊,但兩者在行業(yè)中的區(qū)別日益明顯:數(shù)據(jù)工程師需要與數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)API和用于ETL的工具打交道,并將參與數(shù)據(jù)建模和設(shè)置數(shù)據(jù)庫的解決方案。而數(shù)據(jù)科學家需要利用統(tǒng)計,數(shù)學和機器學習從而構(gòu)建預測模型。

數(shù)據(jù)科學家需掌握分布式計算,因為他需要獲取被數(shù)據(jù)工程師處理過的數(shù)據(jù),同時數(shù)據(jù)科學家還需向企業(yè)溝通,這就意味著語言表達和數(shù)據(jù)可視化的技能也是必不可少的。

語言、工具和軟件

當然,兩者在技能的差異還體現(xiàn)在所使用的語言,工具和軟件。

盡管兩者使用的工具很大程度上取決于所處的公司環(huán)境,但通常數(shù)據(jù)工程師使用 SAP ,Oracle , Cassandra , MySQL , Redis , Riak , PostgreSQL , MongoDB , neo4j , Hive , Sqoop 等工具。

數(shù)據(jù)科學家則使用如 SPSS , R , Python , SAS , Stata 和 Julia 等語言來構(gòu)建模型。當中最流行的毫無疑問是 Python 和 R 。 當你使用 Python 和 R 進行數(shù)據(jù)科學工作時,你通常會使用 ggplot2 等軟件包,來實現(xiàn)數(shù)據(jù)可視化。同時還有如 Scikit-Learn , NumPy , Matplotlib , Statsmodels 等軟件包都會派上用場。

在行業(yè)中,你還會發(fā)現(xiàn), SAS 和 SPSS 很實用。但是使用其他工具,如 Tableau , Rapidminer , Matlab , Excel , Gephi 也將在數(shù)據(jù)科學家必不可少的技能。

可以再次清楚的看到,數(shù)據(jù)工程師和數(shù)據(jù)科學家之間關(guān)于數(shù)據(jù)可視化和語言表達能力的偏重,明顯反映在使用工具的不同。

兩者都使用的工具、語言和軟件,包括 Scala , Java 和 C# 。

當然,這些語言不一定都受到數(shù)據(jù)科學家和工程師的歡迎:也有人認為 Scala 更受數(shù)據(jù)工程師的青睞,因為與 Spark 的集成十分利于在設(shè)置大型 ETL 。

對于 Java 語言來說也是一樣:目前,它在數(shù)據(jù)科學家中間的流行度越來越高,但總的來說,它并沒有被專業(yè)人士廣泛使用??傊?,你會看到這些語言突然出現(xiàn)在數(shù)據(jù)科學家與數(shù)據(jù)工程師招聘的技能要求中。同理試用與雙方都需要使用的語言,如 Hadoop , Storm 和 Spark 等。

當然,雙方在工具,語言和軟件的區(qū)別需要具體看所處的工作環(huán)境。在某些特定情況下,數(shù)據(jù)科學和數(shù)據(jù)工程嘗嘗緊密相連,有時兩者的區(qū)別特別小,有時兩者甚至可以合并。

教育背景

數(shù)據(jù)科學家和數(shù)據(jù)工程師在教育背景上有一些共同點——計算機科學。這個專業(yè)對兩者都是十分熱門的選擇。當然,你也會看到數(shù)據(jù)科學家經(jīng)常研究計量經(jīng)濟學,數(shù)學,統(tǒng)計和運營研究。他們通常比數(shù)據(jù)工程師多一點商業(yè)頭腦。同時你也經(jīng)??吹綌?shù)據(jù)工程師也擁有工程背景,而且他們計算機工程方面也受過一些超前教育。

然而,所有這一切并不意味著你不能找到同時具備操作知識和商業(yè)頭腦的數(shù)據(jù)工程師。

一般來說,數(shù)據(jù)科學行業(yè)是由來自不同類型背景的專業(yè)人員組成的:物理學家,生物學家或氣象學家從事數(shù)據(jù)科學工作也并不罕見。同時有些從事 Web 開發(fā),數(shù)據(jù)庫管理等職業(yè)的人才也已經(jīng)轉(zhuǎn)行從事數(shù)據(jù)科學工作。

工資與招聘

在薪酬方面,數(shù)據(jù)科學家的中等薪資水平為每年 135,000 美元。最低為 43,000 美元,最高為 364,000 美元。對于數(shù)據(jù)工程師來說,稍微有點低:他們的平均收入是 124,000 美元,他們的最低和最高工資也相對較低:最低為 34,000 美元,最高為 341,000 美元。

為何會造成這樣的薪酬差異原因不明,但是這可能與市場需求的職位數(shù)量有關(guān):根據(jù) Indeed.com 的數(shù)據(jù),市場招聘需求中約有 8 萬 5 千個數(shù)據(jù)工程師的工作崗位,而約有 11 萬個數(shù)據(jù)科學家的工作崗位。

目前招聘數(shù)據(jù)工程師的公司是 PlayStation , The New York Times ,  Bloomberg  和 Verizon ,但在過去, Spotify , Facebook 和亞馬遜等公司都聘用了數(shù)據(jù)工程師。另一方面,需要數(shù)據(jù)科學家的公司有 Dropbox ,微軟,德勤和沃爾瑪?shù)取?/span>

工作前景

如上所述,數(shù)據(jù)科學相關(guān)不同職業(yè)的產(chǎn)生需要反映不斷變化的需求。

除了對數(shù)據(jù)管理問題的興趣增加之外,公司正在尋找更便宜,靈活和可擴展的解決方案來存儲和管理他們的數(shù)據(jù)。他們想將其數(shù)據(jù)移動到云中,為此,他們需要構(gòu)建“數(shù)據(jù)湖”來代替已經(jīng)存在的數(shù)據(jù)倉或作為操作數(shù)據(jù)存儲( ODS )的替代。

數(shù)據(jù)流在未來幾年內(nèi)將被重定向和替換,因此,數(shù)據(jù)工程師的雇用數(shù)量逐年增加。

數(shù)據(jù)科學家一直以來都被大力追捧,但如今,公司正在構(gòu)建其數(shù)據(jù)科學家的團隊,而不是雇用具有溝通技巧、創(chuàng)造力、聰明、好奇心、技術(shù)專長等的獨角獸數(shù)據(jù)科學家。對與企業(yè)來說,很難找到具有以上所有特質(zhì)的人才,而且對這類人才明顯供不應求。

市場對與數(shù)據(jù)科學方面人才的熱情依舊不變。根據(jù) McKinsey 的數(shù)據(jù),在 2018 年,美國可能面臨 14 萬到 19 萬具有深度分析技能的人才缺口,以及 150 萬能使用專業(yè)知識進行大數(shù)據(jù)分析并做出有效決定的經(jīng)理和分析師。

Ref:

https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer#gs.QKyo8lQ

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大數(shù)據(jù)入門的四個必備常識
數(shù)據(jù)科學家、數(shù)據(jù)工程師和數(shù)據(jù)分析師三個角色的區(qū)別是什么
機器學習工程師和數(shù)據(jù)科學家之間的區(qū)別
2019年招聘市場最搶手計算機技能排名:Python僅列第三
深扒一個獨角獸公司標配,但仍被低估的崗位
深度剖析:數(shù)據(jù)工程師vs數(shù)據(jù)科學家
更多類似文章 >>
生活服務(wù)
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服