了解數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家之間的差異非常重要。 誤解或不了解其差異,會導(dǎo)致團(tuán)隊(duì)在處理大數(shù)據(jù)時(shí)失敗或者表現(xiàn)不及預(yù)期。
一個(gè)核心的誤解是每個(gè)職位各自的優(yōu)點(diǎn)和弱點(diǎn)。 我認(rèn)為,其中一些誤解來源于描述數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的圖表。
圖1.關(guān)于數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師過度簡化的維恩圖。 來自Jesse Anderson的插圖
像圖1這樣的維恩圖,過度簡化了崗位的復(fù)雜性,以及崗位的區(qū)別之處。它使兩個(gè)崗位看上去可以互換。 是的,這兩個(gè)崗位都處理大數(shù)據(jù)。 不過,每個(gè)崗位利用大數(shù)據(jù),無論是創(chuàng)造價(jià)值,還是創(chuàng)造數(shù)據(jù)管線的做法都是截然不同的。這種差異來自每個(gè)崗位的基本技能。
何為數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師?
當(dāng)我與組織機(jī)構(gòu)合作,處理它們的團(tuán)隊(duì)架構(gòu)時(shí),我不用維恩圖去描述一名數(shù)據(jù)工程師和一名數(shù)據(jù)科學(xué)家之間的關(guān)系。 我繪制的圖如圖2所示。
圖2.顯示數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的核心能力及其重疊技能的圖表。 Jesse Anderson和大數(shù)據(jù)研究所的插圖
數(shù)據(jù)科學(xué)家的技能
數(shù)學(xué)與統(tǒng)計(jì)學(xué)(有時(shí)物理也可以)是數(shù)據(jù)科學(xué)家的核心。 在基于這種數(shù)學(xué)背景,他們正創(chuàng)建高級分析能力。 他們通過將數(shù)學(xué)應(yīng)用到極致來創(chuàng)建機(jī)器學(xué)習(xí)模型和人工智能模型。
如同軟件工程一樣,數(shù)據(jù)科學(xué)家將不得不與業(yè)務(wù)端進(jìn)行交流。 這包括充分了解領(lǐng)域,以獲得洞察力。 數(shù)據(jù)科學(xué)家通常負(fù)責(zé)分析數(shù)據(jù)以幫助業(yè)務(wù),這需要一定的商業(yè)敏銳度。 最后,他們的結(jié)果需要以可理解的方式提供給業(yè)務(wù)方。這要求數(shù)據(jù)科學(xué)家有能力用口述和視覺結(jié)果的形式,與業(yè)務(wù)方交流那些復(fù)雜的結(jié)果和觀察情況,以似的業(yè)務(wù)方能夠理解并且基于此展開決策。
關(guān)于數(shù)據(jù)科學(xué)家,我一言以概之的定義是:數(shù)據(jù)科學(xué)家是通過編程來強(qiáng)化他們的數(shù)學(xué)和統(tǒng)計(jì)背景能力來進(jìn)行分析數(shù)據(jù)、創(chuàng)造數(shù)學(xué)模型的人。
數(shù)據(jù)科學(xué)家的一個(gè)常見特征是,他們不得不選擇了編程,以實(shí)現(xiàn)他們除了編程以外無法做到的事情。 當(dāng)我與數(shù)據(jù)科學(xué)家交談時(shí),他們經(jīng)常向我傾訴的一件事情。 為了完成更復(fù)雜的分析,或者由于其他方面難以克服的問題,他們學(xué)會了如何編程。 他們的編程和系統(tǒng)搭建技能達(dá)不到你從程序員或數(shù)據(jù)工程師那里會看到的水平 – 他們也沒必要達(dá)到。
數(shù)據(jù)工程師的技能
編程能力是數(shù)據(jù)工程師的核心。這種能力背景通常是Java,Scala或Python的編程經(jīng)驗(yàn)。 他們的工作重點(diǎn)或?qū)I(yè)能力主要在分布式系統(tǒng)和大數(shù)據(jù)方面。 數(shù)據(jù)工程師具有高級編程和系統(tǒng)構(gòu)建技能。
對于數(shù)據(jù)工程師,我對其一言以蔽之的定義是:數(shù)據(jù)工程師是在圍繞大數(shù)據(jù)建立創(chuàng)建軟件解決方案上具備專業(yè)技能的人。
利用這些工程技能,他們可以創(chuàng)建數(shù)據(jù)管線。 創(chuàng)建數(shù)據(jù)管線可能聽起來很簡單或微不足道,但在大數(shù)據(jù)這種規(guī)模上,這意味著將10-30種不同的大數(shù)據(jù)技術(shù)整合在一起。 更重要的是,數(shù)據(jù)工程師是理解并選擇“適合處理某種工作的工具”的人。 數(shù)據(jù)工程師深入了解各種技術(shù)和框架,以及如何將它們組合在一起以創(chuàng)建解決方案,從而使公司的業(yè)務(wù)流程具備數(shù)據(jù)管線。
在我的經(jīng)驗(yàn)中,數(shù)據(jù)工程師只是最低限度地參與集群的運(yùn)維(與此處討論有關(guān)數(shù)據(jù)工程師的說法相反)。 雖然某些數(shù)據(jù)科學(xué)技術(shù)確實(shí)需要設(shè)置一個(gè)運(yùn)維或者數(shù)據(jù)運(yùn)維崗位,不過絕大多數(shù)技術(shù)都沒有。 就像大多數(shù)程序員一樣,我不允許他們直接訪問生產(chǎn)系統(tǒng)。 這主要是系統(tǒng)管理員或運(yùn)維人員的工作。
重疊技能
數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師技能之間存在重疊。 然而,重疊永遠(yuǎn)發(fā)生在每個(gè)人能力的不規(guī)則邊緣。
比方說,這兩個(gè)崗位在“分析”上重疊了。 但是,數(shù)據(jù)科學(xué)家的分析技能將遠(yuǎn)遠(yuǎn)超過數(shù)據(jù)工程師的分析技能。 數(shù)據(jù)工程師可以執(zhí)行一些基本到中級的分析,但很難進(jìn)行數(shù)據(jù)科學(xué)家所做的高級分析。
數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師在編程能力上有所重疊。 不過,數(shù)據(jù)工程師的編程技能遠(yuǎn)遠(yuǎn)超出了數(shù)據(jù)科學(xué)家的編程技能。 讓數(shù)據(jù)科學(xué)家創(chuàng)建數(shù)據(jù)管線早已遠(yuǎn)離了他們技能優(yōu)勢邊界,但卻是數(shù)據(jù)工程師的優(yōu)勢所在。 在這種情況下,這兩個(gè)角色是互補(bǔ)的,數(shù)據(jù)工程師對數(shù)據(jù)科學(xué)家的工作起支持作用。
您會注意到,數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師之間還存在一個(gè)大數(shù)據(jù)方面的重疊。 通過更好地了解每個(gè)崗位的技能,您現(xiàn)在可以更好的理解這種技能重疊。 數(shù)據(jù)工程師使用他們的編程和系統(tǒng)構(gòu)建技能來創(chuàng)建大數(shù)據(jù)管線。 數(shù)據(jù)科學(xué)家利用他們更加有限的編程技能,運(yùn)用他們的高級數(shù)學(xué)技能, 利用已經(jīng)存在的數(shù)據(jù)管線創(chuàng)建高級數(shù)據(jù)產(chǎn)品。 “創(chuàng)建和使用”之間的這種差異,是在處理大數(shù)據(jù)時(shí),團(tuán)隊(duì)失敗或者表現(xiàn)不佳的核心之處。一個(gè)團(tuán)隊(duì),如果期望他們的數(shù)據(jù)科學(xué)家創(chuàng)建數(shù)據(jù)管線,最后將會極其失望。
當(dāng)機(jī)構(gòu)把事情搞錯(cuò)了
不幸的是,一個(gè)機(jī)構(gòu)誤解每個(gè)崗位的核心技能和職位角色相當(dāng)常見。一些機(jī)構(gòu)認(rèn)為數(shù)據(jù)科學(xué)家可以創(chuàng)建數(shù)據(jù)管線。 數(shù)據(jù)科學(xué)家可以將就地創(chuàng)建數(shù)據(jù)管線。 數(shù)據(jù)科學(xué)家創(chuàng)建數(shù)據(jù)管道的問題有幾個(gè)方面。 請記住,數(shù)據(jù)科學(xué)家只是不得不學(xué)習(xí)編程和大數(shù)據(jù)。 他們是聰明的人,最終確實(shí)可以解決問題,但創(chuàng)建數(shù)據(jù)管線并不是他們的核心競爭力。
從管理角度來看,數(shù)據(jù)科學(xué)團(tuán)隊(duì)將陷入困境。 您將環(huán)顧四周或聽取其他團(tuán)隊(duì)的意見,并將他們的進(jìn)度與本團(tuán)隊(duì)的進(jìn)度進(jìn)行比較。 看起來,好像數(shù)據(jù)科學(xué)團(tuán)隊(duì)根本沒有產(chǎn)出,或者表現(xiàn)不佳。 這是一種基于對數(shù)據(jù)科學(xué)家核心競爭力的誤解,所產(chǎn)生的不公平的評估。
數(shù)據(jù)科學(xué)家從事數(shù)據(jù)工程
我見過公司要求數(shù)據(jù)科學(xué)家們做數(shù)據(jù)工程師所做的事情。 數(shù)據(jù)科學(xué)家的效率為20-30%。 數(shù)據(jù)科學(xué)家并不知道數(shù)據(jù)工程師所知道的事情。 創(chuàng)建數(shù)據(jù)管道并非易事 – 它需要高級編程技能,大數(shù)據(jù)框架理解和系統(tǒng)創(chuàng)建。 這些不是普通數(shù)據(jù)科學(xué)家所擁有的技能。 數(shù)據(jù)科學(xué)家可以獲得這些技能; 然而,這段時(shí)間的投資回報(bào)率(ROI)非常低。 不要誤解我:數(shù)據(jù)科學(xué)家確實(shí)需要編程和大數(shù)據(jù)技能,而不是數(shù)據(jù)工程師需要的水平。
在數(shù)據(jù)管線創(chuàng)建中,相對來說業(yè)余的數(shù)據(jù)科學(xué)家也會碰到這種問題:數(shù)據(jù)科學(xué)家會在選擇工具上犯錯(cuò)誤、進(jìn)行錯(cuò)誤的選擇,而數(shù)據(jù)工程師則不會。 數(shù)據(jù)科學(xué)家通常不清楚或者不理解處理一個(gè)任務(wù)所需要的合適工具。對于所有任務(wù)都使用單一工具(往往是一個(gè)錯(cuò)誤的工具),最終把一切都搞砸?,F(xiàn)實(shí)情況是,為了處理不同的工作,需要許多不同的工具。 合格的數(shù)據(jù)工程師會知道這些,數(shù)據(jù)科學(xué)家通常不會知道這些。
最近的一個(gè)例子是,數(shù)據(jù)科學(xué)家使用Apache Spark處理幾十GB數(shù)據(jù)集。 的確,Spark可以處理這么多數(shù)據(jù)。 但是,一個(gè)小型數(shù)據(jù)程序會更快,也會執(zhí)行的更好。他們的Spark任務(wù)需要10-15分鐘才能執(zhí)行,然而小數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫只需要0.01秒來完成同樣的事情。 在這種情況下,數(shù)據(jù)科學(xué)家不甚完美地解決了這個(gè)問題,但卻不明白這項(xiàng)工作的正確工具是什么。 在一天內(nèi)完成這種消耗15分鐘時(shí)間的工作16次,(這是低端的數(shù)據(jù)分析),你的數(shù)據(jù)科學(xué)家每天就要花四個(gè)小時(shí)等待,因?yàn)樗麄冋谑褂缅e(cuò)誤的工具來完成這個(gè)任務(wù)。
在另一個(gè)機(jī)構(gòu)中,他們的數(shù)據(jù)科學(xué)家沒有任何數(shù)據(jù)工程資源。 數(shù)據(jù)科學(xué)家會處理這些問題,直到他們遇到無法解決的數(shù)據(jù)工程問題并且卡住。 他們向業(yè)務(wù)部門報(bào)告說,他們無法完成任務(wù),就在那里讓工作只完成了一半就停了下來。這導(dǎo)致數(shù)據(jù)科學(xué)家們截止到那個(gè)時(shí)刻都在浪費(fèi)時(shí)間,并且據(jù)他們估計(jì),就只因?yàn)闊o法完成工作,數(shù)百萬美元的價(jià)值在那里懸而未決。
如果讓一位數(shù)據(jù)科學(xué)家做數(shù)據(jù)工程師工作,一個(gè)更令人擔(dān)憂的表現(xiàn)是數(shù)據(jù)科學(xué)家會感到沮喪并辭職。 我在許多機(jī)構(gòu)中,和處理數(shù)據(jù)工程師工作的許多數(shù)據(jù)科學(xué)家交談過。 對話總是一樣的 :數(shù)據(jù)科學(xué)家抱怨他們來公司是為了從事數(shù)據(jù)科學(xué)工作,而不是數(shù)據(jù)工程工作的。 他們把事情做完就需要完成數(shù)據(jù)工程工作,但讓數(shù)據(jù)科學(xué)家做數(shù)據(jù)工程師的工作會讓他們發(fā)瘋。 他們會選擇辭職,而您將會需要用3-6個(gè)月的時(shí)間來完成數(shù)據(jù)工程。 我在另一篇文章中更多地討論了這些問題。
數(shù)據(jù)工程師與數(shù)據(jù)科學(xué)家的比率
決定數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的比率是一個(gè)常見問題。在確定這個(gè)比率時(shí),常見需要考慮的問題包括數(shù)據(jù)管線有多復(fù)雜,數(shù)據(jù)管線有多成熟,以及數(shù)據(jù)工程團(tuán)隊(duì)需要擁有多少經(jīng)驗(yàn)。
擁有比數(shù)據(jù)工程師更多的數(shù)據(jù)科學(xué)家通常是個(gè)問題。 它通常意味著,機(jī)構(gòu)正在讓他們的數(shù)據(jù)科學(xué)家進(jìn)行數(shù)據(jù)工程工作。 正如我之前所說的,這會進(jìn)而導(dǎo)致各種各樣的問題。
為每個(gè)數(shù)據(jù)科學(xué)家搭配2-3位數(shù)據(jù)工程師是一個(gè)常見配置。 對于一些具有更復(fù)雜數(shù)據(jù)工程要求的機(jī)構(gòu),這個(gè)數(shù)字可以是每個(gè)數(shù)據(jù)科學(xué)家配備4-5名數(shù)據(jù)工程師。 這包括那些數(shù)據(jù)工程和數(shù)據(jù)科學(xué)處于不同匯報(bào)組織結(jié)構(gòu)中的機(jī)構(gòu)。 您需要更多的數(shù)據(jù)工程師,因?yàn)閯?chuàng)建數(shù)據(jù)管線需要比創(chuàng)建ML / AI部分花費(fèi)更多的時(shí)間和精力。
我在《數(shù)據(jù)工程團(tuán)隊(duì)》一書中,更多地討論了數(shù)據(jù)工程和數(shù)據(jù)科學(xué)團(tuán)隊(duì)?wèi)?yīng)該如何相互交流。
數(shù)據(jù)工程師從事數(shù)據(jù)科學(xué)研究
一個(gè)遠(yuǎn)非常見的情況是數(shù)據(jù)工程師開始進(jìn)行數(shù)據(jù)科學(xué)工作。 隨著數(shù)據(jù)工程師開始提高他們的數(shù)學(xué)和統(tǒng)計(jì)技能,這是一個(gè)向上的推動(dòng)力。 隨著數(shù)據(jù)科學(xué)變得更加標(biāo)準(zhǔn)化,這種向上的推動(dòng)力變得越來越普遍。 它導(dǎo)致了一種全新的工程師類型出現(xiàn)。
對機(jī)器學(xué)習(xí)工程師的需求
讓我們直面這個(gè)事實(shí):數(shù)據(jù)科學(xué)家來自學(xué)術(shù)背景。 他們通常擁有博士學(xué)位或碩士學(xué)位。 問題在于,他們寧愿寫一篇關(guān)于問題的論文,而不是將某些東西投入生產(chǎn)。 其他時(shí)候,他們的編程能力只會擴(kuò)展到在R中創(chuàng)建一些東西。把用R編寫的東西放到生產(chǎn)中本身就是一個(gè)問題。 他們不像工程師那樣思考如何建立系統(tǒng)。
數(shù)據(jù)科學(xué)家面臨的一般問題是,他們不是將工作投入生產(chǎn)、創(chuàng)建數(shù)據(jù)管線以及公開這些AI / ML結(jié)果的工程師。
為了應(yīng)對學(xué)術(shù)思維與“投入生產(chǎn)的需求”之間的差異,我們觀察到了一種新型的工程師。 現(xiàn)在,這位工程師大多可以在美國看到。他們的頭銜是機(jī)器學(xué)習(xí)工程師。
圖3.顯示機(jī)器學(xué)習(xí)工程師與數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的匹配情況的圖表。 Jesse Anderson和大數(shù)據(jù)研究所的插圖
機(jī)器學(xué)習(xí)工程師主要來自數(shù)據(jù)工程背景。 他們經(jīng)歷了足夠多的交叉培訓(xùn),變得同時(shí)熟練掌握數(shù)據(jù)工程和數(shù)據(jù)科學(xué)。 一種不常見的途徑是數(shù)據(jù)科學(xué)家在數(shù)據(jù)工程方面進(jìn)行交叉訓(xùn)練。
對機(jī)器學(xué)習(xí)工程師,我一言以蔽之的定義是:機(jī)器學(xué)習(xí)工程師是坐在數(shù)據(jù)科學(xué)和數(shù)據(jù)工程的十字路口,并且熟練掌握數(shù)據(jù)工程和數(shù)據(jù)科學(xué)兩方面的人。
如圖2所示,您可能想知道在數(shù)據(jù)科學(xué)與數(shù)據(jù)工程之間存在的差距里會發(fā)生什么。 這正是機(jī)器學(xué)習(xí)工程師所處的位置,如圖3所示。它們是數(shù)據(jù)工程師創(chuàng)建的數(shù)據(jù)管線與數(shù)據(jù)科學(xué)家所創(chuàng)造東西之間的橋梁。 機(jī)器學(xué)習(xí)工程師負(fù)責(zé)獲取數(shù)據(jù)科學(xué)家發(fā)現(xiàn)或創(chuàng)造的內(nèi)容,并使其在生產(chǎn)環(huán)境中發(fā)揮價(jià)值(值得注意的是,數(shù)據(jù)科學(xué)家創(chuàng)建的大部分內(nèi)容并非在生產(chǎn)上有價(jià)值, 并且大部分被用技巧拼湊起來能夠工作)。
機(jī)器學(xué)習(xí)工程師的工作,主要是創(chuàng)建數(shù)據(jù)科學(xué)管線的最后一步。 這可能需要幾個(gè)部分。 它可能是將數(shù)據(jù)科學(xué)家的代碼從R / Python重寫為Java / Scala。 它可能是從軟件工程的角度優(yōu)化ML / AI代碼,保證數(shù)據(jù)科學(xué)家寫的代碼能夠運(yùn)行良好(或者干脆就是能夠運(yùn)行)。 機(jī)器學(xué)習(xí)工程師具有足夠的工程背景,可以在一個(gè)領(lǐng)域(數(shù)據(jù)科學(xué))保障所必需的工程規(guī)范,這些領(lǐng)域以并不遵循良好的工程原理而著稱。
在生產(chǎn)環(huán)境中運(yùn)行的模型需要維護(hù)和輸入,而普通的軟件并不需要。 機(jī)器學(xué)習(xí)模型可能過時(shí),并開始給出不正確或扭曲事實(shí)的結(jié)果。 這可能來自數(shù)據(jù)屬性的改變,新數(shù)據(jù)的增加,或惡意性質(zhì)的攻擊。 無論是哪種方式導(dǎo)致的,機(jī)器學(xué)習(xí)工程師都需要時(shí)刻注意他們的模型中需要修改的部分,這可能導(dǎo)致模型的重新訓(xùn)練或調(diào)整。
機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)工程師
數(shù)據(jù)工程師向機(jī)器學(xué)習(xí)工程師的過渡是一個(gè)緩慢的過程。 坦率來講,我們將看到,變成機(jī)器學(xué)習(xí)工程師需要作出什么變化和變成數(shù)據(jù)科學(xué)家需要作出什么變化是非常相似的。
為了解釋我的“緩慢變化”的意思,我將分享那些我見過的從數(shù)據(jù)工程師轉(zhuǎn)變?yōu)闄C(jī)器學(xué)習(xí)工程師的人的經(jīng)驗(yàn)。 他們花了數(shù)年時(shí)間做軟件工程師和數(shù)據(jù)工程師的開發(fā)工作。 他們一直對統(tǒng)計(jì)學(xué)或數(shù)學(xué)感興趣。 其他時(shí)候,他們只是厭倦了作為一名數(shù)據(jù)工程師所遇到的限制。 無論哪種方式,這種轉(zhuǎn)變需要數(shù)年時(shí)間。 參加初級統(tǒng)計(jì)課程或初級學(xué)習(xí)機(jī)器課程之后,我沒發(fā)現(xiàn)人們能立刻成為機(jī)器學(xué)習(xí)工程師。
正如我將數(shù)據(jù)科學(xué)家視為偏學(xué)術(shù)一樣,數(shù)據(jù)工程師也不剛好是適合做機(jī)器學(xué)習(xí)工程師的。 一個(gè)工程師喜歡世界里的真和假,黑和白,以及1和0。他們不喜歡不確定性。 通過機(jī)器學(xué)習(xí),模型的猜測存在一定程度的不確定性(工程師也不喜歡猜測)。 與大多數(shù)工程師不同,機(jī)器學(xué)習(xí)工程師可以跨越數(shù)據(jù)工程的確定性和數(shù)據(jù)科學(xué)的不確定性。
機(jī)器學(xué)習(xí)工程師日益增加的價(jià)值
進(jìn)行數(shù)據(jù)科學(xué)的門檻正在逐漸降低。 最佳實(shí)踐正在逐步充實(shí)。 最常見的算法變?yōu)楣沧R。 更好的消息是,有人已經(jīng)編碼并優(yōu)化了這些算法。
這種不斷增長的成熟性,使得數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師更容易將算法投入生產(chǎn)而無需編碼。 我們也看到,數(shù)據(jù)科學(xué)變得更加自動(dòng)化,有著更為自驅(qū)動(dòng)的過程。 Google的AutoML就代表了這樣一種趨勢,工具會自動(dòng)為您找到最佳算法,無需成熟數(shù)據(jù)科學(xué)家的工作即可獲得結(jié)果。 DataRobot是另一種自動(dòng)化技術(shù),它為數(shù)據(jù)尋找最佳的數(shù)據(jù)科學(xué)算法。 它還將幫助機(jī)器學(xué)習(xí)工程師將算法投入生產(chǎn)。
這些工具不會取代硬核的數(shù)據(jù)科學(xué),但它將使數(shù)據(jù)科學(xué)家能夠?qū)W⒂跀?shù)據(jù)科學(xué)中更困難的部分。 它將使機(jī)器學(xué)習(xí)工程師變得越來越有生產(chǎn)力。 我們將逐漸看到,機(jī)器學(xué)習(xí)工程師的負(fù)擔(dān)會越發(fā)減少,自動(dòng)化算法越發(fā)增加。
未來應(yīng)該期望機(jī)器學(xué)習(xí)工程師達(dá)到何種水平的生產(chǎn)力?我對這一點(diǎn)感到左右為難。簡單來說,機(jī)器學(xué)習(xí)工程師是否要為他們的Web開發(fā)人員做Wordpress配置員? 在這種場景下,機(jī)器學(xué)習(xí)工程師可以通過眾所周知的標(biāo)準(zhǔn)用例來提高工作效率,只有數(shù)據(jù)科學(xué)家才能處理真正的自定義工作。 或者,機(jī)器學(xué)習(xí)工程師會重新成為數(shù)據(jù)庫管理員嗎? 在對模型已知的深入了解,他們可以使用已知的、千篇一律的方法來配置模型,在50-80%的時(shí)候獲得正確的結(jié)果,并且這足以滿足所有需求。 要獲得真正準(zhǔn)確的結(jié)果,您會需要一位數(shù)據(jù)科學(xué)家。
機(jī)器學(xué)習(xí)工程師和數(shù)據(jù)科學(xué)家的生產(chǎn)力的關(guān)鍵,將會是他們的工具。 現(xiàn)在工具缺乏成熟度,這就是為什么我會好奇他們將來會有多么高效。
我希望數(shù)據(jù)科學(xué)的入門門檻繼續(xù)降低。 這將使機(jī)器學(xué)習(xí)工程師能夠在不大量增加知識的情況下完成更多的數(shù)據(jù)科學(xué)工作。 我希望機(jī)器學(xué)習(xí)工程師的角色在美國和全世界范圍內(nèi)變得越來越普遍。
該怎么做?
現(xiàn)在您已經(jīng)看到了數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師之間的差異,您需要環(huán)顧整個(gè)機(jī)構(gòu),看看您需要在哪些地方作出改變。 這是我?guī)椭渌麢C(jī)構(gòu)完成的一項(xiàng)變革,他們已經(jīng)看到了巨大的成果。 在數(shù)據(jù)科學(xué)小組似乎陷入困境、無法有作為的情況下,我們創(chuàng)建了數(shù)據(jù)工程團(tuán)隊(duì),向數(shù)據(jù)科學(xué)和數(shù)據(jù)工程團(tuán)隊(duì)展示了如何協(xié)同工作,并制定了正確的流程。
這些變化使數(shù)據(jù)科學(xué)團(tuán)隊(duì)的生產(chǎn)力從20%提高到90%。 團(tuán)隊(duì)能夠用相同數(shù)量的人做更多事情。 數(shù)據(jù)科學(xué)家們更開心,因?yàn)樗麄儧]有進(jìn)行數(shù)據(jù)工程。 管理層可以開始基于備受期待的大數(shù)據(jù)提供價(jià)值。
您也許還會遇到一個(gè)新崗位,機(jī)器學(xué)習(xí)工程師。 隨著您的數(shù)據(jù)科學(xué)和數(shù)據(jù)工程團(tuán)隊(duì)的成熟,您需要檢查團(tuán)隊(duì)之間的差距。 您可能需要提拔一位數(shù)據(jù)工程師,在他的努力路徑上讓他成為機(jī)器學(xué)習(xí)工程師,或直接聘請一位機(jī)器學(xué)習(xí)工程師。
最后,大數(shù)據(jù)的絕大多數(shù)問題都是人和團(tuán)隊(duì)的問題。 它們不是技術(shù)問題(至少在最初階段不是)。 技術(shù)通常會受到指責(zé),因?yàn)樨?zé)怪技術(shù)要比團(tuán)隊(duì)自省容易得多。 在您解決人事問題之前,您不會遇到真正棘手的技術(shù)問題,也不會創(chuàng)造出您所期望的大數(shù)據(jù)能夠帶來的價(jià)值。 誠實(shí)地審視您的團(tuán)隊(duì)和您的機(jī)構(gòu),看看您需要在哪里作出改變。