神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點(diǎn)介紹國外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。
編者按:在如今的大數(shù)據(jù)時(shí)代,各個(gè)行業(yè)領(lǐng)域及企業(yè)的數(shù)據(jù)量都在呈爆發(fā)式增長。企業(yè)數(shù)據(jù)已經(jīng)被廣泛應(yīng)用于盈利分析與預(yù)測、客戶關(guān)系管理、合規(guī)性監(jiān)管、運(yùn)營風(fēng)險(xiǎn)管理等業(yè)務(wù)中。面對海量數(shù)據(jù),選擇最合適的企業(yè)級數(shù)據(jù)分析平臺就顯得格外重要。這篇文章,原標(biāo)題是How can you choose the best data analytics platform for your company?作者Alina GHERMAN在文中介紹了如何為企業(yè)挑選最適合的數(shù)據(jù)分析平臺,希望對你有所幫助。
圖片來源:memegenerator.net
如今,市面上存在許多數(shù)據(jù)分析平臺。要從中選出一個(gè)合適的企業(yè)級數(shù)據(jù)分析平臺,這個(gè)過程可能會相當(dāng)漫長。因此,到底該怎么挑選最適合的數(shù)據(jù)分析平臺呢?
首先,我們需要明確選擇標(biāo)準(zhǔn),從而可以進(jìn)一步做比較。這一步非常重要,因?yàn)檫x擇標(biāo)準(zhǔn)將決定最終選擇的數(shù)據(jù)分析平臺。
在明確選擇標(biāo)準(zhǔn)時(shí),我們必須將如下因素納入考慮范圍:
現(xiàn)有技能、工具以及公司戰(zhàn)略
不同類型用戶所需的功能:數(shù)據(jù)分析師,數(shù)據(jù)科學(xué)家,運(yùn)營服務(wù)業(yè)務(wù)員……
定價(jià)
基于不同公司的不同現(xiàn)有技能,用戶友好型的標(biāo)準(zhǔn)和希望實(shí)現(xiàn)的功能存在不同的含義。
圖片來源:memegenerator.net
對于一位習(xí)慣于編寫代碼的數(shù)據(jù)科學(xué)家而言,一個(gè)拖拽式編程的工具可能會減弱他的交付能力,因?yàn)樗仨氄莆者@個(gè)工具的使用,否則他可能不會構(gòu)建庫和版本代碼,也不會返回舊版本項(xiàng)目。
然而,這樣的工具對于沒有編寫代碼能力的數(shù)據(jù)科學(xué)家卻可能很有幫助。
公司現(xiàn)有工具會影響你想要實(shí)現(xiàn)的各類連接:云連接,數(shù)據(jù)庫連接……
公司戰(zhàn)略可能會直接將你導(dǎo)向某種特定類型的工具,并且?guī)硇碌倪x擇標(biāo)準(zhǔn):SaaS,基于云的標(biāo)準(zhǔn),開源標(biāo)準(zhǔn)……
此外,視公司戰(zhàn)略而定,可能會出現(xiàn)以下兩種情況:整個(gè)公司使用一種工具,而每一項(xiàng)小任務(wù)或每個(gè)小組都在使用不同的分析工具。這些都會對不同用戶類型希望實(shí)現(xiàn)的功能造成影響。
通常來講,各類用戶無法真正了解平臺到底能夠?qū)崿F(xiàn)的功能,他們也不知道他們真正的需要是什么,并且他們總是嘗試讓自己確信,這個(gè)產(chǎn)品幾年之內(nèi)都能正常使用。
因此,要分析用戶真正希望實(shí)現(xiàn)的功能不是一項(xiàng)容易的任務(wù)。
圖片來源:memegenerator.net
你能在以下提及的內(nèi)容中找到一些你必須面對和處理的功能主題:
連接功能:平面文件,數(shù)據(jù)庫連接,云連接器……
數(shù)據(jù)準(zhǔn)備功能:標(biāo)記,連接,排序……
數(shù)據(jù)科學(xué)功能:腳本和內(nèi)置功能
數(shù)據(jù)可視化功能和數(shù)據(jù)可視化工具的連接
數(shù)據(jù)存儲功能:實(shí)時(shí)存儲,分批存儲……
安全功能:認(rèn)證類型,審計(jì)功能……
合規(guī)功能:鎖定數(shù)據(jù),數(shù)據(jù)可追溯性,數(shù)據(jù)留存……
我認(rèn)為這是最難評估的方面之一。
對此,一個(gè)很好的例證就是,2020年12月,CentOS 8的有效支持時(shí)間突然從2029年縮減并提前到了2021年初。產(chǎn)品路線圖需要根據(jù)大量技術(shù)觀察來做預(yù)測與判斷,而我們總是容易忽略這件事。
圖片來源:makeameme.org
但是無論如何,我們都必須考慮產(chǎn)品路線圖。對于我們選擇的滿足當(dāng)下需求的工具而言,如果這個(gè)工具明天會被淘汰的話,那這絕對不是不是一個(gè)好的選擇。因此,我們需要有清晰的產(chǎn)品路線圖,以便于檢查其是否和公司戰(zhàn)略一致。
每一個(gè)數(shù)據(jù)分析產(chǎn)品都有單獨(dú)的定價(jià)策略。視產(chǎn)品使用時(shí)長、使用人數(shù)、用戶類型、團(tuán)隊(duì)規(guī)模以及功能等方面而定,產(chǎn)品定價(jià)都可能存在差異。
當(dāng)然了,也有一些在許可方面不存在定價(jià)的開源產(chǎn)品,但這并不意味著,其整套產(chǎn)品都是免費(fèi)的。畢竟,還會有服務(wù)器成本以及維護(hù)成本等方面的支出。
圖片來源:memegenerator.net
因?yàn)楫a(chǎn)品有許多不同的價(jià)格比較參數(shù),我們往往無法直接進(jìn)行比較。最“簡便”的比較方法是,就某個(gè)特定用例而言,每種工具大概耗費(fèi)的成本是多少。
基于仔細(xì)篩選的選擇標(biāo)準(zhǔn),我們應(yīng)該能夠?qū)Σ煌钠脚_展開對比。不過,首先,我們需要選擇可以用來對比的平臺。
如果你認(rèn)為這是一個(gè)很簡單的任務(wù),那么可以去看看數(shù)據(jù)和人工智能產(chǎn)業(yè)圖譜。
2020年數(shù)據(jù)和人工智能產(chǎn)業(yè)圖譜。圖片來源:mattturck
對于這個(gè)任務(wù)而言,我覺得目前唯一可靠的方法包括以下幾個(gè)方面:
分析魔力象限(研究顧問Gartner公司發(fā)明的在特定時(shí)段內(nèi)對市場情況展開的圖形化描述)
查看分析數(shù)據(jù)和人工智能產(chǎn)業(yè)圖譜
在這個(gè)主題上展開更多的技術(shù)觀察
與領(lǐng)域?qū)<矣懻摚骸皩<摇敝敢呀?jīng)做過類似選擇的公司或者個(gè)人。
以上這些方法,都能夠幫助你基于既定選擇標(biāo)準(zhǔn)來比較不同平臺并做出選擇。如果這些方法沒起作用,那就意味著,技術(shù)觀察工作還不到位,因此還需要再重復(fù)。
圖片來源:imgflip.com
為企業(yè)選擇合適的數(shù)據(jù)分析工具并不是一個(gè)簡單的任務(wù)。由于存在多種偏差,因此也很難去克服所有的偏差。其中,就包括:
確認(rèn)偏誤:有時(shí),我們會忽視與已有認(rèn)知產(chǎn)生矛盾的信息
合取謬誤:有時(shí),比起證據(jù),我們更加信任直覺
結(jié)果偏差:有時(shí),我們會忽視某些決策過程,轉(zhuǎn)而過分關(guān)注于結(jié)果。例如,我們有時(shí)只注意到自己擁有一套完整的產(chǎn)品這個(gè)事實(shí),卻忽略了某些期待的功能。
我發(fā)現(xiàn),克服這些偏差的有效方法是,嘗試從多處獲得反饋,從而形成反饋循環(huán)。
在確定選擇標(biāo)準(zhǔn)和篩選出的平臺過后,就可以展開比較了。
《星球大戰(zhàn)》(Star Wars)角色對比。圖片來源:Mary Sue
如果單單通過以上步驟,我們就能做出最好的選擇,那就再好不過了。但遺憾的是,我認(rèn)為這是不可能的,我們最多只能基于現(xiàn)有事實(shí)和偏差,盡可能做出最好的選擇。
不過,不展開比較的話,我們可能就無法認(rèn)識并克服這些偏差,這也意味著,我們在做這些選擇的時(shí)候,只能靠運(yùn)氣,而非自身努力。
譯者:俊一
本文來自翻譯, 如若轉(zhuǎn)載請注明出處。