2019年大
當(dāng)前最火熱的新興科技莫過(guò)于人工智能,而國(guó)內(nèi)的大數(shù)據(jù)公司也紛紛轉(zhuǎn)戰(zhàn)AI戰(zhàn)場(chǎng)。某種程度上,大數(shù)據(jù)已不再是科技界的話題寵兒。在Gartner的Hype Cycle中,大數(shù)據(jù)技術(shù)也已經(jīng)進(jìn)入到了Plateau of Productivity的商業(yè)化應(yīng)用階段。
任何新興科技總會(huì)經(jīng)歷創(chuàng)新萌芽到期望幻滅的周期,這并不奇怪。就2018年行業(yè)應(yīng)用現(xiàn)狀來(lái)看,大數(shù)據(jù)正逐步成為企業(yè)的標(biāo)準(zhǔn)化應(yīng)用技術(shù):從早期嘗試搭建分布式集群、到數(shù)據(jù)采集匯總、到數(shù)據(jù)加工與開發(fā)、再到大數(shù)據(jù)的應(yīng)用場(chǎng)景落地,企業(yè)數(shù)據(jù)架構(gòu)已經(jīng)全面接納、融合了分布式平臺(tái),并經(jīng)歷了從集中式、到混合式的探索期。
在這里我還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流裙:667367234, 裙 里都是學(xué)大數(shù)據(jù)開發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)開發(fā)相關(guān)的),包括我自己整理的一份2018最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴。
大數(shù)據(jù)技術(shù)的成熟應(yīng)用也間接推動(dòng)了技術(shù)社區(qū)的發(fā)展。HadoopSpark已經(jīng)被大部分企業(yè)所接納,事實(shí)標(biāo)準(zhǔn)的地位愈加穩(wěn)固;Spark 2.4的發(fā)布能夠看出對(duì)微批(micro-batch)處理的優(yōu)化和Avro格式的數(shù)據(jù)支持。在流計(jì)算領(lǐng)域,Kafka Streams逐漸被企業(yè)所采納作為低延遲的選型方案;Flink和Spark Streaming仍是采用最多的計(jì)算框架,與實(shí)時(shí)機(jī)器學(xué)習(xí)結(jié)合應(yīng)用于風(fēng)控、營(yíng)銷、信貸等場(chǎng)景端。此外,2018年容器技術(shù)和機(jī)器學(xué)習(xí)隨著AI的潮流開始規(guī)模化應(yīng)用于零售、金融、政府等領(lǐng)域,如Kubernetes/Docker、TensorFlow。
2019年大數(shù)據(jù)領(lǐng)域的技術(shù)及應(yīng)用的發(fā)展總體上仍將處于一個(gè)穩(wěn)步迭代的創(chuàng)新周期。在新興開源技術(shù)的嘗試方面,企業(yè)將更趨于理性和審慎;大數(shù)據(jù)計(jì)算引擎、大數(shù)據(jù)PaaS及工具和組件成為科技部門的標(biāo)配;結(jié)合AI技術(shù),大數(shù)據(jù)應(yīng)用將大量落地,并產(chǎn)生業(yè)務(wù)價(jià)值。
根據(jù)技術(shù)市場(chǎng)和企業(yè)客戶需求的觀察,我總結(jié)了2019年大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)??傮w來(lái)說(shuō),數(shù)據(jù)資產(chǎn)管理、增強(qiáng)分析、智能化數(shù)據(jù)基礎(chǔ)設(shè)施、面向AI的分布式框架看、數(shù)據(jù)安全管理是大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域的幾個(gè)關(guān)鍵方向。
1.數(shù)據(jù)資產(chǎn)管理
隨著大數(shù)據(jù)與人工智能在行業(yè)中的應(yīng)用進(jìn)入深水區(qū),企業(yè)將越來(lái)越重視數(shù)據(jù)資產(chǎn)管理方法論體系建設(shè)——即從架構(gòu)、標(biāo)準(zhǔn)、研發(fā)、質(zhì)量、安全、分析到應(yīng)用的統(tǒng)一,從而實(shí)現(xiàn)技術(shù)到業(yè)務(wù)價(jià)值的轉(zhuǎn)化和變現(xiàn)。
一個(gè)比較奇怪的現(xiàn)象是:雖然越來(lái)越多的企業(yè)嘗試采用了大數(shù)據(jù)技術(shù)、也在業(yè)務(wù)場(chǎng)景中嘗試運(yùn)用AI技術(shù),但行業(yè)整體上仍缺少數(shù)據(jù)資產(chǎn)管理的方法論體系。換句話說(shuō),技術(shù)的應(yīng)用超前于規(guī)則、標(biāo)準(zhǔn)和制度。事實(shí)上,仍然沒(méi)有太多企業(yè)將數(shù)據(jù)作為資產(chǎn)進(jìn)行有序、價(jià)值的整理,而只是把數(shù)據(jù)治理工作作為一項(xiàng)必須完成的任務(wù)來(lái)執(zhí)行(監(jiān)管要求等原因)。
2019年數(shù)據(jù)資產(chǎn)管理將仍是企業(yè)數(shù)據(jù)部門面臨的難點(diǎn)與挑戰(zhàn)。即使是大型、領(lǐng)先的互聯(lián)網(wǎng)公司和科技型企業(yè),在數(shù)據(jù)資產(chǎn)管理這一課題上仍在不斷探索新的方法,如全鏈路智能管理體系、數(shù)據(jù)資產(chǎn)的貢獻(xiàn)度、資產(chǎn)定義與研發(fā)管理的有機(jī)整合、數(shù)據(jù)基線度量與質(zhì)量規(guī)范的工具化、可視化等。
2.增強(qiáng)分析
Gartner把增強(qiáng)分析(Augmented Analytics)定義為:側(cè)重于增強(qiáng)智能的特定領(lǐng)域,使用機(jī)器學(xué)習(xí)來(lái)轉(zhuǎn)換分析內(nèi)容的開發(fā)、消費(fèi)和共享方式。增強(qiáng)分析功能將迅速推進(jìn)到主流應(yīng)用,作為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)管理、現(xiàn)代分析、業(yè)務(wù)流程管理、流程挖掘和數(shù)據(jù)科學(xué)平臺(tái)的關(guān)鍵特性。
近兩年自助式BI分析工具和算法平臺(tái)已經(jīng)屢見(jiàn)不鮮,但在實(shí)際行業(yè)應(yīng)用中帶來(lái)的業(yè)務(wù)價(jià)值并不大。究其原因,我認(rèn)為一方面是常規(guī)的自助式BI分析和算法平臺(tái)仍未脫離工具范疇,離實(shí)際的業(yè)務(wù)場(chǎng)景距離仍然較遠(yuǎn)。換句話說(shuō)并沒(méi)有深度集成到業(yè)務(wù)流程當(dāng)中;另一方面是從BI到AI仍需要解決數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)融合的問(wèn)題,這需要占據(jù)數(shù)據(jù)科學(xué)家大量的時(shí)間。如何解決普通業(yè)務(wù)用戶也能快捷便利的訪問(wèn)數(shù)據(jù)并進(jìn)行驗(yàn)證分析是實(shí)現(xiàn)自動(dòng)化分析的一大難點(diǎn)。
增強(qiáng)分析是數(shù)據(jù)科學(xué)的深化應(yīng)用。通過(guò)將機(jī)器學(xué)習(xí)算法自動(dòng)化實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)備,簡(jiǎn)化數(shù)據(jù)處理過(guò)程,實(shí)現(xiàn)分析及洞察的自動(dòng)化,為傳統(tǒng)業(yè)務(wù)人員提供了更便捷的通過(guò)數(shù)據(jù)和算法實(shí)現(xiàn)業(yè)務(wù)分析的可能性。
3.AI驅(qū)動(dòng)的數(shù)據(jù)基礎(chǔ)設(shè)施
在這里我還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流裙:667367234, 裙 里都是學(xué)大數(shù)據(jù)開發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)開發(fā)相關(guān)的),包括我自己整理的一份2018最新的大數(shù)據(jù)進(jìn)階資料和高級(jí)開發(fā)教程,歡迎進(jìn)階中和進(jìn)想深入大數(shù)據(jù)的小伙伴。
2018年基本可以稱之為人工智能的元年。多數(shù)企業(yè)布局了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)的人力、工具和基礎(chǔ)設(shè)施,有一些行業(yè)解決方案也逐步落地。不過(guò)在真實(shí)世界中,搭建基于AI的生態(tài)系統(tǒng),重點(diǎn)并非算法本身,“AI驅(qū)動(dòng)業(yè)務(wù)價(jià)值”這一命題意味著高昂的成本和資源投入。
Google在其論文《Hidden Technical Debt in Machine Learning Systems》中提到:真實(shí)世界中的AI系統(tǒng)只有一小部分依賴于機(jī)器學(xué)習(xí)算法,其依賴于大量復(fù)雜的基礎(chǔ)設(shè)施。在數(shù)據(jù)配置、數(shù)據(jù)采集、特征提取、數(shù)據(jù)校驗(yàn)、資源管理、分析工具、服務(wù)基礎(chǔ)設(shè)施、監(jiān)控工具均需要高昂的開銷。在多數(shù)領(lǐng)域,AI驅(qū)動(dòng)的生產(chǎn)力仍未實(shí)現(xiàn)規(guī)模效應(yīng),如何解決數(shù)據(jù)基礎(chǔ)設(shè)施的自動(dòng)化。
Only a small fraction of real-world ML systems is composed of the ML code, as shown by the smallblack box in the middle. The required surrounding infrastructure is vast and complex.
從今年的大數(shù)據(jù)平臺(tái)和工具市場(chǎng)來(lái)看,越來(lái)越多的構(gòu)建AI解決方案工具,從AI建模、AI算法框架的工具,逐步演化為面向數(shù)據(jù)開發(fā)、流程調(diào)度、A/B實(shí)驗(yàn)、數(shù)據(jù)分析、服務(wù)管理等工具,從而實(shí)現(xiàn)AI驅(qū)動(dòng)的數(shù)據(jù)基礎(chǔ)設(shè)施。這種趨勢(shì)意味著過(guò)去專業(yè)的數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師與開發(fā)人員合作實(shí)現(xiàn)AI解決方案,逐漸轉(zhuǎn)變?yōu)殚_發(fā)者可以通過(guò)AI驅(qū)動(dòng)的數(shù)據(jù)基礎(chǔ)設(shè)施(如開發(fā)測(cè)試工具、建模工具、分析工具等),獨(dú)立實(shí)現(xiàn)AI應(yīng)用的開發(fā)過(guò)程;而數(shù)據(jù)科學(xué)家更專注于算法本身的構(gòu)建及優(yōu)化。
4.面向AI的分布式計(jì)算框架
隨著AI成為科技領(lǐng)域的寵兒,以及機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,對(duì)于面向AI的分布式計(jì)算系統(tǒng)的需求變得更加迫切。一種激進(jìn)的聲音是Hadoop/Spark已死,市場(chǎng)需要性能更好、擴(kuò)展性更強(qiáng)、更適應(yīng)AI時(shí)代的計(jì)算引擎解決方案。但這種論調(diào)看看也就罷了。Hadoop/Spark陣營(yíng)的開源分布式社區(qū)已成為大數(shù)據(jù)處理的事實(shí)標(biāo)準(zhǔn),在行業(yè)中的應(yīng)用也在不斷深化,各類商業(yè)化版本也在為滿足更多的行業(yè)解決方案而迭代。不過(guò),由于Hadoop/Spark設(shè)計(jì)的初衷并不是為了構(gòu)建AI應(yīng)用,在性能、任務(wù)并行、任務(wù)狀態(tài)可變、異構(gòu)計(jì)算(如GPU與CPU)等方面均有一定的問(wèn)題和瓶頸。
目前開源社區(qū)已經(jīng)有一些面向AI的分布式計(jì)算框架,比如UC Berkeley的Ray項(xiàng)目。與MapReduce和Spark這類并行跑批處理架構(gòu)不同,AI分布式架構(gòu)要求支持更細(xì)細(xì)粒度任務(wù)依賴,比如小數(shù)據(jù)量訓(xùn)練、靈活任務(wù)依賴、以及異構(gòu)計(jì)算的優(yōu)化。而大數(shù)據(jù)商業(yè)化公司、Hadoop發(fā)行版廠商如Cloudera(現(xiàn)已于Hortonworks合并),也勢(shì)必在AI和機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域進(jìn)行產(chǎn)品調(diào)整和重構(gòu),以提供更多的基于云端的AI解決方案。
5.數(shù)據(jù)安全即服務(wù)
安全與隱私保護(hù)是這兩年提及較多的關(guān)鍵詞,尤其在GDPR(General Data Protection Regulation)發(fā)布之后,敏感信息約束和數(shù)據(jù)安全檢查成為互聯(lián)網(wǎng)、移動(dòng)端的用戶數(shù)據(jù)管控的難點(diǎn)。在過(guò)去,數(shù)據(jù)安全管理在很多企業(yè)搭建大數(shù)據(jù)平臺(tái)和應(yīng)用時(shí)容易忽視的點(diǎn),如安全定級(jí)、隱私分級(jí)、數(shù)據(jù)打標(biāo)、加密與脫敏、自動(dòng)化訪問(wèn)授權(quán)等。
在未來(lái)一到兩年,企業(yè)將越來(lái)越重視數(shù)據(jù)安全管理的應(yīng)用,在信息安全上的投資預(yù)算增長(zhǎng)迅速。Gartner曾預(yù)測(cè)在2019年全球企業(yè)在信息安全產(chǎn)品及服務(wù)上的投資將達(dá)到1240億美元,同比增8.7%。這個(gè)數(shù)字我認(rèn)為略顯保守,低估了數(shù)據(jù)安全和隱私保護(hù)領(lǐng)域應(yīng)用前景。事實(shí)上在2017-2018年,國(guó)內(nèi)大數(shù)據(jù)市場(chǎng)已經(jīng)出現(xiàn)了不少專注于數(shù)據(jù)安全領(lǐng)域的供應(yīng)商,提供隱私訪問(wèn)控制、數(shù)據(jù)加密脫敏、信息風(fēng)險(xiǎn)監(jiān)測(cè)、數(shù)據(jù)沙箱等產(chǎn)品應(yīng)用。這一領(lǐng)域的賽道目前規(guī)模還不大、市場(chǎng)比較分散,細(xì)分領(lǐng)域的廠商多以客戶本地化部署為主。隨著DevSecOps(開發(fā)、安全與運(yùn)維)和大數(shù)據(jù)安全分析平臺(tái)等理念逐步被市場(chǎng)所采納,數(shù)據(jù)安全即服務(wù)的云托管服務(wù)將更為普及,而基于機(jī)器學(xué)習(xí)的數(shù)據(jù)安全預(yù)測(cè)和分析引擎也將出現(xiàn),應(yīng)用于數(shù)據(jù)加密、脫敏、打標(biāo)、事件分析、惡意文件檢測(cè)、SIEM系統(tǒng)等領(lǐng)域。
關(guān)注微信公眾號(hào):程序員交流互動(dòng)平臺(tái)!獲取資料學(xué)習(xí)!
數(shù)據(jù)技術(shù)與應(yīng)用發(fā)展趨勢(shì):數(shù)據(jù)資產(chǎn)管理、增強(qiáng)分析、智能化數(shù)據(jù)基礎(chǔ)設(shè)施、面向AI的分布式框架、數(shù)據(jù)安全即服務(wù)。
聯(lián)系客服