2001年,Gartner給出了大數(shù)據(jù)的概念,即大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。這其中點出了大數(shù)據(jù)關(guān)鍵的3V特征,即海量、速度和多樣性,也很明確的為我們指出了大數(shù)據(jù)在哪些方面存在挑戰(zhàn)。但是,16年過去了,現(xiàn)在大數(shù)據(jù)發(fā)展仍然沒有達(dá)到邊界,還是一個充滿想象力的領(lǐng)域。
因為數(shù)據(jù)的存在,讓很多新的行業(yè)煥發(fā)出了無限的價值,社交媒體網(wǎng)站可能就是一個典型的例子。對于企業(yè)來說,目前的主要問題就是如何使用收集來的數(shù)據(jù)創(chuàng)造價值。為此,Dzone社區(qū)調(diào)查了734個和大數(shù)據(jù)相關(guān)的技術(shù)人員,下面我們就來看看有哪些有趣的結(jié)論。
開源仍然是大趨勢
開源是整個IT技術(shù)的大趨勢,在大數(shù)據(jù)領(lǐng)域也不例外。據(jù)Dzone的相關(guān)調(diào)查,71% 的受訪者都在使用開源工具進(jìn)行數(shù)據(jù)科學(xué)的相關(guān)工作,只有16%的人在使用商業(yè)工具。開源工具在個人開發(fā)項目和企業(yè)應(yīng)用程序中得到了快速應(yīng)用。
2016年曝光度最高的開源工具Spark,今年的采用率從去年的31%增長到了45%。而今年曝光率最高的開源工具,TensorFlow絕對算得上一號,自谷歌一年半之前發(fā)布以來TensorFlow的采用率已經(jīng)達(dá)到17%。
開源工具的出現(xiàn)讓大數(shù)據(jù)的應(yīng)用推進(jìn)的更快,如果不能快速適應(yīng)上手新的開源工具,那么關(guān)于數(shù)據(jù)科學(xué)的相關(guān)工具就無法開展。
Apache Hadoop仍然是領(lǐng)頭羊
前幾天,有的專家在預(yù)測數(shù)據(jù)庫未來發(fā)展趨勢時,提出了一個觀點那就是“Hadoop將死”,但是通過具體的數(shù)據(jù),我們發(fā)現(xiàn)Apache Hadoop現(xiàn)在仍然有實力強(qiáng)勁。65%的數(shù)據(jù)工程師都正在使用或者曾經(jīng)使用過Apache Hadoop。47%的技術(shù)人員使用Yarn進(jìn)行集群管理。62%使用Apache ZooKeeper,55%使用Hive來做數(shù)據(jù)倉儲。
得益于MapReduce處理和存儲數(shù)據(jù)的能力,自2011年發(fā)布以來,Apache Hadoop就一直呈現(xiàn)著高速發(fā)展的趨勢,現(xiàn)在廣受歡迎的眾多先進(jìn)工具都是建立在Hadoop之上。對于開發(fā)者和數(shù)據(jù)科學(xué)家來說,Hadoop是一盞明燈,有助于他們在未來職業(yè)中的晉升。
當(dāng)然,為了克服MapReduce的局限性,Apache Spark應(yīng)運而生,同時還衍生出一些其他的新技術(shù),例如 Spark SQL、GraphX、 MLib和 Spark Stream等等。
數(shù)據(jù)庫的發(fā)展
關(guān)于數(shù)據(jù)庫的發(fā)展,今年并沒有大格局的變化。據(jù)Dzone的調(diào)查,MySQL被60%的受訪者應(yīng)用于生產(chǎn)和非生產(chǎn)的環(huán)境中。MongoDB被47%的受訪者應(yīng)用于生產(chǎn)環(huán)境中,48%應(yīng)用于非生產(chǎn)環(huán)境中,PostgreSQL被41%的受訪者應(yīng)用于生產(chǎn)環(huán)境中和40%應(yīng)用于非生產(chǎn)環(huán)境中。
而商業(yè)數(shù)據(jù)庫可能是由于許可證的問題,似乎并不如開源數(shù)據(jù)庫那么受歡迎。而其他一些數(shù)據(jù)庫,例如SQLite這樣輕量級的數(shù)據(jù)庫也會占據(jù)一定的份額。但是NoSQL數(shù)據(jù)庫的發(fā)展則越來越穩(wěn)健,有56%的數(shù)據(jù)科學(xué)從業(yè)人員選擇使用NoSQL。
編程語言、工具、庫和框架
數(shù)據(jù)科學(xué)其實很大程度上都依賴開源的編程語言、工具、庫和框架。就編程語言來說,Python和R都是數(shù)據(jù)科學(xué)的熱門語言。相比較于R語言來說,Python可能更受歡迎一些,其在受訪者中獲得了63%的支持,而R語言則獲得了61%的支持。
而對于框架來說,Spark Stream在流數(shù)據(jù)計算框架中頗受歡迎,在數(shù)據(jù)采集過程中Kafka得到了54%的支持。剩余其它的一些框架則沒有得到超過25%的支持率,不過,這其中還有一匹黑馬,那就是GraphX,其在迭代圖處理類別中獲得了24%的支持率。