發(fā)布時(shí)間:2018-07-31已幫助: 97 人來(lái)源:廣州兄弟連學(xué)校
世界包含的多得難以想象的數(shù)字化信息變得更多更快……從商業(yè)到科學(xué),從政府到藝術(shù),這種影響無(wú)處不在??茖W(xué)家和計(jì)算機(jī)工程師們給這種現(xiàn)象創(chuàng)造了一個(gè)新名詞:“大數(shù)據(jù)”。大數(shù)據(jù)時(shí)代什么意思?大數(shù)據(jù)概念什么意思?大數(shù)據(jù)分析什么意思?所謂大數(shù)據(jù),他的來(lái)源在哪里,講了那么多,那么數(shù)據(jù)挖掘是什么呢?以下是小編為你整理的從事大數(shù)據(jù)需要學(xué)什么
大數(shù)據(jù)下的數(shù)據(jù)挖掘
數(shù)據(jù)挖掘:在大型數(shù)據(jù)庫(kù)中,通過(guò)分析發(fā)現(xiàn)有用信息的過(guò)程。在前篇文章中說(shuō)到大數(shù)據(jù)的存儲(chǔ)等問(wèn)題,面臨新的數(shù)據(jù)集帶來(lái)的問(wèn)題時(shí),傳統(tǒng)的數(shù)據(jù)分析技術(shù)往往會(huì)遇到很多實(shí)際困難。下面我們來(lái)說(shuō)一下具體的問(wèn)題。
可伸縮:如果數(shù)據(jù)挖掘算法要處理海量數(shù)據(jù)集,則算法必須是可伸縮的(scalable)許多的數(shù)據(jù)挖掘算法使用特殊的搜索策略處理指數(shù)級(jí)搜索問(wèn)題。為實(shí)現(xiàn)可伸縮可能還需要實(shí)現(xiàn)新的數(shù)據(jù)結(jié)構(gòu),才能有效的訪(fǎng)問(wèn)每個(gè)記錄。
高維性:現(xiàn)在,常常遇到具有成敗上千屬性的數(shù)據(jù)集,而不是幾十年前的只具備少量屬性的數(shù)據(jù)集。
異種數(shù)據(jù)和復(fù)雜數(shù)據(jù):通常情況下,傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類(lèi)型屬性的數(shù)據(jù)集,或者是連續(xù)的,或者是分類(lèi)的。 隨著數(shù)據(jù)挖掘在商務(wù)、科學(xué)、醫(yī)學(xué)和其他領(lǐng)域的作用越來(lái)越大,越來(lái)越需要處理異種屬性的技術(shù)。近年來(lái),已經(jīng)出現(xiàn)了更復(fù)雜的數(shù)據(jù)對(duì)象。這些非傳統(tǒng)的數(shù)據(jù)類(lèi)型的 例子有:含有半結(jié)構(gòu)話(huà)文本和超鏈接的Web葉面集、具有序列和三維結(jié)構(gòu)的DNA數(shù)據(jù)、包含地球表面不同位置上的時(shí)間序列測(cè)量值的氣象數(shù)據(jù)等等。
數(shù)據(jù)的所有權(quán)與分布:有時(shí),需要分析的數(shù)據(jù)并非存放在一個(gè)站點(diǎn),或者歸屬一個(gè)機(jī)構(gòu),而是地理上分布在屬于多個(gè)機(jī)構(gòu)的資 源中。這就需要開(kāi)發(fā)分布式數(shù)據(jù)挖掘技術(shù)。分布式數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包括:(1)如何降低執(zhí)行分布式計(jì)算的通信量?(2)如何有效的同意從多個(gè)資源 得到的數(shù)據(jù)挖掘結(jié)果?(3)如何處理數(shù)據(jù)安全性問(wèn)題?
非傳統(tǒng)的分析:傳統(tǒng)的統(tǒng)計(jì)方法基于一種假設(shè)——檢驗(yàn)?zāi)J?,即提出一種假設(shè),設(shè)計(jì)實(shí)驗(yàn)來(lái)收集數(shù)據(jù),然后針對(duì)假設(shè)來(lái)進(jìn)行分析數(shù)據(jù)。但是,這一過(guò)程勞力費(fèi)神。當(dāng)前的數(shù)據(jù)分析人物常常需要產(chǎn)生和評(píng)估數(shù)千鐘假設(shè),因此需要自動(dòng)地產(chǎn)生和評(píng)估假設(shè),這促使人們開(kāi)發(fā)了一些數(shù)據(jù)挖掘技術(shù)。
大數(shù)據(jù)遭受異常流量攻擊
大數(shù)據(jù)所存儲(chǔ)的數(shù)據(jù)非常巨大,往往采用分布式的方式進(jìn)行存儲(chǔ),而正是由于這種存儲(chǔ)方式,存儲(chǔ)的路徑視圖相對(duì)清晰,而數(shù)據(jù)量過(guò)大,導(dǎo)致數(shù)據(jù)保護(hù),相對(duì)簡(jiǎn)單,黑客較為輕易利用相關(guān)漏洞,實(shí)施不法操作,造成安全問(wèn)題。由于大數(shù)據(jù)環(huán)境下終端用戶(hù)非常多,且受眾類(lèi)型較多,對(duì)客戶(hù)身份的認(rèn)證環(huán)節(jié)需要耗費(fèi)大量處理能力。 由于APT攻擊具有很強(qiáng)的針對(duì)性,且攻擊時(shí)間長(zhǎng),一旦攻擊成功,大數(shù)據(jù)分析平臺(tái)輸出的最終數(shù)據(jù)均會(huì)被獲取,容易造成的較大的信息安全隱患。
在對(duì)大數(shù)據(jù)進(jìn)行數(shù)據(jù)采集和信息挖掘的時(shí)候,要注重用戶(hù)隱私數(shù)據(jù)的安全問(wèn)題,在不泄露用戶(hù)隱私數(shù)據(jù)的前提下進(jìn)行數(shù)據(jù)挖掘。需要考慮的是在分布計(jì)算的信息傳輸和數(shù)據(jù)交換時(shí)保證各個(gè)存儲(chǔ)點(diǎn)內(nèi)的用戶(hù)隱私數(shù)據(jù)不被非法泄露和使用是當(dāng)前大數(shù)據(jù)背景下信息安全的主要問(wèn)題。同時(shí),當(dāng)前的大數(shù)據(jù)數(shù)據(jù)量并不是固定的,而是在應(yīng)用過(guò)程中動(dòng)態(tài)增加的,但是,傳統(tǒng)的數(shù)據(jù)隱私保護(hù)技術(shù)大多是針對(duì)靜態(tài)數(shù)據(jù)的,所以,如何有效地應(yīng)對(duì)大數(shù)據(jù)動(dòng)態(tài)數(shù)據(jù)屬性和表現(xiàn)形式的數(shù)據(jù)隱私保護(hù)也是要注重的安全問(wèn)題。最后,大數(shù)據(jù)的數(shù)據(jù)遠(yuǎn)比傳統(tǒng)數(shù)據(jù)復(fù)雜,現(xiàn)有的敏感數(shù)據(jù)的隱私保護(hù)是否能夠滿(mǎn)足大數(shù)據(jù)復(fù)雜的數(shù)據(jù)信息也是應(yīng)該考慮的安全問(wèn)題。
大數(shù)據(jù)的數(shù)據(jù)類(lèi)型和數(shù)據(jù)結(jié)構(gòu)是傳統(tǒng)數(shù)據(jù)不能比擬的,在大數(shù)據(jù)的存儲(chǔ)平臺(tái)上,數(shù)據(jù)量是非線(xiàn)性甚至是指數(shù)級(jí)的速度增長(zhǎng)的,各種類(lèi)型和各種結(jié)構(gòu)的數(shù)據(jù)進(jìn)行數(shù)據(jù)存儲(chǔ),勢(shì)必會(huì)引發(fā)多種應(yīng)用進(jìn)程的并發(fā)且頻繁無(wú)序的運(yùn)行,極易造成數(shù)據(jù)存儲(chǔ)錯(cuò)位和數(shù)據(jù)管理混亂,為大數(shù)據(jù)存儲(chǔ)和后期的處理帶來(lái)安全隱患。當(dāng)前的數(shù)據(jù)存儲(chǔ)管理系統(tǒng),能否滿(mǎn)足大數(shù)據(jù)背景下的海量數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)需求,還有待考驗(yàn)。不過(guò),如果數(shù)據(jù)管理系統(tǒng)沒(méi)有相應(yīng)的安全機(jī)制升級(jí),出現(xiàn)問(wèn)題后則為時(shí)已晚。
DBA在大數(shù)據(jù)時(shí)代的發(fā)展前景
成為一個(gè)DBA表面上“僅”需要SQL語(yǔ)言和數(shù)據(jù)庫(kù)基礎(chǔ)管理的知識(shí),所以造成了從業(yè)者良莠不齊,舉一個(gè)極端的例子,我有一個(gè)留級(jí)兩年的同學(xué)勉強(qiáng)拿到畢業(yè)證后就從事了DBA。然而理論跟實(shí)際相差甚遠(yuǎn),模擬的環(huán)境根本達(dá)不到線(xiàn)上要求的多用戶(hù)、高并發(fā)等壓力,僅在課堂上和自學(xué)是不能成為一個(gè)合格的DBA的,合格的DBA必須在企業(yè)中的實(shí)戰(zhàn)中走出來(lái)。一個(gè)合格的DBA必須掌握Linux基本命令和操作、數(shù)據(jù)庫(kù)備份和恢復(fù)、SQL優(yōu)化、數(shù)據(jù)庫(kù)性能優(yōu)化和至少一門(mén)腳本語(yǔ)言(如Python)。
移動(dòng)互聯(lián)網(wǎng)時(shí)代雨后春筍般誕生的創(chuàng)業(yè)公司給人一種DBA的角色性變?nèi)醯腻e(cuò)覺(jué),其實(shí)任何IT公司做大后都離不開(kāi)DBA這個(gè)崗位。DBA的發(fā)展前景一直很不錯(cuò),尤其在大數(shù)據(jù)的時(shí)代里,原本就一直存在的性能問(wèn)題和安全問(wèn)題會(huì)更加突出,這意味著企業(yè)對(duì)DBA人才的需求會(huì)越來(lái)越旺盛,同時(shí)這也意味著DBA會(huì)面臨比以往更多樣化的困難和更嚴(yán)峻的挑戰(zhàn)。加上近年來(lái)的大規(guī)模集群和自動(dòng)化運(yùn)維,很多以前手工維護(hù)的工作現(xiàn)在都可以通過(guò)一系列自動(dòng)工具來(lái)完成,盡管讓只 會(huì)增刪改查的DBA看到了自己的可替代性,但也給對(duì)技術(shù)精益求精的DBA節(jié)約出了鉆研新技術(shù)和新知識(shí)的時(shí)間,使他們更加專(zhuān)注于解決所前所未有的困難。
大數(shù)據(jù)時(shí)代是一個(gè)以數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,數(shù)據(jù)就是企業(yè)的生命,掌握公司命脈的DBA的崗位越來(lái)越重要,作用也越來(lái)越顯著,待遇也越來(lái)越豐厚,發(fā)展前景也越來(lái)越明朗。
大數(shù)據(jù)的應(yīng)用范圍
大數(shù)據(jù)的應(yīng)用現(xiàn)在在這領(lǐng)域是最廣為人知的。重點(diǎn)是怎樣應(yīng)用大數(shù)據(jù)更好的了解客戶(hù)以及他們的喜好和行為。企業(yè)極度喜歡搜集社交方面的數(shù)據(jù)、瀏覽器的日志、剖析出文本和傳感器的數(shù)據(jù),為了更加全面的了解客戶(hù)。在通常情況下,創(chuàng)建出數(shù)據(jù)模型進(jìn)行預(yù)測(cè)。好比美國(guó)的著名零售商Target就是通過(guò)大數(shù)據(jù)的剖析,獲得有價(jià)值的信息,精準(zhǔn)得預(yù)測(cè)到客戶(hù)在什么時(shí)間想要小孩。另外,通過(guò)大數(shù)據(jù)的應(yīng)用,電信公司可以更好預(yù)測(cè)出流失的客戶(hù),沃爾瑪則更加精準(zhǔn)的預(yù)測(cè)哪個(gè)產(chǎn)品會(huì)大賣(mài),汽車(chē)保險(xiǎn)行業(yè)會(huì)了解客戶(hù)的需求和駕駛水平,政府也能了解到選民的偏好。
大數(shù)據(jù)也更多的幫助業(yè)務(wù)流程的優(yōu)化??梢酝ㄟ^(guò)利用社交媒體數(shù)據(jù)、網(wǎng)絡(luò)搜索以及天氣預(yù)告挖掘出有價(jià)值的數(shù)據(jù),其中大數(shù)據(jù)的應(yīng)用最廣泛的就是供應(yīng)鏈以及配送路線(xiàn)的優(yōu)化。在這2個(gè)方面,地理定位和無(wú)線(xiàn)電頻率的識(shí)別追蹤貨物和送貨車(chē),利用實(shí)時(shí)交通路線(xiàn)數(shù)據(jù)制訂更加優(yōu)化的路線(xiàn)。人力資源業(yè)務(wù)也通過(guò)大數(shù)據(jù)的剖析來(lái)進(jìn)行改良,這其中就包括了人才招聘的優(yōu)化。
大數(shù)據(jù)不但單只是應(yīng)用于企業(yè)和政府,同樣也適用我們生活當(dāng)中的每個(gè)人。我們可以利用穿著的裝備(如智能手表或者智能手環(huán))生成最新的數(shù)據(jù),這讓我們可以憑據(jù)我們熱量的消耗以及睡眠模式來(lái)進(jìn)行追蹤。而且還利用利用大數(shù)據(jù)剖析來(lái)尋找屬于我們的愛(ài)情,大多數(shù)時(shí)間交友網(wǎng)站就是大數(shù)據(jù)應(yīng)用工具來(lái)幫助需要的人匹配合適的對(duì)象。
大數(shù)據(jù)剖析應(yīng)用的計(jì)算能力可以讓我們能夠在幾分鐘內(nèi)就可以解碼整個(gè)DNA。而且讓我們可以制訂出最新的治療方案。同時(shí)可以更好的去理解和預(yù)測(cè)疾病。就好像人們戴上智能手表等可以形成的數(shù)據(jù)一樣,大數(shù)據(jù)同樣可以幫助病人對(duì)于病情進(jìn)行更好的治療。大數(shù)據(jù)技術(shù)現(xiàn)在已經(jīng)在醫(yī)院應(yīng)用監(jiān)視早產(chǎn)嬰兒和患病嬰兒的情況,通過(guò)記錄和剖析嬰兒的心跳,醫(yī)生針對(duì)嬰兒的身體可能會(huì)出現(xiàn)不適癥狀做出預(yù)測(cè)。這樣可以幫助醫(yī)生更好的救助嬰兒。
以上就是廣州兄弟連it教育小編為您整理從事大數(shù)據(jù)需要學(xué)什么的全部?jī)?nèi)容,更多精彩請(qǐng)進(jìn)入編程學(xué)習(xí)網(wǎng)欄目查看。
聯(lián)系客服