一、大數(shù)據(jù)是什么?
大數(shù)據(jù)的誕生和發(fā)展:
2005,google,GFS(google file system),后來成為了HDFS的前身。
2006,google,MapReduce。
2007,google,Apache基金會(huì)用于創(chuàng)建Hadoop的開源社區(qū)。
2007,google,BigTable,HBase分布式數(shù)據(jù)庫。
2009,Spark。
大數(shù)據(jù)的工作:
1.數(shù)據(jù)獲取:爬蟲,數(shù)據(jù)接口獲取,傳感,開源數(shù)據(jù)(UCI)
2.數(shù)據(jù)存儲(chǔ):HDFS、Hbase、HIVE
3.數(shù)據(jù)分析:MapReduce離線計(jì)算引擎,Spark內(nèi)存計(jì)算引擎……
4.數(shù)據(jù)挖掘:機(jī)器學(xué)習(xí)算法
大數(shù)據(jù)的工作內(nèi)容:
1.大數(shù)據(jù)是一個(gè)綜合概念,其中涉及到的第一步就是數(shù)據(jù)的獲取。
2.數(shù)據(jù)獲取之后,下一步就是需要進(jìn)行數(shù)據(jù)的處理和存儲(chǔ)。將各種各樣的數(shù)據(jù)進(jìn)行格式化操作,并且最終存儲(chǔ)到本地,進(jìn)行分析和留存。
3.在有了大量可靠的數(shù)據(jù)源之后,下一步需求針對(duì)數(shù)據(jù)進(jìn)行分析操作,通過分析可以獲知所需要的各種信息。
4.如果需要做到機(jī)器學(xué)習(xí)或者進(jìn)一步獲取數(shù)據(jù)信息,就需要做數(shù)據(jù)挖掘的工作。
二, 數(shù)據(jù)分析是什么?數(shù)據(jù)挖掘是什么?
數(shù)據(jù)分析和數(shù)據(jù)挖掘都是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)、所以我們稱數(shù)據(jù)分析和數(shù)據(jù)挖掘叫做數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),嚴(yán)格意義上來講,數(shù)據(jù)挖掘才是真正意義上的數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)。其簡稱為KDD。
數(shù)據(jù)分析是從數(shù)據(jù)庫中通過統(tǒng)計(jì)、計(jì)算、抽樣等相關(guān)的方法,獲取基于數(shù)據(jù)庫的數(shù)據(jù)表象的知識(shí),也就是指數(shù)據(jù)分析是從數(shù)據(jù)庫里面得到一些表象性的信息。
數(shù)據(jù)挖掘是從數(shù)據(jù)庫中,通過機(jī)器學(xué)習(xí)或者是通過數(shù)學(xué)算法等相關(guān)的方法獲取深層次的知識(shí)(比如屬性之間的規(guī)律性,或者是預(yù)測)的技術(shù)。
所以,僅僅只依靠于數(shù)據(jù)分析,我們只能獲取到一些表象性的信息,但是通過數(shù)據(jù)挖掘我們可以獲取到很多相關(guān)的深層次的規(guī)律或者是一些預(yù)測性的信息。
數(shù)據(jù)挖掘的特點(diǎn):
1.數(shù)據(jù)集大:只有數(shù)據(jù)集越大,得到的規(guī)律才能越貼近于正確的實(shí)際的規(guī)律,結(jié)果也才越準(zhǔn)確。
2.不完整性:數(shù)據(jù)挖掘使用的數(shù)據(jù),往往都是不完整的。
3.不準(zhǔn)確性:又叫做噪聲數(shù)據(jù),在商業(yè)中用戶可能會(huì)提供假數(shù)據(jù),那么在工廠環(huán)境中或者是其他條件比較艱苦的環(huán)境里,那么正常的數(shù)據(jù)往往會(huì)收到電磁或者是輻射干擾,那么這個(gè)時(shí)候,數(shù)據(jù)就會(huì)出現(xiàn)超出正常值的情況。那么這些不正常的絕對(duì)不可能出現(xiàn)的數(shù)據(jù),就叫做噪聲,但是噪聲需要和離群點(diǎn)分辨開。離群點(diǎn)指的是偏離了普遍規(guī)律的數(shù)據(jù)樣本,它可能和基礎(chǔ)規(guī)律相差很大,但是我們并不能說這個(gè)樣本是一個(gè)噪聲數(shù)據(jù)。比如,100歲的老人,買電腦,雖然這個(gè)情況基本不可能看的到,但是這個(gè)情況仍然是可能出現(xiàn)的。所以我們無法認(rèn)為其是一個(gè)噪聲假數(shù)據(jù)。所以我們稱之為這個(gè)100歲老人的樣本是一個(gè)離群點(diǎn)。
4.模糊的:模糊的可以和不準(zhǔn)確性相關(guān)聯(lián)。由于數(shù)據(jù)不準(zhǔn)確,所以我們只能在大體上對(duì)數(shù)據(jù)進(jìn)行一個(gè)整體的觀察。或者我們可以解釋為由于涉及到隱私信息,無法獲知到具體的一些用戶的內(nèi)容,那么這個(gè)時(shí)候,我們?nèi)绻胍鱿嚓P(guān)的分析操作,就只能在大體上做一些分析。無法精確進(jìn)行判斷。
5.隨機(jī)性:隨機(jī)性有兩個(gè)解釋,一個(gè)是獲取的數(shù)據(jù)隨機(jī),我們無法得知用戶填寫的到底是什么內(nèi)容。第二個(gè)是分析結(jié)果隨機(jī)。數(shù)據(jù)交給機(jī)器進(jìn)行判斷和學(xué)習(xí),那么一切的操作都屬于是灰箱操作。
數(shù)據(jù)挖掘的基本步驟:
數(shù)據(jù)輸入:輸入要挖掘的數(shù)據(jù)
數(shù)據(jù)轉(zhuǎn)換:做數(shù)據(jù)預(yù)處理的步驟,通過了數(shù)據(jù)轉(zhuǎn)換之后,數(shù)據(jù)就是一個(gè)可用的,無冗余的、完整的、統(tǒng)一的、精確的數(shù)據(jù)集。
(1)數(shù)據(jù)清理:對(duì)噪聲數(shù)據(jù)和不一致的數(shù)據(jù)做清除操作。或者是對(duì)重復(fù)數(shù)據(jù)做刪除,或者是對(duì)缺失數(shù)據(jù)做填充(眾數(shù)、中位數(shù)、自己判斷)。
(2)數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源的數(shù)據(jù)做整合。
(3)數(shù)據(jù)選擇:選擇需要的數(shù)據(jù)做挖掘。比如一個(gè)人買不買電腦和他叫什么沒什么關(guān)系,所以就不需要輸入到機(jī)器中進(jìn)行分析。
(4)數(shù)據(jù)變換:不同的數(shù)據(jù)被通過數(shù)據(jù)集成集成到一起的時(shí)候,就會(huì)出現(xiàn)一個(gè)問題,叫做實(shí)體識(shí)別問題。那么數(shù)據(jù)變換除了解決實(shí)體識(shí)別問題以外,還需要統(tǒng)一不同的數(shù)據(jù)庫的數(shù)據(jù)的格式。
數(shù)據(jù)挖掘:通過數(shù)學(xué)算法對(duì)數(shù)據(jù)進(jìn)行分析,得到數(shù)據(jù)之間的規(guī)律,或者是我們所需要的知識(shí)。
模型評(píng)估:判斷機(jī)器得到的模型是否是可用的,比如一個(gè)機(jī)器學(xué)習(xí)之后得到一個(gè)模型,該模型預(yù)測的準(zhǔn)確率為10%,那么就不可用。所以模型評(píng)估很大一部分是在判斷機(jī)器學(xué)習(xí)得到的知識(shí)是否是準(zhǔn)確的,可用的。
數(shù)據(jù)輸出:將結(jié)果數(shù)據(jù)輸出,并且將得到的知識(shí)表示出來,對(duì)應(yīng)了知識(shí)表示。
數(shù)據(jù)在進(jìn)行挖掘時(shí),我們往往都是通過某些屬性得以判斷某個(gè)結(jié)果,比如一個(gè)患者得了感冒、發(fā)燒、咳嗽、那么我們可以判斷其得了肺炎,這個(gè)時(shí)候,我們是通過感冒、發(fā)燒、咳嗽三個(gè)屬性分析得出是否得肺炎,那么前三個(gè)屬性就是我們分析所需要的屬性。通過對(duì)某些屬性的分析我們就可以得到某一些結(jié)果。這就是數(shù)據(jù)挖掘的基本規(guī)律。
聯(lián)系客服