大數(shù)據(jù)采集系統(tǒng):
用來收集各種各樣的數(shù)據(jù),并且對數(shù)據(jù)進(jìn)提取、轉(zhuǎn)換、加載。
大數(shù)據(jù)采集技術(shù):
對數(shù)據(jù)進(jìn)行ETL操作,通過對數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換、加載,最終挖掘數(shù)據(jù)的潛在價值。然后提供給用戶解決方案或者決策參考。
大數(shù)據(jù)采集系統(tǒng),主要分為三類:
1、系統(tǒng)日志采集系統(tǒng)
對日志數(shù)據(jù)信息進(jìn)行日志采集、收集,然后進(jìn)行數(shù)據(jù)分析,挖掘公司業(yè)務(wù)平臺日志數(shù)據(jù)中的潛在價值。簡言之,收集日志數(shù)據(jù)提供離線和在線的實時分析使用。目前常用的開源日志收集系統(tǒng)為Flume。
2、網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)
通過網(wǎng)絡(luò)爬蟲和一些網(wǎng)站平臺提供的公共API(如Twitter和新浪微博API)等方式從網(wǎng)站上獲取數(shù)據(jù)??梢詫⒎墙Y(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁數(shù)據(jù)從網(wǎng)頁中提取出來,并將其提取、清洗、轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),將其存儲為統(tǒng)一的本地文件數(shù)據(jù)。
目前常用的網(wǎng)頁爬蟲系統(tǒng)有Apache Nutch、Crawler4j、Scrapy等框架。
3、數(shù)據(jù)庫采集系統(tǒng)
通過數(shù)據(jù)庫采集系統(tǒng)直接與企業(yè)業(yè)務(wù)后臺服務(wù)器結(jié)合,將企業(yè)業(yè)務(wù)后臺每時每刻都在產(chǎn)生大量的業(yè)務(wù)記錄寫入到數(shù)據(jù)庫中,最后由特定的處理分許系統(tǒng)進(jìn)行系統(tǒng)分析。
目前常用關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲數(shù)據(jù),Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
好用的大數(shù)據(jù)采集平臺:
1.數(shù)據(jù)超市
一款基于云平臺的大數(shù)據(jù)計算、分析系統(tǒng)。擁有豐富高質(zhì)量的數(shù)據(jù)資源,通過自身渠道資源獲取了百余款擁有版權(quán)的大數(shù)據(jù)資源,所有數(shù)據(jù)都經(jīng)過審核,保證數(shù)據(jù)的高可用性。
2. Rapid Miner
數(shù)據(jù)科學(xué)軟件平臺,為數(shù)據(jù)準(zhǔn)備、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、文本挖掘和預(yù)測分析提供一種集成環(huán)境。
3. Oracle Data Mining
它是Oracle高級分析數(shù)據(jù)庫的代表。市場領(lǐng)先的公司用它最大限度地發(fā)掘數(shù)據(jù)的潛力,做出準(zhǔn)確的預(yù)測。
4. IBM SPSS Modeler
適合大規(guī)模項目。在這個建模器中,文本分析及其最先進(jìn)的可視化界面極具價值。它有助于生成數(shù)據(jù)挖掘算法,基本上不需要編程。
5. KNIME
開源數(shù)據(jù)分析平臺。你可以迅速在其中部署、擴(kuò)展和熟悉數(shù)據(jù)。
6. Python
一種免費的開源語言。
大數(shù)據(jù)平臺:
是指以處理海量數(shù)據(jù)存儲、計算及不間斷流數(shù)據(jù)實時計算等場景為主的一套基礎(chǔ)設(shè)施。既可以采用開源平臺,也可以采用華為、星環(huán)等商業(yè)級解決方案,既可以部署在私有云上,也可以部署在公有云上。
任何完整的大數(shù)據(jù)平臺,一般包括以下的幾個過程:
數(shù)據(jù)采集–>數(shù)據(jù)存儲–>數(shù)據(jù)處理–>數(shù)據(jù)展現(xiàn)(可視化,報表和監(jiān)控)
其中,數(shù)據(jù)采集是所有數(shù)據(jù)系統(tǒng)必不可少的,隨著大數(shù)據(jù)越來越被重視,數(shù)據(jù)采集的挑戰(zhàn)也變的尤為突出。