国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
基于Hadoop平臺(tái)的并行數(shù)據(jù)挖掘算法工具-Dodo(轉(zhuǎn))

基于Hadoop平臺(tái)的并行數(shù)據(jù)挖掘算法工具-Dodo(轉(zhuǎn))  

2011-09-16 10:16:25|  分類: hadoop|字號(hào) 訂閱

一 基于云計(jì)算的海量數(shù)據(jù)挖掘 

2008年7 月,《Communications of the ACM》雜志發(fā)表了關(guān)于云計(jì)算的專輯,云計(jì)算因其清晰的商業(yè)模式而受到廣泛關(guān)注,并得到工業(yè)和學(xué)術(shù)界的普遍認(rèn)可。目前工業(yè)界推出的云計(jì)算平臺(tái)有Amazon公司的EC2和S3,Google公司的Google Apps Engine, IBM公司的Blue Cloud,Microsoft公司的Windows Azure, Salesforce公司的Sales Force, VMware公司的vCloud,Apache軟件開源組織的Hadoop等。在國內(nèi),IBM與無錫市共建了云計(jì)算中心,中石化集團(tuán)成功應(yīng)用IBM的云計(jì)算方案建立起一個(gè)企業(yè)云計(jì)算平臺(tái)。阿里巴巴集團(tuán)于2009年初在南京建立電子商務(wù)云計(jì)算中心。 

嚴(yán)格的講,云計(jì)算是一種新穎的商業(yè)計(jì)算模型,它可以將計(jì)算任務(wù)分布在大量互連的計(jì)算機(jī)上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算資源、存儲(chǔ)資源和其他服務(wù)資源。Google公司的云平臺(tái)是最具代表性的云計(jì)算技術(shù)之一,包括四個(gè)方面的主要技術(shù):Google文件系統(tǒng)GFS、并行計(jì)算模型MapReduce、結(jié)構(gòu)化數(shù)據(jù)表BigTable和分布式的鎖管理Chubby?;谝陨霞夹g(shù),云計(jì)算可以為海量數(shù)據(jù)處理和分析提供一種高效的計(jì)算平臺(tái)。簡(jiǎn)單來說,將海量數(shù)據(jù)分解為相同大小、分布存儲(chǔ),然后采用MapReduce模型進(jìn)行并行化編程,這種技術(shù)使Google公司在搜索引擎應(yīng)用中得到了極大的成功。 

然而MapReduce計(jì)算模型適合結(jié)構(gòu)一致的海量數(shù)據(jù),且要求計(jì)算簡(jiǎn)單。對(duì)于大量的數(shù)據(jù)密集型應(yīng)用(如數(shù)據(jù)挖掘任務(wù)),往往涉及到數(shù)據(jù)降維、程序迭代、近似求解等等復(fù)雜的算法,計(jì)算非常困難。因此,基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)成為了工業(yè)界和學(xué)術(shù)界共同關(guān)心的熱點(diǎn)技術(shù)之一。 

分布式計(jì)算是解決海量數(shù)據(jù)挖掘任務(wù),提高海量數(shù)據(jù)挖掘效率的方法之一。目前,分布式數(shù)據(jù)挖掘技術(shù)主要有基于主體(agent)的分布式數(shù)據(jù)挖掘、基于網(wǎng)格的分布式數(shù)據(jù)挖掘、基于云的分布式數(shù)據(jù)挖掘等。海量數(shù)據(jù)挖掘另一個(gè)核心問題是數(shù)據(jù)挖掘算法的并行化。圖1給出基于云計(jì)算的海量數(shù)據(jù)挖掘服務(wù)的層次結(jié)構(gòu)圖。

 


圖1  基于云計(jì)算的海量數(shù)據(jù)挖掘服務(wù)的層次結(jié)構(gòu)圖

中國移動(dòng)研究院從2007年3月份啟動(dòng)“大云”的研發(fā)工作。2008年,中國移動(dòng)研究院已建設(shè)有256個(gè)節(jié)點(diǎn)、1024個(gè)CPU、256TB存儲(chǔ)的云平臺(tái)。中國移動(dòng)“大云”平臺(tái)主要為數(shù)據(jù)挖掘、系統(tǒng)評(píng)估、搜索等應(yīng)用提供計(jì)算服務(wù)。在開源 Hadoop云平臺(tái)上,中科院計(jì)算所研制了并行數(shù)據(jù)挖掘工具平臺(tái)PDMiner。針對(duì)海量數(shù)據(jù),云計(jì)算分別從數(shù)據(jù)挖掘模式和方法等方面進(jìn)行相關(guān)的研究。與此同時(shí),中科院深圳先進(jìn)研究院還研制了一個(gè)分布式數(shù)據(jù)挖掘系統(tǒng)AlphaMiner。

    本文首先討論了海量數(shù)據(jù)挖掘的研究熱點(diǎn);其次基于開放的Hadoop平臺(tái),討論并行數(shù)據(jù)挖掘算法工具箱和數(shù)據(jù)挖掘云的設(shè)計(jì)。

二 技術(shù)熱點(diǎn)

    云 計(jì)算是一種資源利用模式,它能以簡(jiǎn)便的途徑和以按需的方式通過網(wǎng)絡(luò)訪問可配置的計(jì)算資源,快速部署資源。在這種模式中,應(yīng)用、數(shù)據(jù)和資源以服務(wù)的方式通過 網(wǎng)絡(luò)提供給用戶使用。大量的計(jì)算資源組成資源池,用于動(dòng)態(tài)創(chuàng)建高度虛擬化的資源以供用戶使用。但對(duì)于海量數(shù)據(jù)分析任務(wù),云平臺(tái)缺乏針對(duì)海量數(shù)據(jù)挖掘和分析 算法的并行化實(shí)現(xiàn)。因此面向海量數(shù)據(jù)挖掘的新型云計(jì)算模式,主要包括海量數(shù)據(jù)預(yù)處理、適合于云計(jì)算的海量數(shù)據(jù)挖掘并行算法、新型海量數(shù)據(jù)挖掘方法和云計(jì)算 數(shù)據(jù)挖掘工具箱等技術(shù)。

    (1)海量數(shù)據(jù)預(yù)處理。為了適合并行處理,云平臺(tái)應(yīng)可以提供海量數(shù)據(jù)的概念分層組織以及海量數(shù)據(jù)的并行加載;并實(shí)現(xiàn)高維度約減和數(shù)據(jù)稀疏化技術(shù),提高數(shù)據(jù)管理和挖掘的效率。

    (2)適合于云計(jì)算的海量數(shù)據(jù)挖掘并行算法。海量數(shù)據(jù)挖掘的關(guān)鍵問題是數(shù)據(jù)挖掘算法的并行化。而云計(jì)算采用MapReduce 等 新型計(jì)算模型,這意味著現(xiàn)有的數(shù)據(jù)挖掘算法和并行化策略不能直接應(yīng)用于云計(jì)算平臺(tái)下進(jìn)行海量數(shù)據(jù)挖掘,需要進(jìn)行一定的改造。因此需要深入研究數(shù)據(jù)挖掘算法 的并行化策略,繼而實(shí)現(xiàn)高效的云計(jì)算并行海量數(shù)據(jù)挖掘算法。并行海量數(shù)據(jù)挖掘算法包括并行關(guān)聯(lián)規(guī)則算法、并行分類算法和并行聚類算法,用于分類或預(yù)測(cè)模 型、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則、序列模式、依賴關(guān)系或依賴模型、異常和趨勢(shì)發(fā)現(xiàn)等。在此基礎(chǔ)上,針對(duì)海量數(shù)據(jù)挖掘算法的特點(diǎn)對(duì)已有的云計(jì)算模型進(jìn)行優(yōu) 化和擴(kuò)充,使其更適用于海量數(shù)據(jù)挖掘。

    (3)新型海量數(shù)據(jù)挖掘方法。新 型海量數(shù)據(jù)挖掘方法包含面向同構(gòu)數(shù)據(jù)、異構(gòu)數(shù)據(jù)和跨域數(shù)據(jù)的不同的數(shù)據(jù)挖掘新方法。在同構(gòu)海量數(shù)據(jù)挖掘系統(tǒng)中,各個(gè)節(jié)點(diǎn)存儲(chǔ)的數(shù)據(jù)都具有相同的屬性空間。 云平臺(tái)采用集成學(xué)習(xí)的方式來生成最終的全局預(yù)測(cè)模型。并在同構(gòu)節(jié)點(diǎn)的元學(xué)習(xí)基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)挖掘增量學(xué)習(xí)方法,已滿足實(shí)時(shí)要求;在異構(gòu)海量數(shù)據(jù)挖掘系統(tǒng) 中,云平臺(tái)根據(jù)數(shù)據(jù)模態(tài),將數(shù)據(jù)節(jié)點(diǎn)分類,并提供異構(gòu)數(shù)據(jù)相關(guān)性度量和集成機(jī)制。除此之外,由于數(shù)據(jù)挖掘應(yīng)用的特殊性,云平臺(tái)能提供對(duì)海量數(shù)據(jù)遷移挖掘方 法的支撐,以便擴(kuò)充云計(jì)算環(huán)境下數(shù)據(jù)挖掘應(yīng)用的適用范圍,更好地滿足數(shù)據(jù)挖掘終端用戶的需求。

    (4)并行數(shù)據(jù)挖掘工具箱。海量數(shù)據(jù)挖掘應(yīng)用系統(tǒng)開發(fā)前,都會(huì)對(duì)采用的算法進(jìn)行性能的評(píng)估。目前已有的Weka工具箱采用的是單機(jī)算法,不能應(yīng)用在基于云計(jì)算的海量數(shù)據(jù)挖掘應(yīng)用中。Apache組織近年來組織了Mahout開源項(xiàng)目,設(shè)計(jì)用于云平臺(tái)的數(shù)據(jù)挖掘算法。但Mahout項(xiàng)目目前還缺少數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)展示和用戶交互,還不完全適合海量數(shù)據(jù)挖掘并行算法的性能評(píng)估。因此,云平臺(tái)應(yīng)可以提供一個(gè)基于MapReduce計(jì)算模型的并行數(shù)據(jù)挖掘工具箱,用于海量數(shù)據(jù)挖掘并行算法的性能評(píng)估。

    在網(wǎng)格計(jì)算研究中,國際研究者研發(fā)了多個(gè)基于網(wǎng)格的復(fù)雜數(shù)據(jù)分析任務(wù)的服務(wù)系統(tǒng),如Data Mining Grid、Grid Miner等 等。在這些系統(tǒng)中,實(shí)現(xiàn)了復(fù)雜數(shù)據(jù)分析任務(wù)的工作流定義、資源調(diào)度和管理的透明化、具體算法的注冊(cè)和服務(wù)化等。以上部分技術(shù)可以直接遷移到云計(jì)算平臺(tái)上, 但由于云計(jì)算模式和數(shù)據(jù)挖掘服務(wù)的特殊性,仍需在按需服務(wù)、多任務(wù)調(diào)度和分配等技術(shù)上進(jìn)行進(jìn)一步的突破。具體技術(shù)內(nèi)容包括:

    (1)按需服務(wù)的自治計(jì)算模式。 將海量數(shù)據(jù)挖掘任務(wù)的服務(wù)化,設(shè)計(jì)并實(shí)現(xiàn)并行數(shù)據(jù)挖掘軟件自配置、自優(yōu)化、自修復(fù)和自保護(hù)的方法,以及自適應(yīng)用戶需求的數(shù)據(jù)挖掘服務(wù)的自動(dòng)發(fā)現(xiàn)和組合算法。

    (2)多任務(wù)的動(dòng)態(tài)分配機(jī)制。海量數(shù)據(jù)挖掘應(yīng)用往往是數(shù)據(jù)密集,且具有突發(fā)性的特點(diǎn);除此之外,不同的數(shù)據(jù)挖掘應(yīng)用對(duì)算法精度、性能要求也不一致。因此,基于云計(jì)算的海量數(shù)據(jù)挖掘必須優(yōu)化負(fù)載調(diào)節(jié)的策略與任務(wù)遷移策略等。

    (3)數(shù)據(jù)挖掘服務(wù)的動(dòng)態(tài)按需遷移。云 平臺(tái)提供支持海量數(shù)據(jù)挖掘任務(wù)的服務(wù)重定位方法,即當(dāng)一個(gè)服務(wù)器上運(yùn)行中的服務(wù)按需遷移到另一個(gè)服務(wù)器上去時(shí),能同時(shí)有效地為后繼工作流任務(wù)提供可用的資 源空間,并滿足整合服務(wù)器資源的需要。在資源管理和配置中,針對(duì)海量數(shù)據(jù)的大規(guī)模和異構(gòu)等特點(diǎn),運(yùn)用虛擬化技術(shù)進(jìn)行存儲(chǔ)管理,并設(shè)計(jì)一種新型的動(dòng)態(tài)遷移架 構(gòu)。

    (4)復(fù)雜數(shù)據(jù)挖掘任務(wù)服務(wù)平臺(tái)。 在Hadoop等云平臺(tái)上,設(shè)計(jì)支持復(fù)雜數(shù)據(jù)挖掘任務(wù)服務(wù)化的中間件系統(tǒng)。支持復(fù)雜數(shù)據(jù)分析任務(wù)的流定義、復(fù)雜數(shù)據(jù)分析任務(wù)的動(dòng)態(tài)配置、并行算法的注冊(cè)、云平臺(tái)資源的調(diào)度和管理的透明化,最終實(shí)現(xiàn)復(fù)雜數(shù)據(jù)分析任務(wù)的按需服務(wù)。

三 基于Hadoop的并行數(shù)據(jù)挖掘算法工具箱——Dodo

Weka是由新西蘭Waikato大學(xué)研發(fā)的數(shù)據(jù)處理和知識(shí)發(fā)現(xiàn)軟件包。其可以實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、聚類、分類、回歸、特征選擇、可視化等各種數(shù)據(jù)挖掘的任務(wù)。Weka被廣泛用于各種數(shù)據(jù)挖掘任務(wù)中算法的評(píng)估。但其中數(shù)據(jù)挖掘算法的實(shí)現(xiàn)是基于單機(jī)實(shí)現(xiàn)的。與Weka不同的是,Apache組織基于Hadoop平臺(tái)的,采用MapReduce計(jì)算模型,實(shí)現(xiàn)大量機(jī)器學(xué)習(xí)算法的并行化,并將其封裝在Mahout項(xiàng)目。但由于Mahout并不提供一種圖形界面交互,用戶需要大量手工配置數(shù)據(jù)和參數(shù),同時(shí)目前實(shí)現(xiàn)的并行數(shù)據(jù)挖掘算法也不完全。因此有必須借鑒Weka和Mahout的優(yōu)點(diǎn),研發(fā)一個(gè)基于Hadoop的并行數(shù)據(jù)挖掘算法工具箱——Dodo。表1給出三個(gè)工具箱目前的主要異同點(diǎn)。

表1  Weka, Mahout和Dodo主要異同

 

數(shù)據(jù)源

數(shù)據(jù)格式

數(shù)據(jù)存儲(chǔ)

算法

用戶界面

Weka

支持文本文件:包括本地的數(shù)據(jù)文件以及網(wǎng)絡(luò)數(shù)據(jù)文件;

支持?jǐn)?shù)據(jù)庫文件:通過JDBC連接。

標(biāo)準(zhǔn)格式是Arff,行表示實(shí)例,列表示各個(gè)屬性。另外還支持CSV,C45以及BSI。

數(shù)據(jù)文件加載存儲(chǔ)于內(nèi)存之中

在單機(jī)上實(shí)現(xiàn)分類、聚類、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘算法

包括發(fā)現(xiàn)模式的表示,數(shù)據(jù)挖掘原語的操作,界面功能主要包括4個(gè)部分:Simple CLI、Explorer、Experimenter Knowledge Flow

Mahout

僅支持文本文件

每個(gè)算法自己根據(jù)算法的情況自己設(shè)定的文件格式

存儲(chǔ)于Hdfs上

基于MapReduce計(jì)算模型,實(shí)現(xiàn)….

命令行交互

Dodo

支持文本文件、網(wǎng)絡(luò)文件和數(shù)據(jù)庫文件

支持Arff等通用標(biāo)準(zhǔn)格式,也支持順序文件,文本文件等格式,并提供預(yù)處理

存儲(chǔ)于Hdfs上

迭代和非迭代類數(shù)據(jù)挖掘算法的MapReduce化

數(shù)據(jù)管理:上傳、刪除、修改。

Hadoop平臺(tái)管理:?jiǎn)?dòng)、關(guān)閉。

算法管理:選擇算法、修改算法參數(shù)。

任務(wù)提交。

任務(wù)進(jìn)度顯示。


圖2  Dodo工具箱運(yùn)行流程 

    在圖2中,如果用戶是首次啟動(dòng)工具箱,需要選擇連接的Hadoop環(huán)境并對(duì)環(huán)境進(jìn)行配置;當(dāng)用戶需要上傳數(shù)據(jù),工具箱以樹形圖的形式,將用戶的數(shù)據(jù)上傳到指定的Hadoop路徑上;如果不是順序數(shù)據(jù),工具箱則將其順序化然后存儲(chǔ);在算法選擇階段,用戶可以選擇工具箱自帶的并行化數(shù)據(jù)挖掘算法,也可以選擇用戶指定的、本地的jar文件;通過工具箱,用戶能對(duì)選擇的算法進(jìn)行設(shè)置,其中包括輸入輸出路徑,算法特定的參數(shù)等等;最后在Hadoop環(huán)境上對(duì)指定輸入路徑上的數(shù)據(jù)運(yùn)行指定的算法,輸出結(jié)果以可視化的方式展示給用戶。

 


圖3  Dodo工具箱模塊結(jié)構(gòu)圖

    圖3中,將Dodo工具箱分為用戶交互層、內(nèi)部實(shí)現(xiàn)層以及Hadoop交互層等三個(gè)層次。用戶交互層主要負(fù)責(zé)結(jié)果展示、算法選擇等需要和用戶進(jìn)行交互的操作;內(nèi)部實(shí)現(xiàn)層是Dodo的核心部分,負(fù)責(zé)與上層和下層進(jìn)行交互,將一些操作進(jìn)行抽象供兩層進(jìn)行調(diào)用;而Hadoop交互層主要是負(fù)責(zé)和Hadoop平臺(tái)進(jìn)行相應(yīng)的操作,進(jìn)行相關(guān)的平臺(tái)配置或者數(shù)據(jù)上傳或讀寫。

四 數(shù)據(jù)挖掘云

不同于其他的企業(yè)應(yīng)用,將數(shù)據(jù)挖掘應(yīng)用服務(wù)化,具備以下4個(gè)非常特殊的特點(diǎn):

(1)簡(jiǎn)單化的工作流。數(shù)據(jù)挖掘應(yīng)用從工作流角度來看,相對(duì)非常簡(jiǎn)單。應(yīng)用中沒有復(fù)雜的流程,也沒有很多不同的角色。但數(shù)據(jù)挖掘應(yīng)用仍然是一個(gè)工作流。因此將其服務(wù)化時(shí),需要提供一個(gè)可視化的工作流編輯、管理界面,云平臺(tái)也要提供對(duì)工作流引擎的監(jiān)控。

(2)豐富的算法選擇。不同于企業(yè)應(yīng)用,在數(shù)據(jù)挖掘應(yīng)用實(shí)現(xiàn)一個(gè)具體的挖掘任務(wù)有很多種算法。在很多情況下,每種算法的性能和效率都有可能不一樣。

(3)結(jié)果的不確定性。數(shù)據(jù)挖掘任務(wù)中,選擇不同的數(shù)據(jù)和算法,將有可能導(dǎo)致不同的計(jì)算結(jié)果。

(4)應(yīng)用的突發(fā)性。很多的數(shù)據(jù)挖掘應(yīng)用的請(qǐng)求會(huì)隨著時(shí)間、空間呈現(xiàn)出突發(fā)性,這對(duì)資源提出了很高的“伸縮性”需求。

從以上特點(diǎn)可以看出,數(shù)據(jù)挖掘服務(wù)是一種真正的按需服務(wù)。用戶可以根據(jù)自己的需求以及付費(fèi)能力選擇適合自己的服務(wù)模式。因此,所謂數(shù)據(jù)挖掘云是指在hadoop平臺(tái)上提供支持復(fù)雜數(shù)據(jù)挖掘任務(wù)的服務(wù)系統(tǒng),此系統(tǒng)能夠提供復(fù)雜數(shù)據(jù)挖掘任務(wù)的工作流定義、資源調(diào)度、算法和工具以web service的方式向外提供服務(wù)。

數(shù)據(jù)挖掘云的結(jié)構(gòu)如圖4所示:

 


圖4 數(shù)據(jù)挖掘云

數(shù)據(jù)挖掘云的最底層是擴(kuò)展云計(jì)算平臺(tái)Hadoop的功能,實(shí)現(xiàn)HDFS數(shù)據(jù)管理、算法管理和資源監(jiān)控,其中算法管理模塊集成了各種基于MapReduce的 工具箱,以向上提供算法服務(wù)。數(shù)據(jù)挖掘云的底層組件中,需要根據(jù)云服務(wù)的自適應(yīng)需求,實(shí)現(xiàn)優(yōu)化的資源分配和任務(wù)調(diào)度。數(shù)據(jù)挖掘云的中間層是數(shù)據(jù)挖掘云高層 服務(wù),包括目錄服務(wù)、效用服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)等核心組件。而最上層是客戶端組件,主要用于與用戶的直接交互。用戶通過友好的可視化界面管理和監(jiān)視任 務(wù)的執(zhí)行,并且很方便地查看任務(wù)執(zhí)行結(jié)果。

在數(shù)據(jù)挖掘云的設(shè)計(jì)中,核心的組件有以下6個(gè):

(1)目錄服務(wù):各種資源都能以目錄的方式展示給用戶,用戶可以方便地展開目錄查看所有可用的資源。

(2)資源分配和任務(wù)調(diào)度服務(wù):把上層生成的執(zhí)行計(jì)劃映射到具體的計(jì)算資源和節(jié)點(diǎn)上,然后進(jìn)行任務(wù)的調(diào)度和執(zhí)行。

(3)數(shù)據(jù)訪問服務(wù):用戶根據(jù)自己的任務(wù),需要查找、上傳或下載所需要的數(shù)據(jù),數(shù)據(jù)訪問服務(wù)為用戶提供了良好的接口讓用戶方便進(jìn)行這些操作。

(4)算法和應(yīng)用訪問服務(wù):用戶在編輯工作流的時(shí)候,需要查找滿足需求的算法和應(yīng)用,算法和應(yīng)用服務(wù)提供了良好的接口讓用戶方便數(shù)據(jù)和應(yīng)用的訪問。

(5)流管理服務(wù):流管理服務(wù)包括工作流的編輯和執(zhí)行,以及用戶對(duì)流的執(zhí)行過程的監(jiān)控和控制,并且在執(zhí)行過程中會(huì)生成相應(yīng)的日志。

(6)結(jié)果展示服務(wù):任務(wù)執(zhí)行完畢以后,用戶需要查看任務(wù)的執(zhí)行結(jié)果,結(jié)果展示可能包含多種方式,圖狀的、表格式的、文本式的等方式。

五 總結(jié)

綜上所述,本文討論了基于云計(jì)算的海量數(shù)據(jù)挖掘的進(jìn)展和主要技術(shù)熱點(diǎn),并分析了基于Hadoop平臺(tái)的數(shù)據(jù)挖掘算法工具箱和數(shù)據(jù)挖掘云的結(jié)構(gòu)。Dodo工具箱主要實(shí)現(xiàn)海量數(shù)據(jù)挖掘算法MapReduce化,以提高對(duì)海量數(shù)據(jù)的處理能力。在工具箱實(shí)現(xiàn)中,強(qiáng)調(diào)與Hadoop平臺(tái)的交互式配置,迭代/非迭代類數(shù)據(jù)挖掘算法的并行化實(shí)現(xiàn)。在數(shù)據(jù)挖掘云服務(wù)中,為使海量數(shù)據(jù)挖掘應(yīng)用服務(wù)化,提供從Hadoop資源分配到目錄服務(wù),再到流管理等一系列的組件服務(wù),繼而提高海量數(shù)據(jù)挖掘軟件的服務(wù)能力。作為能為企業(yè)效益增值的數(shù)據(jù)挖掘應(yīng)用,本質(zhì)上具備了請(qǐng)求突發(fā)、需求多變,結(jié)果依賴于數(shù)據(jù)和算法的特點(diǎn),因此必須進(jìn)一步優(yōu)化云計(jì)算平臺(tái),提高云平臺(tái)對(duì)按需服務(wù)的支撐能力。源自:http://wenku.baidu.com/view/8959ae6ba98271fe910ef952.html

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【趨勢(shì)】智能電網(wǎng)大數(shù)據(jù)處理現(xiàn)狀與挑戰(zhàn)
大數(shù)據(jù)導(dǎo)論
基于云計(jì)算的海量數(shù)據(jù)挖掘
AI研習(xí)丨CAAI副秘書長何清研究員:大數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
網(wǎng)絡(luò)時(shí)代海量數(shù)據(jù)挖掘的關(guān)鍵技術(shù)及應(yīng)用現(xiàn)狀
海量信息下的文本分類研究與優(yōu)化
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服