和云計(jì)算、大數(shù)據(jù)的概念相比,數(shù)據(jù)挖掘和商業(yè)智能的概念早已被學(xué)術(shù)界和工業(yè)界所接受,但由于大數(shù)據(jù)的出現(xiàn),又為它們注入了新的活力,“大數(shù)據(jù)時(shí)代的商業(yè)智能”的概念不斷被業(yè)界所提及,那么它們究竟是什么呢?
先來看一個(gè)例子,Google的Flu Trends(流感趨勢(shì))使用特殊的搜索項(xiàng)作為流感活動(dòng)的指示器。它發(fā)現(xiàn)了搜索流感相關(guān)信息的人數(shù)與實(shí)際具有流感癥狀的人數(shù)之間的緊密聯(lián)系。當(dāng)與流感相關(guān)的所有搜索聚集在一起時(shí),一個(gè)模式就出現(xiàn)了。使用聚集的搜索數(shù)據(jù),Google的Flu Trends可以比傳統(tǒng)的系統(tǒng)早兩周對(duì)流感活動(dòng)做出評(píng)估。這個(gè)例子說明了數(shù)據(jù)挖掘如何把大型數(shù)據(jù)集轉(zhuǎn)化為知識(shí)?,F(xiàn)在,我們可以對(duì)數(shù)據(jù)挖掘做一個(gè)簡(jiǎn)短的定義,數(shù)據(jù)挖掘就是“數(shù)據(jù)→知識(shí)”。
帶著這個(gè)概念,我們來一步一步分析數(shù)據(jù)挖掘的本質(zhì)。數(shù)據(jù)挖掘可以看作是信息技術(shù)自然而然進(jìn)化的結(jié)果。數(shù)據(jù)庫(kù)和數(shù)據(jù)管理產(chǎn)業(yè)的一些關(guān)鍵功能不斷發(fā)展,大量數(shù)據(jù)庫(kù)系統(tǒng)提供的查詢和事務(wù)處理已經(jīng)司空見慣,高級(jí)數(shù)據(jù)分析自然成為下一步。
20世紀(jì)60年代,數(shù)據(jù)庫(kù)和信息技術(shù)已經(jīng)系統(tǒng)地從原始文件處理演變成復(fù)雜的功能強(qiáng)大的數(shù)據(jù)庫(kù)系統(tǒng)。
20世紀(jì)70年代,數(shù)據(jù)庫(kù)從層次型數(shù)據(jù)庫(kù)、網(wǎng)狀數(shù)據(jù)庫(kù)發(fā)展到關(guān)系型數(shù)據(jù)庫(kù),用戶可以通過查詢語(yǔ)言靈活方便地訪問數(shù)據(jù)。
20世紀(jì)80年代中后期,數(shù)據(jù)庫(kù)技術(shù)轉(zhuǎn)向高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)、支持高級(jí)數(shù)據(jù)分析的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘,基于Web的數(shù)據(jù)庫(kù)。
硬件的飛速發(fā)展,導(dǎo)致了功能強(qiáng)大和價(jià)格可以接受的計(jì)算機(jī)、數(shù)據(jù)收集設(shè)備和存儲(chǔ)介質(zhì)大量涌現(xiàn)。這些軟件和硬件的進(jìn)步大大推動(dòng)了數(shù)據(jù)庫(kù)和信息產(chǎn)業(yè)的發(fā)展,也導(dǎo)致了數(shù)據(jù)庫(kù)管理系統(tǒng)分成了兩個(gè)發(fā)展方向:OLTP(聯(lián)機(jī)事務(wù)處理)和OLAP(聯(lián)機(jī)分析處理)。圖1-10展示了數(shù)據(jù)庫(kù)管理系統(tǒng)的發(fā)展過程。
而OLAP的出現(xiàn)也導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)這種數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的出現(xiàn)。數(shù)據(jù)倉(cāng)庫(kù)是一種多個(gè)異構(gòu)數(shù)據(jù)源在單個(gè)站點(diǎn)以統(tǒng)一的模式組織的存儲(chǔ),以支持管理決策。大量的數(shù)據(jù)累積在數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)豐富但數(shù)據(jù)分析工具缺乏,這種情況被描述為“數(shù)據(jù)豐富但信息貧乏”??焖僭鲩L(zhǎng)的“大數(shù)據(jù)”,沒有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。結(jié)果,收集了大量數(shù)據(jù)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)變成了“數(shù)據(jù)墳?zāi)埂薄獛缀醪辉僭L問的數(shù)據(jù)檔案(如歷史訂單)。這樣,重要的決策常常不是基于數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中含有豐富信息的數(shù)據(jù),而是基于決策者的直覺。盡管在開發(fā)專家系統(tǒng)和知識(shí)庫(kù)系統(tǒng)方面已經(jīng)做出很大的努力,但是這種系統(tǒng)通常依賴用戶或領(lǐng)域?qū)<胰斯さ貙⒅R(shí)輸入知識(shí)庫(kù)。不幸的是,這一過程常常有偏差和錯(cuò)誤,并且費(fèi)用高、耗費(fèi)時(shí)間。數(shù)據(jù)和信息之間的鴻溝越來越寬,這就要求必須系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換為“數(shù)據(jù)金塊”。
作為一個(gè)多學(xué)科交叉的領(lǐng)域,數(shù)據(jù)挖掘可以用多種方式定義,例如“從數(shù)據(jù)中挖掘知識(shí)”、“知識(shí)挖掘”等。許多人把數(shù)據(jù)挖掘視為另一個(gè)流行術(shù)語(yǔ)——數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。知識(shí)發(fā)現(xiàn)的過程如圖1-11所示,由以下步驟的迭代序列組成。
(1)數(shù)據(jù)清理:消除噪聲和刪除不一致數(shù)據(jù)。
(2)數(shù)據(jù)集成:多種數(shù)據(jù)源可以組合在一起。
(3)數(shù)據(jù)選擇:從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù)。
(4)數(shù)據(jù)變換:通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式。
(5)數(shù)據(jù)挖掘:基本步驟,使用智能方法提取數(shù)據(jù)模式。
(6)模式評(píng)估:根據(jù)某種興趣度量,識(shí)別代表知識(shí)的真正有趣模式。
(7)知識(shí)表示:使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí)。
目前信息產(chǎn)業(yè)界的一個(gè)流行趨勢(shì)是將數(shù)據(jù)清理和數(shù)據(jù)集成作為數(shù)據(jù)預(yù)處理步驟執(zhí)行,結(jié)果數(shù)據(jù)存放在數(shù)據(jù)倉(cāng)庫(kù)中。步驟1~步驟4都是在為數(shù)據(jù)挖掘準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)挖掘步驟可與用戶或知識(shí)庫(kù)交互,將有趣的模式提供給用戶,或作為新的知識(shí)存放在知識(shí)庫(kù)中。
因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)對(duì)于數(shù)據(jù)挖掘和本書都是一個(gè)比較關(guān)鍵的概念,在這里我們?cè)敿?xì)地來分析一下數(shù)據(jù)倉(cāng)庫(kù)的概念。
按照數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)構(gòu)造方面的領(lǐng)銜設(shè)計(jì)師William H.Inmon的說法,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理者的決策過程。這個(gè)簡(jiǎn)短而又全面的定義指出了數(shù)據(jù)倉(cāng)庫(kù)的主要特征,4個(gè)關(guān)鍵字:面向主題的、集成的、時(shí)變的、非易失的。
面向主題的(subject-oriented):數(shù)據(jù)倉(cāng)庫(kù)圍繞一些重要的主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織。數(shù)據(jù)倉(cāng)庫(kù)關(guān)注決策者的數(shù)據(jù)建模和分析,而不是單位的日常操作和事務(wù)處理。因此數(shù)據(jù)倉(cāng)庫(kù)通常排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。
集成的(integrated):通常,構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將多個(gè)異構(gòu)數(shù)據(jù)源,如關(guān)系型數(shù)據(jù)庫(kù)、一般文件和聯(lián)機(jī)事務(wù)處理記錄集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。
時(shí)變的(time-variant):數(shù)據(jù)倉(cāng)庫(kù)從歷史的角度(例如,過去5~10年)提供信息。數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵結(jié)構(gòu)都隱式地或顯式地包含時(shí)間元素。
非易失的(nonvolatile):數(shù)據(jù)倉(cāng)庫(kù)總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉(cāng)庫(kù)不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。數(shù)據(jù)的易失性在于操作型系統(tǒng)是一次訪問和處理一個(gè)記錄,可以對(duì)操作環(huán)境中的數(shù)據(jù)進(jìn)行更新。但是數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)呈現(xiàn)出非常不同的特性,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常是一次載入和訪問的,但在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中并不進(jìn)行一般意義上的數(shù)據(jù)更新。通常,它只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
操作數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢處理。這種系統(tǒng)稱作聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)。它們涵蓋了單位的大部分日常操作,如購(gòu)物、庫(kù)存、工資等,也被稱作業(yè)務(wù)系統(tǒng)。另一方面,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在數(shù)據(jù)分析和決策方面為用戶提供服務(wù),這種系統(tǒng)稱作聯(lián)機(jī)分析處理(OLAP)系統(tǒng)。
OLTP和OLAP的主要區(qū)別有以下幾個(gè)方面。
用戶和系統(tǒng)的面向性:OLTP是面向客戶的,用于辦事員、客戶和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理。OLAP是面向市場(chǎng)的,用于知識(shí)工人(包括經(jīng)理、主管和分析人員)的數(shù)據(jù)分析。
數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,很難用于決策。OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機(jī)制,并在不同的粒度層上存儲(chǔ)和管理信息。這些特點(diǎn)使得數(shù)據(jù)更容易用于有根據(jù)的決策。
視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而不涉及歷史數(shù)據(jù)或不同單位的數(shù)據(jù)。相比之下,由于單位的演變,OLAP系統(tǒng)常??缭綌?shù)據(jù)庫(kù)模式的多個(gè)版本。OLAP系統(tǒng)還要處理來自不同單位的信息,以及由多個(gè)數(shù)據(jù)庫(kù)集成的信息。由于數(shù)據(jù)量巨大,OLAP系統(tǒng)的數(shù)據(jù)通常也存放在多個(gè)存儲(chǔ)介質(zhì)上。
訪問模式:OLTP系統(tǒng)主要由短的原子事務(wù)組成。這種系統(tǒng)需要并發(fā)控制和恢復(fù)機(jī)制。然而,對(duì)OLAP系統(tǒng)的訪問大部分是只讀操作(由于大部門數(shù)據(jù)倉(cāng)庫(kù)存放歷史數(shù)據(jù),而不是最新數(shù)據(jù)),盡管這其中的許多操作可能是復(fù)雜的查詢。
OLTP和OLAP的其他區(qū)別包括數(shù)據(jù)庫(kù)大小、操作的頻繁程度以及性能度量等。
既然操作數(shù)據(jù)庫(kù)存放了大量數(shù)據(jù),讀者可能奇怪,為什么不直接在這種數(shù)據(jù)庫(kù)上進(jìn)行聯(lián)機(jī)分析處理(OLAP),而是另外花費(fèi)時(shí)間和資源去構(gòu)造分離的數(shù)據(jù)倉(cāng)庫(kù)?。分離的主要原因是有助于提高兩個(gè)系統(tǒng)的性能。操作數(shù)據(jù)庫(kù)是為已知的任務(wù)和負(fù)載設(shè)計(jì)的,例如使用的主鍵索引、檢索特定的記錄、優(yōu)化定制的查詢。另一方面,數(shù)據(jù)倉(cāng)庫(kù)的查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級(jí)的計(jì)算,可能需要特殊的基于多維視圖的數(shù)據(jù)組織、存取方法和實(shí)現(xiàn)方法。在操作數(shù)據(jù)庫(kù)上處理OLAP查詢,可能會(huì)大大降低操作任務(wù)的性能。
此外,操作數(shù)據(jù)庫(kù)支持多事務(wù)的并發(fā)處理,需要并發(fā)控制和恢復(fù)機(jī)制(例如,加鎖和記日志),以確保一致性和事務(wù)的魯棒性。通常,OLAP查詢只需要對(duì)匯總和聚集數(shù)據(jù)記錄進(jìn)行只讀訪問。如果將并發(fā)控制和恢復(fù)機(jī)制用于這種OLAP操作,就會(huì)危害并行事務(wù)的運(yùn)行,從而大大降低OLTP系統(tǒng)的吞吐量。
最后,數(shù)據(jù)倉(cāng)庫(kù)與操作數(shù)據(jù)庫(kù)分離是由于這兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不同。決策支持需要?dú)v史數(shù)據(jù),而操作數(shù)據(jù)庫(kù)一般不維護(hù)歷史數(shù)據(jù)。在這種情況下,操作數(shù)據(jù)庫(kù)中的數(shù)據(jù)盡管很豐富,但對(duì)于決策是遠(yuǎn)非完整的。決策支持需要整合來自異構(gòu)源的數(shù)據(jù)(例如,聚集和匯總),產(chǎn)生高質(zhì)量的、純凈的和集成的數(shù)據(jù)。相比之下,操作數(shù)據(jù)庫(kù)只維護(hù)詳細(xì)的原始數(shù)據(jù)(如事務(wù)),這些數(shù)據(jù)在進(jìn)行分析之前需要整理。由于兩種系統(tǒng)提供大不相同的功能,需要不同類型的數(shù)據(jù),因此需要維護(hù)分離的數(shù)據(jù)庫(kù)。
哪里有數(shù)據(jù),哪里就有數(shù)據(jù)挖掘應(yīng)用,這句話用來形容商業(yè)智能再合適不過了。數(shù)據(jù)倉(cāng)庫(kù)解決了存儲(chǔ)問題,而OLAP技術(shù)提供了挖掘手段,企業(yè)自然而然會(huì)想到將數(shù)據(jù)利用起來,而商業(yè)智能就是最好的途徑。
商業(yè)智能(Business Intelligence,BI)是一個(gè)統(tǒng)稱,指的是用于支持制定業(yè)務(wù)決策的技能、流程、技術(shù)、應(yīng)用和實(shí)踐。商業(yè)智能對(duì)當(dāng)前數(shù)據(jù)或歷史數(shù)據(jù)進(jìn)行分析,在理想情況下輔助決策者制定未來的業(yè)務(wù)決策。商業(yè)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具。商業(yè)智能是對(duì)商業(yè)信息的搜集、管理和分析過程,目的是使企業(yè)的各級(jí)決策者獲得知識(shí)或洞察力(insight),促使他們做出對(duì)企業(yè)更有利的決策。從技術(shù)層面上講,商業(yè)智能不是什么新技術(shù),它只是數(shù)據(jù)倉(cāng)庫(kù)、OLAP等技術(shù)的綜合運(yùn)用。
大多數(shù)的數(shù)據(jù)倉(cāng)庫(kù)是為了挖掘某種商業(yè)價(jià)值而創(chuàng)建的,但是商業(yè)智能和數(shù)據(jù)倉(cāng)庫(kù)之間的區(qū)別在于商業(yè)智能是定位于生成可向業(yè)務(wù)用戶交付的產(chǎn)品,而數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)只是著眼于對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的存儲(chǔ)和組織,所以對(duì)于數(shù)據(jù)倉(cāng)庫(kù),還需要OLAP技術(shù),才能完成數(shù)據(jù)倉(cāng)庫(kù)到商業(yè)智能的轉(zhuǎn)換過程。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)來說,可以只關(guān)注數(shù)據(jù)本身,不需要專門考慮業(yè)務(wù),而商業(yè)智能則更主要的是基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)從業(yè)務(wù)的角度進(jìn)行分析。如圖1-12所示,商業(yè)智能主要使用到數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和OLAP技術(shù)。商業(yè)智能系統(tǒng)通過對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)選擇、抽取、加載后,使用數(shù)據(jù)挖掘方法提取知識(shí),再用BI報(bào)表將知識(shí)呈現(xiàn)給決策者供其參考。
一款優(yōu)秀的商業(yè)智能系統(tǒng)應(yīng)該滿足以下4個(gè)特性:準(zhǔn)確、及時(shí)、價(jià)值高和可操作。準(zhǔn)確性的意義是數(shù)據(jù)是可信的,及時(shí)性意味著數(shù)據(jù)可定期獲取、價(jià)值高表示對(duì)商業(yè)用戶有用,可操作性是指信息可以用于業(yè)務(wù)決策過程。
據(jù)預(yù)測(cè),到2020年,全球需要存儲(chǔ)的數(shù)據(jù)量將達(dá)到35萬億GB,是2009年數(shù)據(jù)存儲(chǔ)量的44倍。根據(jù)IDC的研究,2010年底全球的數(shù)據(jù)量已經(jīng)達(dá)到120萬PB(或1.2 ZB)。這些數(shù)據(jù)如果使用光盤存儲(chǔ),摞起來可以從地球到月球一個(gè)來回。對(duì)于商業(yè)智能而言,這里孕育著巨大的市場(chǎng)機(jī)會(huì),龐大的數(shù)據(jù)就是一個(gè)信息金礦,但是海量數(shù)據(jù)也帶給傳統(tǒng)商業(yè)智能前所未有的壓力。
數(shù)據(jù)是企業(yè)的重要資產(chǎn)。由于數(shù)據(jù)挖掘等商業(yè)智能技術(shù)的應(yīng)用,讓不少企業(yè)從大量的歷史數(shù)據(jù)中剝繭抽絲,發(fā)現(xiàn)很多有價(jià)值的信息,大大改善了管理人員決策的科學(xué)性。不過,長(zhǎng)期以來,商業(yè)智能的應(yīng)用一直局限于結(jié)構(gòu)化數(shù)據(jù),其核心組件數(shù)據(jù)倉(cāng)庫(kù)最為擅長(zhǎng)的也是結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)與管理。
在大數(shù)據(jù)時(shí)代,一批新的數(shù)據(jù)挖掘技術(shù)正在涌現(xiàn),有望改變我們分析處理海量數(shù)據(jù)的方式,使得我們更快、更經(jīng)濟(jì)地獲得所需的結(jié)果。大數(shù)據(jù)技術(shù)就是要打破傳統(tǒng)商業(yè)智能領(lǐng)域的局限,它在處理數(shù)據(jù)量上有了質(zhì)的提高,傳統(tǒng)商業(yè)智能限于技術(shù)瓶頸很大程度上是對(duì)抽樣數(shù)據(jù)進(jìn)行分析,而大數(shù)據(jù)技術(shù)的引入使得商業(yè)智能可以基于全量數(shù)據(jù),這樣讓結(jié)果更加準(zhǔn)確可信。大數(shù)據(jù)技術(shù)不但能處理結(jié)構(gòu)化數(shù)據(jù),而且還能分析和處理各種半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),甚至從某種程度上,更擅長(zhǎng)處理非結(jié)構(gòu)化數(shù)據(jù),比如Hadoop。而在現(xiàn)實(shí)生活中,這樣的數(shù)據(jù)更為普遍,增長(zhǎng)得也更為迅速。比如,社交媒體中的各種交互活動(dòng)、購(gòu)物網(wǎng)站用戶點(diǎn)擊行為、圖片、電子郵件等。可以說,正是此類數(shù)據(jù)的爆炸性增長(zhǎng)催生了大數(shù)據(jù)相關(guān)技術(shù)的出現(xiàn)和完善。
而對(duì)于Hadoop來說,首先HDFS解決了海量數(shù)據(jù)存儲(chǔ)的問題,Hive負(fù)責(zé)結(jié)構(gòu)化數(shù)據(jù)的分析,而半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的分析和數(shù)據(jù)清洗可根據(jù)需要編寫MapReduce作業(yè)完成,整個(gè)過程都是對(duì)基于分布式存儲(chǔ)的數(shù)據(jù)進(jìn)行分布式計(jì)算,擴(kuò)展性將比傳統(tǒng)商業(yè)智能系統(tǒng)大大提升。另外Hadoop生態(tài)圈的Sqoop、Flume等實(shí)現(xiàn)了傳統(tǒng)商業(yè)智能的一些功能模塊,如日志收集、數(shù)據(jù)抽取等??梢哉fHadoop及Hadoop生態(tài)圈為大數(shù)據(jù)的商業(yè)智能系統(tǒng)提供了一套完整、高效的解決方案。在本書的后半部分,將基于Hadoop設(shè)計(jì)和實(shí)現(xiàn)一個(gè)商業(yè)智能系統(tǒng),在實(shí)現(xiàn)這個(gè)商業(yè)系統(tǒng)的過程中,讀者可以發(fā)現(xiàn)我們無論采取大數(shù)據(jù)技術(shù)還是傳統(tǒng)數(shù)據(jù)挖掘技術(shù),遵循的方法論其實(shí)是一致的,希望讀者可以從這個(gè)項(xiàng)目中舉一反三,融會(huì)貫通。
本文摘自《Hadoop海量數(shù)據(jù)處理:技術(shù)詳解與項(xiàng)目實(shí)戰(zhàn)》
聯(lián)系客服