国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
【佳文轉(zhuǎn)載】概念解析:數(shù)據(jù)倉庫與數(shù)據(jù)集市

【佳文轉(zhuǎn)載】概念解析:數(shù)據(jù)倉庫與數(shù)據(jù)集市

(2011-07-26 15:32:33)

概念解析:數(shù)據(jù)倉庫與數(shù)據(jù)集市

 數(shù)據(jù)倉庫

  20世紀(jì)80年代中期,“數(shù)據(jù)倉庫之父”Wiliam H.Inmon先生認(rèn)為:數(shù)據(jù)倉庫(Data Warehouse)是在企業(yè)管理和決策中面向主題的(Subject Oriented)、集成的(Integrate)、與時(shí)間相關(guān)的(Time Variant)、但信息本身又相對穩(wěn)定的(Non-Volatile)數(shù)據(jù)集合。與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,是對分布在企業(yè)內(nèi)部各處業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。

  數(shù)據(jù)集市可稱作“小數(shù)據(jù)倉庫”,是用來分析相關(guān)專門業(yè)務(wù)問題或功能目標(biāo)而做的專項(xiàng)數(shù)據(jù)集合。它建立在具有統(tǒng)一數(shù)據(jù)存儲模型的數(shù)據(jù)倉庫下,各級業(yè)務(wù)人員按照各部門特定的需求把數(shù)據(jù)進(jìn)行復(fù)制、處理、加工,并最終統(tǒng)一展現(xiàn)為有部門特點(diǎn)的數(shù)據(jù)集合。

  1 數(shù)據(jù)倉庫的體系結(jié)構(gòu)

  Ralph Kimball和Bill Inmon一直是商業(yè)智能領(lǐng)域中的革新者,開發(fā)并測試了新的技術(shù)和體系結(jié)構(gòu)。Kimball和Inmon同意組織需要一個(gè)與遺留系統(tǒng)和OLTP系統(tǒng)分開的數(shù)據(jù)倉庫,以捕獲組織的有關(guān)信息并使之可用。數(shù)據(jù)倉庫中的數(shù)據(jù)應(yīng)該是凈化的、一致的,并且不受其來源的遺留系統(tǒng)和OLTP系統(tǒng)設(shè)計(jì)的牽制。在開始第一個(gè)數(shù)據(jù)集市之前,他們還同意用針對整個(gè)體系結(jié)構(gòu)的思想重復(fù)構(gòu)建數(shù)據(jù)倉庫。

  Bill Inmon將數(shù)據(jù)倉庫定義為“一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易變的用于支持管理的決策過程的數(shù)據(jù)集合”。Inmon通過“面向主題”表示應(yīng)該圍繞主題來組織數(shù)據(jù)倉庫中的數(shù)據(jù),每個(gè)主題區(qū)域僅僅包含與該主題相關(guān)的信息。數(shù)據(jù)倉庫應(yīng)該一次增加一個(gè)主題,并且當(dāng)需要容易地訪問多個(gè)主題時(shí),應(yīng)該創(chuàng)建以數(shù)據(jù)倉庫為來源的數(shù)據(jù)集市。

  Ralph Kimball說“數(shù)據(jù)倉庫僅僅是構(gòu)成它的數(shù)據(jù)集市的聯(lián)合”。他認(rèn)為“可以通過一系列維數(shù)相同的數(shù)據(jù)集市遞增地構(gòu)建數(shù)據(jù)倉庫”,通過使用“一致的”維,能夠共同看到不同數(shù)據(jù)集市中的信息,這表示它們擁有公共定義的元素。Kimbal的方法將提供集成的數(shù)據(jù)來回答組織迫切的業(yè)務(wù)問題并且要快于Inmon的方法。Inmon的方法是只有在構(gòu)建幾個(gè)單主題區(qū)域之后,集中式的數(shù)據(jù)倉庫才創(chuàng)建數(shù)據(jù)集市,而Kimbal認(rèn)為該方法缺乏靈活性,并且在現(xiàn)在的商業(yè)環(huán)境中所花時(shí)間太長。

實(shí)際上,方法的選擇取決于項(xiàng)目的主要商業(yè)驅(qū)動。如果該組織正忍受糟糕的數(shù)據(jù)管理和不一致的數(shù)據(jù),那么Inmon的方法就更好一些;如果該組織迫切需要給用戶提供信息,那么Kimbal的方法將滿足該需求。數(shù)據(jù)倉庫將使數(shù)據(jù)集市與遺留系統(tǒng)和OLTP系統(tǒng)隔離,并且支持更快地創(chuàng)建將來的數(shù)據(jù)集市。

  遺憾的是,個(gè)別部門經(jīng)常濫用Kimball的方法,并將之作為脫離集中控制而構(gòu)建他們自己數(shù)據(jù)集市的借口。當(dāng)試圖跨集市訪問數(shù)據(jù)以獲取聯(lián)合視圖時(shí),這將造成嚴(yán)重問題,而集中式信息體系結(jié)構(gòu)將避免這一點(diǎn)。

  2 數(shù)據(jù)倉庫的構(gòu)建

  對于數(shù)據(jù)倉庫的概念,我們可以從兩個(gè)層次予以理解:首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個(gè)異構(gòu)數(shù)據(jù)源的有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。

  根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫擁有以下4個(gè)特點(diǎn):

 ?。?)面向主題的。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)按照一定的主題域進(jìn)行組織。

 ?。?)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)立,并且往往是異構(gòu)的;而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)一致的全局信息。

 ?。?)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)人數(shù)據(jù)倉庫以后,一般情況下將被長期保留。

(4)反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)到目前的各個(gè)階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢作出定量分析和預(yù)測。

  企業(yè)數(shù)據(jù)倉庫的建設(shè)是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。

  整個(gè)數(shù)據(jù)倉庫系統(tǒng)是一個(gè)包含4個(gè)層次的體系結(jié)構(gòu),具體結(jié)構(gòu)見圖1。

圖1 數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)圖

  數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉,通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù);外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等。

  數(shù)據(jù)的存儲與管理:是整個(gè)數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時(shí)也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。

  OLAP服務(wù)器:對分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。

前端工具:主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。

3 數(shù)據(jù)倉庫平臺的評測指標(biāo)

  目前,專門針對數(shù)據(jù)倉庫平臺的評測指標(biāo),主要是由TPC組織開發(fā)的TPC-D。TPC是交易處理委員會(Transaction Processing Performance Council)的英文縮寫,是一個(gè)國際性的組織.專門負(fù)責(zé)為各種開放平臺在不同類型的應(yīng)用制訂一個(gè)統(tǒng)一、公正的測試標(biāo)準(zhǔn)。

  對于數(shù)據(jù)倉庫系統(tǒng),TPC-D主要考慮三方面的數(shù)據(jù)需要:

  QppD:是Query Processing Power D的縮寫,D表示這個(gè)結(jié)果是按照TPC-D標(biāo)準(zhǔn)測得的(下同),這個(gè)數(shù)據(jù)描述了系統(tǒng)的查詢處理能力。

  QthD:是Query Throughput D的縮寫,即流量測試結(jié)果,描述了系統(tǒng)在多個(gè)用戶同時(shí)進(jìn)行查詢時(shí)的處理能力。

  QphD:是Query Price-Performance的縮寫,即性能價(jià)格比。

  顯然,前面兩個(gè)指標(biāo)的數(shù)據(jù)越大越好,而最后一個(gè)則越小越好。TPC-D的測試是在不同的數(shù)據(jù)庫級別上進(jìn)行,主要可供參考的是100Gb,300Gb,1000Gb和3000Gb 4個(gè)級別上的測試結(jié)果。

  4 數(shù)據(jù)集市

  數(shù)據(jù)集市(Data marts)是為滿足已定義的用戶組或業(yè)務(wù)領(lǐng)域?qū)τ谔囟I(yè)務(wù)信息的需求而創(chuàng)建的。它們比數(shù)據(jù)倉庫更小,且更關(guān)注在數(shù)據(jù)中構(gòu)建復(fù)雜業(yè)務(wù)規(guī)則來支持功能強(qiáng)大的分析。

  數(shù)據(jù)集市將合并不同系統(tǒng)的數(shù)據(jù)源來滿足業(yè)務(wù)信息需求。若能有效地得以實(shí)現(xiàn),數(shù)據(jù)集市可以快速且方便地訪問簡單信息以及系統(tǒng)的和歷史的視圖。一個(gè)設(shè)計(jì)良好的數(shù)據(jù)集市有以下功能:第一,發(fā)布特定用戶群體所需的信息,且無需受制于源系統(tǒng)的大量需求和操作性危機(jī);第二,支持訪問非易變(Non-volatile)的業(yè)務(wù)信息;第三,調(diào)和來自于組織里多個(gè)運(yùn)行系統(tǒng)的信息,比如賬目、銷售、庫存和客戶管理以及組織外部的行業(yè)數(shù)據(jù);第四,通過默認(rèn)有效值、使各系統(tǒng)的值保持一致以及添加描述以使隱含代碼有意義,從而提供凈化的數(shù)據(jù)。

5 數(shù)據(jù)集市的構(gòu)建模塊

  數(shù)據(jù)集市是自上而下構(gòu)建的,其中商業(yè)目標(biāo)在頂層驅(qū)動所需信息,而這兩者將共同決定所需的基礎(chǔ)設(shè)施(見圖2)。

圖2 數(shù)據(jù)集市的構(gòu)建模塊

  構(gòu)建模塊 1:商業(yè)目標(biāo)。商業(yè)目標(biāo)定義了需要解決的商業(yè)問題,特別是那些拓寬組織視野的目標(biāo)。一旦確定了目標(biāo),也就確定了支持該目標(biāo)所需的信息。

  構(gòu)建模塊 2:信息。用戶將通過一個(gè)終端用戶數(shù)據(jù)訪問工具,訪問在數(shù)據(jù)庫中組織的信息。首先,需要確定信息來源并將之組織到數(shù)據(jù)模型中去,而該數(shù)據(jù)模型將駐留在數(shù)據(jù)庫中;其次,基于業(yè)務(wù)規(guī)則和標(biāo)準(zhǔn),構(gòu)建填充數(shù)據(jù)庫的過程;再次,創(chuàng)建元數(shù)據(jù)來描述數(shù)據(jù)和用于填充數(shù)據(jù)的邏輯。

  數(shù)據(jù)源的數(shù)目和復(fù)雜性比任何其他因素更影響作用域,因?yàn)槊總€(gè)數(shù)據(jù)源都帶有它自己的問題集并且要花費(fèi)相當(dāng)多的時(shí)間進(jìn)行理解和適當(dāng)?shù)霓D(zhuǎn)換。因此,數(shù)據(jù)集市的前兩個(gè)部分— 商業(yè)目標(biāo)和數(shù)據(jù)源,應(yīng)迭代地進(jìn)行定義。

  6 建立數(shù)據(jù)集市的步驟

  數(shù)據(jù)集市的建立主要包括以下5個(gè)步驟:

  (1)建立中心數(shù)據(jù)倉庫:因?yàn)椴僮鳝h(huán)境從來都不是一個(gè)能夠直接向數(shù)據(jù)集市提供數(shù)據(jù)的合理數(shù)據(jù)源,也就意味著建立數(shù)據(jù)集市之前應(yīng)該建立數(shù)據(jù)倉庫。

  (2)裝載數(shù)據(jù)集市:由于數(shù)據(jù)集市的多樣性,使得在建立數(shù)據(jù)集市時(shí)要根據(jù)部門的需求來選擇相應(yīng)類型的數(shù)據(jù)集市,然后可以用一個(gè)加載程序從數(shù)據(jù)倉庫中完全裝載數(shù)據(jù)集市。

 ?。?)數(shù)據(jù)集市中的元數(shù)據(jù):由于數(shù)據(jù)集市本身也是一個(gè)數(shù)據(jù)倉庫,所以其中最重要的組件之一也是元數(shù)據(jù),數(shù)據(jù)集市環(huán)境中的元數(shù)據(jù)與數(shù)據(jù)倉庫中的元數(shù)據(jù)服務(wù)目的相同。

(4)數(shù)據(jù)集市的數(shù)據(jù)建模:在建立數(shù)據(jù)集市時(shí)最重要的問題是是否需要一個(gè)數(shù)據(jù)模型,這就要根據(jù)數(shù)據(jù)集市的大小和形式而定。

  (5)凈化數(shù)據(jù)集市:和數(shù)據(jù)倉庫一樣,數(shù)據(jù)集市也要定期凈化,即定期從數(shù)據(jù)集市中對某些數(shù)據(jù)進(jìn)行有選擇性的刪除。

  7 建立數(shù)據(jù)集市的體會

 ?。?)堅(jiān)持需求驅(qū)動。數(shù)據(jù)倉庫是發(fā)展方向,也是新技術(shù),前提是在引入該應(yīng)用時(shí),要有清醒的認(rèn)識,時(shí)機(jī)要合適,規(guī)模要適當(dāng)。

 ?。?)避免貪大求全。不要認(rèn)為數(shù)據(jù)倉庫實(shí)現(xiàn)的功能無所不有,結(jié)果造成投入與期望不符。一方面,技術(shù)人員要為將來的使用人員如實(shí)地描畫未來數(shù)據(jù)倉庫的功能,另一方面,使用人員在提供自己需求時(shí),能夠更客觀、實(shí)用、具體。把無關(guān)緊要的數(shù)據(jù)都放到數(shù)據(jù)倉庫中,容易導(dǎo)致過于龐大的數(shù)據(jù)庫響應(yīng)緩慢、難于維護(hù)。

  (3)平臺環(huán)境適當(dāng)。根據(jù)數(shù)據(jù)倉庫的特點(diǎn),在計(jì)劃配置方面,與OLTP應(yīng)用環(huán)境是不同的。其特點(diǎn)是數(shù)據(jù)存儲的需求量大.其中不但包括大量的各級綜合數(shù)據(jù)及索引數(shù)據(jù),還應(yīng)當(dāng)考慮更多的臨時(shí)空間用于排序操作和數(shù)據(jù)匯總。

  (4)確保數(shù)據(jù)質(zhì)量。數(shù)據(jù)的抽取、轉(zhuǎn)換和裝載(ETL)是數(shù)據(jù)倉庫建設(shè)中一項(xiàng)非常重要而繁瑣的工作,在系統(tǒng)實(shí)施過程中需要由專人負(fù)責(zé),并且由于不同應(yīng)用系統(tǒng)的數(shù)據(jù)編碼通常是不同的,統(tǒng)一編碼及建立對照關(guān)系是一項(xiàng)非常費(fèi)時(shí)并費(fèi)力的工作,需要做好心理準(zhǔn)備。

  8 結(jié) 語

  隨著數(shù)據(jù)大量增加和對深層信息的挖掘需求,數(shù)據(jù)倉庫應(yīng)用需要進(jìn)行頻繁的修改,以滿足用戶不斷變化的需求。而及時(shí)有效地滿足新的用戶需求的最佳辦法是建立多個(gè)數(shù)據(jù)倉庫或數(shù)據(jù)集市,分別根據(jù)特定的業(yè)務(wù)類型與需求進(jìn)行定制。進(jìn)一步來說,為應(yīng)付數(shù)據(jù)倉庫使用過程中不可避免的用戶增加和需求的增加,更需要擴(kuò)展能力強(qiáng)的多層處理結(jié)構(gòu),使用靈活的技術(shù)與結(jié)構(gòu),簡化數(shù)據(jù)倉庫的建立,同時(shí)保持對變化中需求的響應(yīng)能力。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
基于大數(shù)據(jù)體系構(gòu)建數(shù)據(jù)倉庫
十問十答,帶你了解數(shù)據(jù)倉庫 | 人人都是產(chǎn)品經(jīng)理
數(shù)據(jù)倉庫技術(shù)的發(fā)展歷程
數(shù)據(jù)倉庫的前世今生
聊聊數(shù)據(jù)倉庫建設(shè)步驟
BI的兩類三種結(jié)果模式探討
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服