“ 數(shù)據(jù)倉庫知識點(diǎn),一般來說,計(jì)算機(jī)數(shù)據(jù)處理主要有倆種方式:操作型處理和分析型處理。”
傳統(tǒng)數(shù)據(jù)庫與操作型處理
數(shù)據(jù)庫(DataBase,DB)是長期存儲在計(jì)算機(jī)內(nèi)的,有組織的,可共享的數(shù)據(jù)集合。其理論產(chǎn)生于20世紀(jì)60年代。在20世紀(jì)70年代之前的數(shù)據(jù)庫技術(shù)稱之為第一代,支持層次數(shù)據(jù)模型和網(wǎng)狀數(shù)據(jù)模型。20世紀(jì)70年代開始了關(guān)系數(shù)據(jù)庫管理系統(tǒng)。由與嚴(yán)格的數(shù)學(xué)理論支持,關(guān)系數(shù)據(jù)庫管理系統(tǒng)迅速取代了層次和網(wǎng)狀數(shù)據(jù)庫管理系統(tǒng),并在商業(yè)領(lǐng)域取得普及應(yīng)用,長盛不衰,至今枝繁葉茂。為了與數(shù)據(jù)倉庫相區(qū)別,人們把現(xiàn)在普遍使用的關(guān)系數(shù)據(jù)庫稱之為傳統(tǒng)數(shù)據(jù)庫,或操作型數(shù)據(jù)庫。
例如:OLTP系統(tǒng)(On-Line Transaction Processing)財(cái)務(wù)系統(tǒng)管理、超市管理系統(tǒng),其數(shù)據(jù)存儲在傳統(tǒng)數(shù)據(jù)庫中。它的核心任務(wù)是:對傳統(tǒng)數(shù)據(jù)庫(也稱之為事物處理數(shù)據(jù)庫或OLTP數(shù)據(jù)庫)進(jìn)行聯(lián)機(jī)的日常操作,因此稱之為操作型處理,他們通常是對一個(gè)或多組記錄進(jìn)行查詢或修改操作,主要為企事業(yè)單位的特定數(shù)據(jù)管理和應(yīng)用服務(wù)。用戶希望在保證數(shù)據(jù)安全性和完整性的前提下,每次操作能夠?qū)崟r(shí)響應(yīng)傳統(tǒng)分析處理問題
由于傳統(tǒng)數(shù)據(jù)庫的事務(wù)處理方式和決策支持的分析處理方式對數(shù)據(jù)管理的需求有明顯的沖突, 導(dǎo)致傳統(tǒng)數(shù)據(jù)庫無法很好的支持決策分析活動。人門已逐漸認(rèn)識到事務(wù)處理和分析處理具有完全不同的特點(diǎn),直接使用事務(wù)處理環(huán)境來支持分析處理是行不通的,其中主要原因如以下幾個(gè)方面。
(1)分析處理的系統(tǒng)影響問題
在傳統(tǒng)的事務(wù)處理系統(tǒng)中,用戶對數(shù)據(jù)系統(tǒng)的響應(yīng)要求是實(shí)時(shí)性,即數(shù)據(jù)存取頻率高,處理時(shí)間短,用戶的業(yè)務(wù)操作請求行往希望在很短的時(shí)間內(nèi)完成,這就要求系統(tǒng)在多用戶的情況下,也可以保持較知的系統(tǒng)響應(yīng)時(shí)間,在決策分析的數(shù)據(jù)處理中,用戶對系統(tǒng)的處理要求則發(fā)生了很大的變化。有些次策問題的分析處理請求,可能會導(dǎo)致系統(tǒng)長數(shù)小時(shí)的運(yùn)行;有決策問題的解決,則需要詢歷數(shù)據(jù)庫中人部分甚至全部數(shù)據(jù),這些分析處理過程必然消耗大量的系統(tǒng)資源,嚴(yán)重影響享務(wù)處理的實(shí)時(shí)性要求,這是聯(lián)機(jī)事務(wù)處理系統(tǒng)無法忍受的。
(2)分析處理的數(shù)據(jù)需求問題
(1) 外部微據(jù)需求問題,在進(jìn)行決策問題的分析處理,需妥全面、正確地集成數(shù)據(jù)。這些集成的數(shù)據(jù)不僅包含企業(yè)內(nèi)部的數(shù)據(jù),而且還包含企業(yè)外部的,塵競對手的關(guān)數(shù)據(jù)。但傳統(tǒng)數(shù)據(jù)庫中只存儲了本部門的事務(wù)處理數(shù)據(jù),卻設(shè)有與快策問題相關(guān)的集成數(shù)據(jù),更沒有企業(yè)外部的數(shù)據(jù),如果將數(shù)據(jù)的成運(yùn)算也交給分析處理程序完成,將進(jìn)一步說加分析處理的時(shí)間,影響事務(wù)處理的實(shí)時(shí)性要求,聯(lián)機(jī)事務(wù)處理的用戶更加難以接受.(2) 系統(tǒng)平臺差異問題,在決策問題分析處理的數(shù)據(jù)集成過程中,還必須解決不同數(shù)據(jù)處理系統(tǒng)的差異視向題,導(dǎo)致企業(yè)聯(lián)機(jī)事務(wù)處理系統(tǒng)差異的原因是多種多樣的,比如企業(yè)在發(fā)展中兼并了其他企業(yè),而被并企業(yè)的數(shù)據(jù)庫系統(tǒng)平臺與兼并企業(yè)的數(shù)據(jù)庫系統(tǒng)平臺完全不同,數(shù)據(jù)尤法共享。還有,在企業(yè)發(fā)展的早期因?yàn)橘Y金欲乏,開始時(shí)可能只開發(fā)了部分關(guān)鍵部門的數(shù)據(jù)庫系統(tǒng),企業(yè)發(fā)展后又補(bǔ)充開發(fā)了其他部門的數(shù)庫系統(tǒng),但其系統(tǒng)平臺更為先進(jìn),導(dǎo)致前后系統(tǒng)的數(shù)據(jù)集成困難。(3) 數(shù)據(jù)不一致性問題。數(shù)據(jù)的不一致性有很多種,下面萄單介紹兒種常見情況。·和同屬徑的類型不一致。同一個(gè)實(shí)體的屬性在不同的應(yīng)用系統(tǒng)中,可能有不同的數(shù)據(jù)類型。例如,一個(gè)人的性別在暫住人口系統(tǒng)中可能用字符1和0表示,而在旅館登記系統(tǒng)中可能用邏輯值T和F表示。相同屬性的長度不一致,同一個(gè)實(shí)體的屬性在不同的應(yīng)用系統(tǒng)中,可能有的效據(jù)長度。例如,一個(gè)人的性別在常住入口系統(tǒng)中可能用字符“男”和“女”表示,長度為2,但在暫住人口系統(tǒng)中可能用字符1和0表示,長度為1。相同屬性的命名不一致。同一個(gè)實(shí)體的屬性在不同的應(yīng)用系統(tǒng)中使用了不同的名稱。比如一個(gè)人居住地的派出所,在常住人口系統(tǒng)中字段名稱為PCS,而在暫住人口管理系統(tǒng)中使用ZZPCS來命名。名稱相同的屬性含義不一致。同名的字段在不同的應(yīng)用中表示了不同實(shí)體的不同屬性,其含義完全不同。例如,名稱為“GH”的字段名,在人事系統(tǒng)中表示為職工的“工號”,但是在銷售管理系統(tǒng)中卻表示為“購貨號”。因此,在使用這些數(shù)據(jù)進(jìn)行決策問題的分析處理之前,必須對這些數(shù)據(jù)進(jìn)行比較分析,確認(rèn)其真實(shí)含義,才能正確地實(shí)現(xiàn)數(shù)據(jù)集成。(4)非結(jié)構(gòu)化數(shù)據(jù)問題。在決策問題分析處理的數(shù)據(jù)集成過程中,不僅涉及傳統(tǒng)數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù),還涉及其他非結(jié)構(gòu)化數(shù)據(jù)的集成問題。例如,行業(yè)的統(tǒng)計(jì)報(bào)告、咨詢公司的市場調(diào)查分析數(shù)據(jù),其格式可能是Excel、Word或者Web頁面等。這些數(shù)據(jù)必須經(jīng)過格式、類型的轉(zhuǎn)換,才能被正確地集成并用于分析處理。(5)歷史數(shù)據(jù)需求問題。利用歷史數(shù)據(jù)可以對未來的發(fā)展進(jìn)行正確的預(yù)測,因此,對決策問題的分析處理而言,較長時(shí)期的歷史數(shù)據(jù)具有重要的意義。而為保證事務(wù)處理的實(shí)時(shí)性需要,傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)一般只保留當(dāng)前或近期的數(shù)據(jù),沒有長期保留大量的歷史數(shù)據(jù)。(6)數(shù)據(jù)動態(tài)更新問題。在決策問題的分析處理中,最近幾個(gè)月或最近一年的數(shù)據(jù)顯然更能體現(xiàn)企業(yè)的經(jīng)營狀況,但傳統(tǒng)的分析處理系統(tǒng)在對數(shù)據(jù)進(jìn)行一次集成以后,往往就與原來的數(shù)據(jù)源斷絕了聯(lián)系。導(dǎo)致在分析處理中使用的數(shù)據(jù)可能是幾個(gè)月前,甚至是一年以前的,其分析結(jié)果必然導(dǎo)致決策的失誤。因此,分析處理系統(tǒng)要具有數(shù)據(jù)的動態(tài)集成更新能力,即數(shù)據(jù)能夠進(jìn)行定期的、及時(shí)的集成更新,其更新周期可以是一天,也可以是一周,而傳統(tǒng)分析處理系統(tǒng)缺乏這種集成更新能力。數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、不可修改的、隨時(shí)間變化的,支持管理決策的數(shù)據(jù)集合。我們將以上定義與本節(jié)開始介紹的數(shù)據(jù)庫概念進(jìn)行對比可以發(fā)現(xiàn),數(shù)據(jù)倉庫也是長期存儲在計(jì)算機(jī)內(nèi)的、有組織的、可共享的數(shù)據(jù)集合,因此,數(shù)據(jù)倉庫也是數(shù)據(jù)庫,只不過它是一種特殊的數(shù)據(jù)庫。其特殊性體現(xiàn)在它的數(shù)據(jù)具有面向主題、集成、不可修改和隨時(shí)間變化4個(gè)特征,其目的是支持企業(yè)的管理決策而不是支持事務(wù)管理。數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)的基本體系結(jié)構(gòu)如圖所示。它不僅描述了數(shù)據(jù)倉庫系統(tǒng)的所有組成部分,還描述了包括從數(shù)據(jù)源中抽取數(shù)據(jù)、轉(zhuǎn)換并加載到數(shù)據(jù)倉庫中進(jìn)行存儲管理,用各種工具對數(shù)據(jù)進(jìn)行分析從而支持用戶決策等組成部分之間的相互關(guān)系。它為數(shù)據(jù)倉庫系統(tǒng)的開發(fā)和部署提供了一個(gè)整體的框架結(jié)構(gòu)和實(shí)施路線圖。
數(shù)據(jù)管理
數(shù)據(jù)管理就是對數(shù)據(jù)倉庫數(shù)據(jù),元數(shù)據(jù)和數(shù)據(jù)集市的存儲管理,并為用戶的數(shù)據(jù)查詢檢索提供支持,是整個(gè)數(shù)據(jù)倉庫系統(tǒng)的環(huán)境支持部分。數(shù)據(jù)倉庫管理系統(tǒng)(DWMS)對數(shù)據(jù)倉庫數(shù)據(jù)的管理功能,相當(dāng)于數(shù)據(jù)庫管理系統(tǒng)(DBMS)對數(shù)據(jù)庫數(shù)據(jù)的管理,通常包括數(shù)據(jù)存儲、數(shù)據(jù)的安全性、一致性和并發(fā)控制管理以及數(shù)據(jù)的維護(hù)、備份和恢復(fù)等管理工作。企業(yè)級數(shù)據(jù)倉庫包含從企業(yè)所有可能的數(shù)據(jù)源抽取得到的明細(xì)數(shù)據(jù)和匯總數(shù)據(jù)。數(shù)據(jù)集市(Data Mart,DMt)是企業(yè)級數(shù)據(jù)倉庫的一個(gè)子集,通常稱為部門級數(shù)據(jù)倉庫,因?yàn)樗饕嫦虿块T級業(yè)務(wù)的決策分析,并且通常只面向某個(gè)特定的主題。數(shù)據(jù)集市存儲的是為特定部門預(yù)先計(jì)算好的數(shù)據(jù),以滿足部門用戶對分析處理的性能需求,在一定程度上緩解了訪問數(shù)據(jù)倉庫的壓力。元數(shù)據(jù)(Meta Data)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,即描述其他數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)字典就是一種元數(shù)據(jù),但在數(shù)據(jù)倉庫中,元數(shù)據(jù)的內(nèi)容比數(shù)據(jù)庫中的數(shù)據(jù)字典內(nèi)容更加豐富、關(guān)系更為復(fù)雜。元數(shù)據(jù)作為描述其他數(shù)據(jù)的基礎(chǔ)數(shù)據(jù),可對數(shù)據(jù)倉庫中的各種數(shù)據(jù)進(jìn)行詳細(xì)的描述與說明,除了描述數(shù)據(jù)來源、類型、長度、是否主鍵和外鍵等基本信息外,還要描述數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)轉(zhuǎn)換規(guī)則、加載方法和環(huán)境,使每個(gè)數(shù)據(jù)具有符合現(xiàn)實(shí)的真實(shí)含義,使最終用戶了解這些數(shù)據(jù)及其相互之間的關(guān)系。按照元數(shù)據(jù)的用途,可將其分為兩種類型:技術(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。(1)技術(shù)元數(shù)據(jù)(Technical Metadata)是關(guān)于數(shù)據(jù)源、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)倉庫的描述,包括數(shù)據(jù)倉庫中對象和數(shù)據(jù)結(jié)構(gòu)的定義、數(shù)據(jù)清理和數(shù)據(jù)更新的規(guī)則、元數(shù)據(jù)到目的數(shù)據(jù)的映射、用戶訪問權(quán)限等。它主要供數(shù)據(jù)倉庫設(shè)計(jì)和管理人員使用,因此也稱為管理元數(shù)據(jù)(Administrative Metadata)。
(2)商業(yè)元數(shù)據(jù)(Business Metadata)是從商業(yè)應(yīng)用的角度,使用業(yè)務(wù)術(shù)語描述數(shù)據(jù)倉庫中的數(shù)據(jù),包括對業(yè)務(wù)主題、數(shù)據(jù)來源和數(shù)據(jù)訪問規(guī)則,各種分析方法及報(bào)表展示形式的描述,以便使數(shù)據(jù)倉庫管理人員和用戶更好地理解和使用數(shù)據(jù)倉庫。因此,也被稱為用戶元數(shù)據(jù)(User Metadata)。(1)為決策支持系統(tǒng)分析員和高層決策人員提供便利。數(shù)據(jù)倉庫元數(shù)據(jù)的廣義索引(詳見2.6.2節(jié))中存有每次數(shù)據(jù)裝載時(shí)產(chǎn)生的有關(guān)決策的匯總數(shù)據(jù)項(xiàng),在做決策時(shí),可以先查詢該部分?jǐn)?shù)據(jù),再決定是否進(jìn)行下一步的搜索。(2)解決面向應(yīng)用的操作型環(huán)境和數(shù)據(jù)倉庫的復(fù)雜關(guān)系。從面向應(yīng)用的操作型環(huán)境到數(shù)據(jù)倉庫的轉(zhuǎn)換是復(fù)雜的、多方面的,元數(shù)據(jù)包括對這種轉(zhuǎn)換的描述,即包含了所有數(shù)據(jù)源的對象名、屬性及其在數(shù)據(jù)倉庫中的轉(zhuǎn)換。(1)元數(shù)據(jù)在數(shù)據(jù)倉庫開發(fā)期間的使用。數(shù)據(jù)倉庫的開發(fā)過程是一個(gè)構(gòu)造工程,必須提供清晰的文檔。在此過程產(chǎn)生的元數(shù)據(jù)主要描述DW目錄表及其運(yùn)作模式,如數(shù)據(jù)的轉(zhuǎn)化、凈化、轉(zhuǎn)移、概括和綜合的規(guī)則與處理規(guī)則。(2)元數(shù)據(jù)在數(shù)據(jù)源抽取中使用。元數(shù)據(jù)對多個(gè)來源的數(shù)據(jù)集成發(fā)揮著關(guān)鍵作用。利用元數(shù)據(jù)可以確定將數(shù)據(jù)源的哪些資源加載到DW中;跟蹤歷史數(shù)據(jù)結(jié)構(gòu)變化過程;描述屬性到屬性的映射、屬性轉(zhuǎn)換等。(3)元數(shù)據(jù)在數(shù)據(jù)清理與綜合中的使用。數(shù)據(jù)清理與綜合負(fù)責(zé)凈化資源中的數(shù)據(jù)、增加資源戳和時(shí)間戳,將數(shù)據(jù)轉(zhuǎn)換為符合數(shù)據(jù)倉庫的數(shù)據(jù)格式,計(jì)算綜合數(shù)據(jù)的值。元數(shù)據(jù)在這個(gè)過程中作為清理和綜合數(shù)據(jù)的依據(jù)。數(shù)據(jù)倉庫數(shù)據(jù)的粒度與組織
1.數(shù)據(jù)的粒度
數(shù)據(jù)的粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單元中所保存數(shù)據(jù)的綜合程度。數(shù)據(jù)的綜合程度越高其粒度也就越粗,反之,數(shù)據(jù)的綜合程度超低,其粒度也就超細(xì),比如,某個(gè)數(shù)據(jù)單元A一路的是某個(gè)旅第一天的人整是說,新合單是B存放的是該旅館某一個(gè)月的人住人次,因此,我們說A的教度比合的和談詞的是得是人的綜合程度比B的綜合程度低。數(shù)據(jù)的粒度設(shè)計(jì)問題是數(shù)據(jù)倉庫設(shè)計(jì)的一個(gè)重要方面,數(shù)據(jù)倉庫存儲的數(shù)據(jù)粒度越智,則占用的存解空間越大,但可以提民豐苦的用書查詢,反之,占用存儲空間小,卻只能提供相略的查詢。因此,數(shù)據(jù)的表度選擇是石節(jié)寫,不僅對數(shù)據(jù)倉庫中數(shù)據(jù)量的大小有直接影的,同時(shí)還影響數(shù)據(jù)倉庫所能回答的查詢是型和查詢深度。因此,在數(shù)據(jù)倉庫設(shè)計(jì)時(shí),數(shù)據(jù)粒度的大小應(yīng)根據(jù)數(shù)據(jù)量的大小與查詢需要的詳細(xì)程度做出權(quán)衡。2.雙重粒度
雙重粒度是指數(shù)據(jù)倉庫中僅存放真實(shí)細(xì)節(jié)數(shù)據(jù)(最低粒度)和輕度的綜合數(shù)據(jù)。在很多情況下,數(shù)據(jù)倉庫既希望占用盡可能少的存儲空間,擁有較高的數(shù)據(jù)查詢效率,又希望能提供非常詳細(xì)的數(shù)據(jù)分析能力。為了使數(shù)據(jù)倉庫在費(fèi)用、效率、訪問便利性,以及回答任何可能的查詢方面得到較好的平衡。雙重粒度成了許多機(jī)構(gòu)在數(shù)據(jù)倉庫粒度設(shè)計(jì)時(shí)的默認(rèn)選擇。當(dāng)然,我們應(yīng)該根據(jù)實(shí)際應(yīng)用需要,在數(shù)據(jù)倉庫的細(xì)節(jié)部分考慮選擇單一粒度或多重粒度級別
3.數(shù)據(jù)倉庫數(shù)據(jù)的粒度層級
在數(shù)據(jù)倉庫設(shè)計(jì)時(shí),通常可以將數(shù)據(jù)按照3重粒度級別4個(gè)層次的方式存儲(見圖1-5),即將數(shù)據(jù)分為早期細(xì)節(jié)層、當(dāng)前細(xì)節(jié)層、輕度綜合層、高度綜合層4個(gè)層級。數(shù)據(jù)源經(jīng)過最低粒度級別的綜合,首先進(jìn)入當(dāng)前細(xì)節(jié)層,并根據(jù)具體需要進(jìn)行更高一層的綜合,從而形成輕度綜合層乃至高度綜合層的數(shù)據(jù)。另外,按照遷移周期,將當(dāng)前細(xì)節(jié)層的過期數(shù)據(jù)遷移到早期細(xì)節(jié)層存儲,同時(shí)還要刪除超過保存期的早期細(xì)節(jié)數(shù)據(jù)。4.數(shù)據(jù)倉庫的數(shù)據(jù)組織
數(shù)據(jù)倉庫主要有簡單堆積文件、輪轉(zhuǎn)綜合文件、簡單直接文件和連續(xù)數(shù)據(jù)文件4種數(shù)據(jù)組織方式。(1)簡單堆積文件。它將每日從OLTP數(shù)據(jù)庫中提取轉(zhuǎn)換加工得到的數(shù)據(jù)逐天積累存儲起來形成一個(gè)數(shù)據(jù)文件。(2)輪轉(zhuǎn)綜合文件。數(shù)據(jù)存儲單位被分為日、周、月、年等幾個(gè)粒度級別(見圖1-6(b))。在一個(gè)星期的七天中,數(shù)據(jù)被逐一記錄在每日數(shù)據(jù)集中;然后,7天的數(shù)據(jù)被綜合為周的數(shù)據(jù),并記錄在周數(shù)據(jù)集中;接下去的一個(gè)星期,日數(shù)據(jù)集被重新覆蓋,以記錄新的日數(shù)據(jù)。同理,當(dāng)周數(shù)據(jù)集達(dá)到4或5個(gè)記錄后,數(shù)據(jù)再一次被綜合并記入月數(shù)據(jù)集,以此類推;輪轉(zhuǎn)綜合結(jié)構(gòu)十分簡潔,數(shù)據(jù)量比簡單堆積結(jié)構(gòu)大大減少。當(dāng)然,它是以損失數(shù)據(jù)細(xì)節(jié)為代價(jià)的,越久遠(yuǎn)的數(shù)據(jù),細(xì)節(jié)損失越多。(3)簡單直接文件、它把操作型環(huán)境的數(shù)據(jù)直接拖大數(shù)據(jù)倉庫環(huán)境中存放較長的時(shí)間,且不做任何累積或綜合計(jì)算,因此,它本質(zhì)上是操作型數(shù)據(jù)在某個(gè)時(shí)間段的一個(gè)全真快照。1連續(xù)數(shù)據(jù)文件。它是依據(jù)兩個(gè)或更多的簡單直接文件快照進(jìn)行合并創(chuàng)建或追加形成的數(shù)據(jù)組織方法。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。