數據倉庫是面向分析的,數據庫是面向事務處理.
數據倉庫的數據是基本不變得,而數據庫的數據是由日常的業(yè)務產生的,常更新
數據倉庫的數據一般有數據庫的數據經過一定的規(guī)則轉換得到得
數據倉庫主要用來分析數據,一般是tb級的的數據,比如決策支持系統(tǒng),數據挖掘等.
數據庫系統(tǒng)作為數據管理手段,從它的誕生開始,就主要用于事務處理。經過數十年的發(fā)展,在這些數據庫中已經保存了大量的日常業(yè)務數據。傳統(tǒng)的業(yè)務系統(tǒng)一般 是直接建立在這種事務處理環(huán)境上的。隨著技術的進步,人們試圖讓計算機擔任更多的工作,而數據庫技術也一直力圖使自己能勝任從事務處理、批處理到分析處理 的各種類型的信息處理任務。后來人們逐漸認識到,在目前的計算機處理能力上,根本無法實現(xiàn)這種功能,而且,另一方面,事物處理和分析處理具有極不相同的性 質,直接使用事務處理環(huán)境來支持決策是行不通的。
事務處理環(huán)境不適宜DSS應用的原因主要有以下五條:
(1)事務處理和分析處理的性能特性不同。
在事務處理環(huán)境中,用戶的行為特點是數據的存取操作頻率高而每次操作處理的時間短;在分析處理環(huán)境中,用戶的行為模式與此完全不同,某個DSS應用程序可 能需要連續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。將具有如此不同處理性能的兩種應用放在同一個環(huán)境中運行顯然是不適當的。
(2)數據集成問題。
DSS需要集成的數據。全面而正確的數據是有效的分析和決策的首要前提,相關數據收集得月完整,得到的結果就越可靠。當前絕大多數企業(yè)內數據的真正狀況是 分散而非集成的。造成這種分散的原因有多種,主要有事務處理應用分散、“蜘蛛網”問題、數據不一致問題、外部數據和非結構化數據。
(3)數據動態(tài)集成問題。
靜態(tài)集成的最大缺點在于,如果在數據集成后數據源中數據發(fā)生了變化,這些 變化將不能反映給決策者,導致決策者使用的是過時的數據。集成數據必須以一定的周期(例如24小時)進行刷新,我們稱其為動態(tài)集成。顯然,事務處理系統(tǒng)不 具備動態(tài)集成的能力。
(4)歷史數據問題。
事務處理一般只需要當前數據,在數據庫中一般也是存儲短期數據,切不同數據的保存期限也不一樣,即使有一些歷史數據保存下來了,也被束之高閣,未得到充分 利用。但對于決策分析而言,歷史數據是相當重要的,許多分析方法必須一大量的歷史數據為依托。沒有歷史數據的詳細分析,是難以把握企業(yè)的發(fā)展趨勢的。 DSS對數據在空間和時間的廣度上都有了更高的要求,而事務處理環(huán)境難以滿足這些要求。
(5)數據的綜合問題。
在事務處理系統(tǒng)中積累了大量的細節(jié)數據,一般而言,DSS并不對這些細節(jié)數據進行分析。在分析前,往往需要對細節(jié)數據進行不同程度的綜合。而事務處理系統(tǒng)不具備這種綜合能力,根據規(guī)范化理論,這種綜合還往往因為是一種數據冗余而加以限制。
要提高分析和決策的效率和有效性,分析型處理及其數據必須與操作型處理及其數據相分離。必須把分析型數據從事務處理環(huán)境中提取出來,按照DSS處理的需要 進行重新組織,建立單獨的分析處理環(huán)境,數據倉庫正是為了構建這種新的分析處理環(huán)境而出現(xiàn)的一種數據存儲和組織技術。