所屬欄目:軟件開發論文 發布日期:2011-03-17 16:47 熱度:
數據倉庫為商務運作提供結構與工具,以便系統地組織、理解和使用數據進行決策。大量組織機構已經發現,在當今這個充滿競爭、快速發展的世界,數據倉庫是一個有價值的工具。在過去的幾年中,許多公司已花費數百萬美元,建立企業范圍的數據倉庫。許多人感到,隨著工業競爭的加劇,數據倉庫成了必備的最新營銷武器——通過更多地了解客戶需求而保住客戶的途徑。
數據倉庫已被多種方式定義,使得很難嚴格地定義它。寬松地講,數據倉庫是一個數據庫,它與組織機構的操作數據庫分別維護。數據倉庫系統允許將各種應用系統集成在一起,為統一的歷史數據分析提供堅實的平臺,對信息處理提供支持。
按照W.H.Inmon,一位數據倉庫系統構造方面的領頭建筑師的說法,“數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,支持管理決策制定”。這個簡短、全面的定義指出了數據倉庫的主要特征。四個關鍵詞,面向主題的、集成的、時變的、非易失的,將數據倉庫與其它數據存儲系統(如,關系數據庫系統、事務處理系統、和文件系統)相區別。讓我們進一步看看這些關鍵特征。
(1)、面向主題的:數據倉庫圍繞一些主題,如顧客、供應商、產品和銷售組織。數據倉庫關注決策者的數據建模與分析,而不是構造組織機構的日常操作和事務處理。因此,數據倉庫排除對于決策無用的數據,提供特定主題的簡明視圖。
(2)、集成的:通常,構造數據倉庫是將多個異種數據源,如關系數據庫、一般文件和聯機事務處理記錄,集成在一起。使用數據清理和數據集成技術,確保命名約定、編碼結構、屬性度量的一致性等。
(3)、時變的:數據存儲從歷史的角度(例如,過去5-10年)提供信息。數據倉庫中的關鍵結構,隱式或顯式地包含時間元素。
(4)、非易失的:數據倉庫總是物理地分離存放數據;這些數據源于操作環境下的應用數據。由于這種分離,數據倉庫不需要事務處理、恢復和并行控制機制。通常,它只需要兩種數據訪問:數據的初始化裝入和數據訪問。
概言之,數據倉庫是一種語義上一致的數據存儲,它充當決策支持數據模型的物理實現,并存放企業決策所需信息。數據倉庫也常常被看作一種體系結構,通過將異種數據源中的數據集成在一起而構造,支持結構化和啟發式查詢、分析報告和決策制定。
什么是建立數據倉庫(datawarehousing)?”
根據上面的討論,我們把建立數據倉庫看作構造和使用數據倉庫的過程。數據倉庫的構造需要數據集成、數據清理、和數據統一。利用數據倉庫常常需要一些決策支持技術。這使得“知識工人”(例如,經理、分析人員和主管)能夠使用數據倉庫,快捷、方便地得到數據的總體視圖,根據數據倉庫中的信息做出準確的決策。有些作者使用術語“建立數據倉庫”表示構造數據倉庫的過程,而用術語“倉庫DBMS”表示管理和使用數據倉庫。我們將不區分二者。
“組織機構如何使用數據倉庫中的信息?”許多組織機構正在使用這些信息支持商務決策活動,包括:
(1)、增加顧客關注,包括分析顧客購買模式(如,喜愛買什么、購買時間、預算周期、消費習慣);
(2)、根據季度、年、地區的營銷情況比較,重新配置產品和管理投資,調整生產策略;
(3)、分析運作和查找利潤源;
(4)、管理顧客關系、進行環境調整、管理合股人的資產開銷。
從異種數據庫集成的角度看,數據倉庫也是十分有用的。許多組織收集了形形色色數據,并由多個異種的、自治的、分布的數據源維護大型數據庫。集成這些數據,并提供簡便、有效的訪問是非常希望的,并且也是一種挑戰。數據庫工業界和研究界都正朝著實現這一目標竭盡全力。
對于異種數據庫的集成,傳統的數據庫做法是:在多個異種數據庫上,建立一個包裝程序和一個集成程序(或仲裁程序)。這方面的例子包括IBM的數據連接程序(DataJoiner)和Informix的數據刀(DataBlade)。當一個查詢提交客戶站點,首先使用元數據字典對查詢進行轉換,將它轉換成相應異種站點上的查詢。然后,將這些查詢映射和發送到局部查詢處理器。由不同站點返回的結果被集成為全局回答。這種查詢驅動的方法需要復雜的信息過濾和集成處理,并且與局部數據源上的處理競爭資源。這種方法是低效的,并且對于頻繁的查詢,特別是需要聚集操作的查詢,開銷很大。
對于異種數據庫集成的傳統方法,數據倉庫提供了一個有趣的替代方案。數據倉庫使用更新驅動的方法,而不是查詢驅動的方法。這種方法將來自多個異種源的信息預先集成,并存儲在數據倉庫中,供直接查詢和分析。與聯機事務處理數據庫不同,數據倉庫不包含最近的信息。然而,數據倉庫為集成的異種數據庫系統帶來了高性能,因為數據被拷貝、預處理、集成、注釋、匯總,并重新組織到一個語義一致的數據存儲中。在數據倉庫中進行的查詢處理并不影響在局部源上進行的處理。此外,數據倉庫存儲并集成歷史信息,支持復雜的多維查詢。這樣,建立數據倉庫在工業界已非常流行。
1.操作數據庫系統與數據倉庫的區別
由于大多數人都熟悉商品關系數據庫系統,將數據倉庫與之比較,就容易理解什么是數據倉庫。
聯機操作數據庫系統的主要任務是執行聯機事務和查詢處理。這種系統稱為聯機事務處理(OLTP)系統。它們涵蓋了一個組織的大部分日常操作,如購買、庫存、制造、銀行、工資、注冊、記帳等。另一方面,數據倉庫系統在數據分析和決策方面為用戶或“知識工人”提供服務。這種系統可以用不同的格式組織和提供數據,以便滿足不同用戶的形形色色需求。這種系統稱為聯機分析處理(OLAP)系統。
OLTP和OLAP的主要區別概述如下。
(1)、用戶和系統的面向性:OLTP是面向顧客的,用于辦事員、客戶、和信息技術專業人員的事務和查詢處理。OLAP是面向市場的,用于知識工人(包括經理、主管、和分析人員)的數據分析。
(2)、數據內容:OLTP系統管理當前數據。通常,這種數據太瑣碎,難以方便地用于決策。OLAP系統管理大量歷史數據,提供匯總和聚集機制,并在不同的粒度級別上存儲和管理信息。這些特點使得數據容易用于見多識廣的決策。
(3)、數據庫設計:通常,OLTP系統采用實體-聯系(ER)模型和面向應用的數據庫設計。而OLAP系統通常采用星形或雪花模型和面向主題的數據庫設計。
(4)、視圖:OLTP系統主要關注一個企業或部門內部的當前數據,而不涉及歷史數據或不同組織的數據。相比之下,由于組織的變化,OLAP系統常常跨越數據庫模式的多個版本。OLAP系統也處理來自不同組織的信息,由多個數據存儲集成的信息。由于數據量巨大,OLAP數據也存放在多個存儲介質上。
(5)、訪問模式:OLTP系統的訪問主要由短的、原子事務組成。這種系統需要并行控制和恢復機制。然而,對OLAP系統的訪問大部分是只讀操作(由于大部分數據倉庫存放歷史數據,而不是當前數據),盡管許多可能是復雜的查詢。
OLTP和OLAP的其它區別包括數據庫大小、操作的頻繁程度、性能度量等。
2.但是,為什么需要一個分離的數據倉庫
“既然操作數據庫存放了大量數據”,你注意到,“為什么不直接在這種數據庫上進行聯機分析處理,而是另外花費時間和資源去構造一個分離的數據倉庫?”
分離的主要原因是提高兩個系統的性能。操作數據庫是為已知的任務和負載設計的,如使用主關鍵字索引和散列,檢索特定的記錄,和優化“罐裝的”查詢。另一方面,數據倉庫的查詢通常是復雜的,涉及大量數據在匯總級的計算,可能需要特殊的數據組織、存取方法和基于多維視圖的實現方法。在操作數據庫上處理OLAP查詢,可能會大大降低操作任務的性能。
此外,操作數據庫支持多事務的并行處理,需要加鎖和日志等并行控制和恢復機制,以確保一致性和事務的強健性。通常,OLAP查詢只需要對數據記錄進行只讀訪問,以進行匯總和聚集。如果將并行控制和恢復機制用于這種OLAP操作,就會危害并行事務的運行,從而大大降低OLTP系統的吞吐量。
最后,數據倉庫與操作數據庫分離是由于這兩種系統中數據的結構、內容和用法都不相同。決策支持需要歷史數據,而操作數據庫一般不維護歷史數據。在這種情況下,操作數據庫中的數據盡管很豐富,但對于決策,常常還是遠遠不夠的。決策支持需要將來自異種源的數據統一(如,聚集和匯總),產生高質量的、純凈的和集成的數據。相比之下,操作數據庫只維護詳細的原始數據(如事務),這些數據在進行分析之前需要統一。由于兩個系統提供很不相同的功能,需要不同類型的數據,因此需要維護分離的數據庫。
文章標題:淺析對數據倉庫的研究
轉載請注明來自:http://www.56st48f.cn/fblw/dianxin/ruanjiankaifa/7712.html
攝影藝術領域AHCI期刊推薦《Phot...關注:106
Nature旗下多學科子刊Nature Com...關注:152
中小學教師值得了解,這些教育學...關注:47
2025年寫管理學論文可以用的19個...關注:192
測繪領域科技核心期刊選擇 輕松拿...關注:64
及時開論文檢索證明很重要關注:52
中國水產科學期刊是核心期刊嗎關注:54
國際出書需要了解的問題解答關注:58
合著出書能否評職稱?關注:48
電信學有哪些可投稿的SCI期刊,值...關注:66
通信工程行業論文選題關注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關注:121
評職稱發論文好還是出書好關注:68
復印報刊資料重要轉載來源期刊(...關注:51
英文期刊審稿常見的論文狀態及其...關注:69
電子信息論文范文
智能科學技術論文 廣播電視論文 光電技術論文 計算機信息管理論文 計算機網絡論文 計算機應用論文 通信論文 信息安全論文 微電子應用論文 電子技術論文 生物醫學工程論文 軟件開發論文
SCI期刊分析
copyright © www.56st48f.cn, All Rights Reserved
搜論文知識網 冀ICP備15021333號-3