更新時間:2021-07-28 來源:黑馬程序員 瀏覽量:
數(shù)據(jù)倉庫標準上可以分為四層:ODS(臨時存儲層)、PDW(數(shù)據(jù)倉庫層)、MID(數(shù)據(jù)集市層)、APP(應用層)。
ODS層: 為臨時存儲層,是接口數(shù)據(jù)的臨時存儲區(qū)域,為后一步的數(shù)據(jù)處理做準備。一般來說ODS層的數(shù)據(jù)和源系統(tǒng)的數(shù)據(jù)是同構的,主要目的是簡化后續(xù)數(shù)據(jù)加工處理的工作。從數(shù)據(jù)粒度上來說ODS層的數(shù)據(jù)粒度是細的。ODS層的表通常包括兩類,一個用于存儲當前需要加載的數(shù)據(jù),一個用于存儲處理完后的歷史數(shù)據(jù)。歷史數(shù)據(jù)一般保存3-6個月后需要清除,以節(jié)省空間。但不同的項目要區(qū)別對待,如果源系統(tǒng)的數(shù)據(jù)量不大,可以保留更長的時間,甚至全量保存;
PDW層: 為數(shù)據(jù)倉庫層,PDW層的數(shù)據(jù)應該是一致的、準確的、干凈的數(shù)據(jù),即對源系統(tǒng)數(shù)據(jù)進行了清洗(去除了雜質(zhì))后的數(shù)據(jù)。這一層的數(shù)據(jù)一般是遵循數(shù)據(jù)庫第三范式的,其數(shù)據(jù)粒度通常和ODS的粒度相同。在PDW層會保存BI系統(tǒng)中所有的歷史數(shù)據(jù),例如保存10年的數(shù)據(jù)。
MID層: 為數(shù)據(jù)集市層,這層數(shù)據(jù)是面向主題來組織數(shù)據(jù)的,通常是星形或雪花結構的數(shù)據(jù)。從數(shù)據(jù)粒度來說,這層的數(shù)據(jù)是輕度匯總級的數(shù)據(jù),已經(jīng)不存在明細數(shù)據(jù)了。從數(shù)據(jù)的時間跨度來說,通常是PDW層的一部分,主要的目的是為了滿足用戶分析的需求,而從分析的角度來說,用戶通常只需要分析近幾年(如近三年的數(shù)據(jù))的即可。從數(shù)據(jù)的廣度來說,仍然覆蓋了所有業(yè)務數(shù)據(jù)。
APP層: 為應用層,這層數(shù)據(jù)是完全為了滿足具體的分析需求而構建的數(shù)據(jù),也是星形或雪花結構的數(shù)據(jù)。從數(shù)據(jù)粒度來說是高度匯總的數(shù)據(jù)。從數(shù)據(jù)的廣度來說,則并不一定會覆蓋所有業(yè)務數(shù)據(jù),而是MID層數(shù)據(jù)的一個真子集,從某種意義上來說是MID層數(shù)據(jù)的一個重復。從極端情況來說,可以為每一張報表在APP層構建一個模型來支持,達到以空間換時間的目的數(shù)據(jù)倉庫的標準分層只是一個建議性質(zhì)的標準,實際實施時需要根據(jù)實際情況確定數(shù)據(jù)倉庫的分層,不同類型的數(shù)據(jù)也可能采取不同的分層方法。
什么是數(shù)據(jù)倉庫?Hive數(shù)據(jù)倉庫特點簡介
數(shù)據(jù)倉庫的基本架構介紹[大數(shù)據(jù)培訓]