数据仓库系统架构和数仓分层体系介绍( 二 )


对数据做清洗、转换;
DWD层的数据不一定要永久保存,具体保存周期视业务情况而定;
 
2.3、DWS数据汇总层
DWS层数据 按主题对数据进行抽象、归类,提供业务系统细节数据的长期沉淀 。这一层是一些汇总后的宽表,是根据DWD层数据按照各种维度或多种维度组合,把需要查询的一些事实字段进行汇总统计 。可以满足一些特定查询、数据挖掘应用,面向业务层面,根据需求进行汇总 。
处理原则:
面向全局、数据整合;
存放最全的历史数据,业务发生变化时易于扩展,适应复杂的实际业务情况;
尽量减少数据访问时的计算量,优化表的关联 。维度建模,星形模型;
事实拉宽,度量预先计算, 基本都是快照表 。反规范化,有数据冗余 。
 
2.4、AWS数据明细层
ADS应用层是根据业务需要,由DWD、DWS数据统计而出的结果,可以直接提供查询展现,或导入至Oracle等关系型数据库中使用 。这一层的数据会面向特定的业务部门,不同的业务部门使用不同的数据,支持数据挖掘 。
处理原则:
形式各式,主要按不同的业务需求来处理;
保持数据量小,定时刷新数据;
数据同步到不同的关系型数据库或hbase等其他数据库中 。
提供最终数据,来满足业务人员、数据分析人员的数据需求 。

【数据仓库系统架构和数仓分层体系介绍】


推荐阅读