数据仓库构建流程( 二 )


建设CDM公共层最常用的技术就是维度建模,因为它更适合大数据时代数据量巨大的特点 。简单来说,就是一张事实表+多张维度表 。

数据仓库构建流程

文章插图
 
当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故也将该模型称为星型模型 。
与业务系统的数据结构对比,我们可以发现,维度建模有以下特点:
1)模型简单易理解
站在业务的角度上,用“一张事实表+多张维度表”的模式组织数据,仅有维度、事实两种类型数据 。可以简单的理解星型模型,就是我们把where和group后面的字段放入维度表中,把sum和count中的字段放入事实表中,并在事实表中加入维度的键值用于关联 。
2)可扩展性好
可以在不改变数据粒度的情况下,方便地增加新的分析维度和事实,不会影响正在使用的报表和数据应用 。
4)数据冗余
构建维度表和事实表都需要大量的数据预处理,导致大量的ETL工作,并且可以看出,相比业务系统的精简,星型模型明显是“用空间换易用和效率”,存在大量的数据冗余 。




推荐阅读