上一篇讲了银行数据仓库的系统架构,这次给大家讲讲数据架构 。如果一个系统,没有数据架构,那肯定是在吹牛 。
狭义的数据仓库数据架构用来特指数据分布,广义的数据仓库数据架构还包括数据模型、数据标准和数据治理 。即包含相对静态部分如元数据、业务对象数据模型、主数据、共享数据,也包含相对动态部分如数据流转、ETL、整合、访问应用和数据全生命周期管控治理 。
数据架构层面通过数据分类、分层部署等手段,从非功能性视角将数据合理布局 。通过整体架构管控和设计,支持业务操作类和管理分析类应用(系统),满足业务发展及IT转型对数据的需求,架构的扩展性和适应性能够提升数据分析应用的及时性、灵活性和准确性 。
那实际情况下各个银行的数据架构体系会有所不同,根据各行的业务发展、客户数据量、交易数据量、功能需求等会有不同的演变路径以及发展方向 。一般国有银行、股份制银行等全国性的银行业务较复杂,数据量也较多,数据架构也因此进化较快 。常见的数据架构分区如下图所示:
文章插图
1、数据采集层数据缓冲区的数据主要是将数据从源系统加载到数据仓库中,作为数据在数据仓库的起点,数据缓存区数据只保留7-10天,以备数据问题处理,数据缓冲区的数据除了标准化的处理,最好直接获取源系统未经加工的数据,以便一次抽取,多次使用 。
标准化处理主要有编码统一转化、异常字符清理等,以便后续处理 。数据采集层不仅仅只应用于数据仓库相关,也可以适用于各交易系统的批量数据或文件传输和交换,所以在全行系统层面制定规范 。
2、存储计算层(1)主数据区:
指结构化数据的主数据区,这部分数据包括了所有的基础明细数据以及历史数据,其它区域的结构化数据都是由主数据区数据加工而来 。那主数据区主要有两种模型:近源模型层和整合模型层 。一般在实践过程中可以两个区域都有,也可以只有任意一个区域 。这两个区的数据都通过历史拉链或历史流水的方式保留历史数据,如果有数据标准,这两个区的数据按数据标准进行字段属性如代码值、长度、精度的标准化,那这两个区的数据主要在模型设计方面有所不同:
①近源模型区:表结构设计和源系统类似,在源系统表基础上增加标准化字段以及历史数据保存算法的数据日期字段,近源模型层的特点是保留源系统表所有信息,在建模和运行效率上比较高,但数据整合性不高,一些交易系统设计的表结构并不直接适用数据分析和加工 。
②整合模型区:整合模型区按主题进行数据整合、表设计以三范式为主,模型稳定,数据冗余少,那这里模型稳定是指即使源系统表结构如何变化,只要实体之间关系和属性不变,那整合模型也可以保持基本不变 。模型稳定的一个好处就是可以屏蔽源系统变化,避免下游应用系统重复改造 。
举个栗子:个人信贷系统升级,将使用新的系统,那所有表结构都会发生变化,如果直接使用近源模型区数据,那对于后续加工变化很大,同时时间跨度较大的分析(如年报)需要分别考虑新旧个人信贷系统的数据加工规则,如果使用整合模型,那整合模型变动不会太大,对于历史数据也能同时存在于一个模型(一套表)中,对于后续应用加工影响较小 。同时整合模型会在客户、账户、签约等各主要维度进行分析梳理,形成整体视图,有利于从全行视角分析 。例如客户整合可以区分客户唯一性,获得客户视图;产品和签约的整合可以清楚看到客户在行内的购买的所有产品和签约 。方便后续客户分析 。
文章插图
(2)指标汇总区:
由于主数据区的数据并不合适直接提供给数据系统分析使用,因此指标汇总区是整合各数据应用的加工需求,按事实表(宽表)和维度表进行模型设计,对主数据区数据进行关联、公共指标加工,提供给多个数据应用使用,那指标汇总区可按协议(账户)、产品、客户、科目、机构等逐层汇总,指标汇总区可以消除各系统对于同一个指标分别加工导致的口径差异 。
(3)集市区(仓内):
仓内集市主要指和数据仓库在同一个物理平台中的集市,可以直接访问主数据区,指标汇总区数据、减少数据批量转移的成本,利用数据仓库平台分析性能快速进行数据加工,那数据集市的划分可按业务部门或下游系统关联度进行集市划分,如财务集市面向管理会计等财务分析应用进行专门的数据加工、使用者主要为计划财务部 。监管集市主要面向给人行、银监进行监管报送报表的加工,涉及多个业务管理部门 。
推荐阅读
- 并使用java实现 一文彻底看懂Base64编码解码原理
- etc绑定银行卡余额不足能通行吗 ETC余额不足让通行吗
- 读懂公积金那些事儿
- 一文了解网络交换机的6种命令配置模式
- 为啥都会让开通个手机银行 开通手机银行
- 一份报告读懂化妆品电商行业 化妆品电商
- 银行卡如何实名认证 中国银行实名认证
- 一文详解枚举器和迭代器
- 一文看懂四种基本的神经网络架构
- 一文轻松了解网络流量控制,反压技术原理,程序员必备通信知识12