带你去看民生银行大数据体系架构设计

文章整理:加米谷大数据
近年来,随着大数据与人工智能相关技术的迅速发展,新技术逐步在全社会各行各业得到应用 。银行业作为一个高度信息化的行业,首当其冲面临着互联网新技术应用的挑战 。民生银行在 2013 年开始布局分布式、大数据及人工智能技术等领域,在全行凤凰计划的牵头下,逐步的将新技术与我行发展战略业务实施策略进行了深度融合,为金融科技银行的发展奠定了扎实的基础 。
一、大数据简介大数据起源于互联网,在 2003 年左右由 google 发布 GFS 和 MapReduce 论文为节点拉开了新技术应用的序幕,介绍了一种利用普通 PC 服务器构建大规模分布式系统,来解决海量数据的存储和计算问题 。在此论文基础上发展出来的 Hadoop 开源体系逐步成为海量数据处理的一种通用技术框架 。2008 年左右 Hadoop 技术被广泛的使用在各个互联网企业中,极大的推进 Hadoop 技术体系的成熟,随着早期 Single Point of Failure 问题被解决,在 MAP-REDUCE 两阶段的计算模式上,诞生了更丰富的 Spark、Flink 等计算框架 。2013 年左右批量数据的计算模式逐步成熟,在需求的推动下互联网开始进一步的攻坚实时数据计算领域 。同年部分银行开始尝试引入 Hadoop 大数据技术 。民生银行作为银行业第一批,在 2013 年从互联网引入了大数据专业才人,启动了 Hadoop 大数据体系化的建设 。
新技术的应用首要是解决问题,提高数据使用的效率,降低数据使用成本,最终推动业务数字化、智能化转型 。在大数据体系化规划下,以服务用户为目标,以解决问题为抓手逐步推动大数据技术落地 。民生银行大数据整体规划如下图:

带你去看民生银行大数据体系架构设计

文章插图
 
图 1、大数据平台体系规划
在整个规划的指导下,按照不同阶段的主力需求,民生银行大数据建设可以简单分为三个阶段:
第一个阶段是面向客户的在线存储查询阶段:
银行有很多面向客户的数据,数据积累非常快也非常多,以流水数据为例,为了保证系统服务质量,通常是缩短可查询的周期,依托大数据的海量数据存储能力,基于分布式体系构建了历史数据管理平台来满足业务场景中海量数据的存储和查询服务需求 。
第二个阶段是离线的批量数据计算及智能数据分析阶段:
在 2015 年全面启动凤凰计划建设后,各领域系统性的梳理了业务战略和实施策略,配合凤凰计划中数字化战略的落地,业务流程和模式中涌现出大量的批量数据加工计算和结果数据服务的应用场景 。在这个阶段根据数据流转周期和服务场景,结合整体的数据管控需求,建立了企业级数据开发模型,逐步推动和完善了全行统一的数据服务中台,先后为数十个业务场景提供数据支持 。同时随着数据中台的成熟,原始数据的积累,基于数据的机器学习人工智能分析等场景逐步涌现,为了降低新技术的使用门槛,快速迭代场景下的机器学习算法模型,在这个阶段同步建设了可视化的机器学习平台,对接数据中台,为个性化推荐、风险预警及运营多个领域内的细分场景提供服务能力输出 。
第三个阶段是全面推动在线实时数据计算及分析阶段:
随着批量数据体系的成熟,业务场景对实时数据的需求迅速涌现,我行科技启动了全面的实时数据体系建设,对实时风控和实时事件驱动的营销和运营形成了全面的支撑 。
通过三个阶段,在支撑业务应用场景发展的同时,目前平台层面已初步完成如下几大平台建设:
  1. 数据采集分析平台
  2. Hadoop 数据加工整合平台
  3. 可视化机器学习平台
  4. 实时推荐引擎
  5. 数据开放平台

带你去看民生银行大数据体系架构设计

文章插图
 
图 2、大数据主要平台视图
在数据采集层通过行为数据平台和外部数据平台,丰富了整个数据体系 。通过数据整合平台(DC),打通以用户为中心的全维度的数据视图,为后续的机器学习和人工智能应用提供了可行的数据基础,通过可视化的机器学习平台完成数据与算法的结合,由数据服务层统一管控输出 。
目前随着大数据多个平台的建设,为我行多个战略级项目提供了全面的底层数据和模型能力输出,包括支持了凤凰计划项目指南针预警项目、数据化平台型授信决策变革项目、运营风险监控体系项目、新一代零售信贷体系、村镇银行等多个项目的建设 。
二、数据采集平台背景及目标银行在过去的信息化建设中,更多的注重是交易数据的积累,对用户的使用偏好、浏览点击行为、停留时间等行为层面的数据较少涉及 。随着大数据的发展,通过对用户数据的收集,整合,分析,挖掘,能够很好的对用户是谁,用户从哪来,要到哪里去等问题进行定义和解析 。在交易数据的基础上,对用户行为数据和外部数据进行补充建设,有了这些数据,首先可以在我行的 App、网站以及 ATM 等与用户密切相关的场景里,提供更贴心,更优质的服务;其次对公司内部各个金融业务产品用户体验优化等方向上提供用户数据反馈支撑 。


推荐阅读