带你去看民生银行大数据体系架构设计( 二 )


行为数据采集及分析

带你去看民生银行大数据体系架构设计

文章插图
 
图 3、行为数据平台
从行为数据的采集、数据分析整合及数据应用三个方面统筹进行规划和设计,完成了行为数据平台(GD)的建设 。数据采集部分作为整个项目的数据来源层,完成对用户产生的原始行为数据的收集和存储 。数据分析部分作为 GD 的中间层,对收集来的用户行为数据进行统计分析,大致可以得到三类数据,一类是反应应用整体运营情况的指标数据,第二类是反应用户行为轨迹、地理位置轨迹等的用户生命周期数据,还有一类是标识每一个微观用户的标签数据 。数据应用部分作为 GD 对外展示和服务层,一方面为实时推荐、精准营销等应用提供数据支持,一方面通过后台管理系统,供应用运营方进行查看 。
在数据采集层通过构建采集客户端 SDK,嵌入我行统一的移动开发框架 Firefly 以及前端开发框架 Apollo 中,结合无码采集的技术能力运用,使得我行所有基于同一框架开发的移动端 APP 和 Web 网站天然具备用户行为数据采集和分析的能力 。
行为数据平台自 2015 年上线到现在为止,已经接入了手机银行、直销银行、乐收银及客户化运营等民生银行大部分 APP 应用,对这些应用中的用户的行为数据进行采集,2017 年又增加了对网页端行为数据采集的功能 。目前每天采集的数据超过千万条,累积的行为数据已经达到数十亿条,通过大数据分析技术,对采集到的数据进行了报表统计和分析,已得到五类的统计报表数据,包括应用中用户的新增数目、活跃数目、累计数目及用户的设备分布、地域分布、操作系统、留存情况、用户浏览时长统计、点击事件统计及应用的错误统计等,目前进一步的在推动行为数据对营销和风控的实时数据补充 。
外部数据采集及分析
带你去看民生银行大数据体系架构设计

文章插图
 
图 4、外部数据平台
在启动外部数据平台建设之前,我行外部数据由各业务条线独立规划实施,各个技术团队建设了自己业务领域内的外部数据链路及服务,形成了“烟囱”式的数据加工服务模式 。随着 Hadoop 大数据平台的推进,2016 年在统一外部数据管理及使用的思想下,启动了外部数据平台的建设,核心定位在于:负责所有外部数据的统一存储、统一加工以及统一的查询服务,要求支持海量的结构化、非结构化外部数据的引入分析能力 。
外部数据平台 OMDS 于 2016 年 9 月完成上线,目前已经整合接入包括征信、工商、法院、公安、千里眼、百度、银联、世联评估、行业分析、万德财报等约二十种外部数据的统一管控和服务 。
三、配置化的数据加工整合平台背景及目标Hadoop 数据整合平(DC)在行内大数据体系中承担着承上启下的角色,汇集各渠道的数据到大数据平台,经过统一清洗、加工、治理,进而向上游应用提供服务,从后台走到中台,直接、快速地向应用系统提供数据服务和大数据能力,发挥数据内在的威力 。数据的获取并不是目的,如何利用大数据平台技术,实现数据的管理和信息的加工提炼,并对上游系统提供各类数据支支持 。针对这些问题和挑战,DC 从数据和技术两个方面着手对平台进行构建 。
数据层次
带你去看民生银行大数据体系架构设计

文章插图
 
图 5、DC 数据层次
为方便数据的管理、加工和使用,DC 将数据进行了分层:近源层和共性加工层,其中近源层为来自于 MDS、OMDS、GD 和 EDW 的原始数据,包含行内数据、外部数据、行为数据、分行数据和数仓数据 。
近源层数据经过关联、汇总和分析之后,针对上游应用的需求,进行数据共性加工,包括流水加工、应用统计、指标加工、标签计算、风险领域和运营领域 。
通过 OpenFile(批量文件服务)实现数据的订阅管理,提供了近源层、共性加工层等数据的查看、订阅功能 。
技术架构基于上述数据架构及应用需求,DC 从数据处理、任务调度、数据管理和开发辅助四块进行平台的建设,技术架构如下图:
带你去看民生银行大数据体系架构设计

文章插图
 
图 6、DC 技术架构图
1、 数据处理体系
数据的存储、计算和分析为基于 Hadoop 生态体系,包括 Hadoop、Spark、Inceptor、HBase 等分布式计算及存储框架,来完成数据的存储、计算、分析整个生命周期 。


推荐阅读