数据中台到底包括什么内容?一文详解架构设计与组成

导读:《终于有人把数据中台讲明白了》一文讲到数据中台的定义和价值,本文将介绍数据中台到底包括什么内容 。企业建设数据中台的过程中哪些能力是必选项,哪些是可选的,将在本文一一揭晓 。
作者:陈新宇 罗家鹰 江威 邓通 等
来源:华章科技
数据中台到底包括什么内容?一文详解架构设计与组成

文章插图
 
01 数据中台功能架构数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建 。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层(见图4-2) 。
数据中台到底包括什么内容?一文详解架构设计与组成

文章插图
▲图4-2 数据中台功能架构
1. 工具平台层
工具平台层是数据中台的载体,包含大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一体的大数据平台;还包含建设数据中台的一系列工具,如离线或实时数据研发工具、数据联通工具、标签计算工具、算法平台工具、数据服务工具及自助分析工具 。
以上工具集基本覆盖了数据中台的数据加工过程 。
1)数据开发平台
大数据的4V特征[1]决定了数据处理是一个复杂的工程 。建设数据中台需要搭建建设数据中台的基建工具,要满足各种结构化、非结构化数据的采集、存储与处理,要根据场景处理离线和实时数据的计算与存储,要将一个个数据处理任务串联起来以保障数据的运转能赋能到业务端 。
[1] 大数据的4V 指Volume(数据量大)、Variety(类型繁多)、Velocity(速度快,效率高)、Value(价值密度低) 。
因此首先搭建一个大数据能力平台是非常有必要的 。当然,可根据企业实际情况来决定是外采还是自建平台 。
2)数据资产管理
数据中台建设的成功与否,与数据资产是否管理有序有直接关系 。前文提到,数据中台是需要持续运营的 。随着时间的推移,数据不断涌入数据中台,如果没有一套井然有序的数据资产平台来进行管理,后果将不堪设想 。
数据资产管理工具既能帮助企业合理评估、规范和治理信息资产,又可以发挥数据资产价值并促进数据资产持续增值 。对于数据资产管理,我们不推荐事后管理,而要与数据研发的过程联动 。也就是说,当数据经过数据开发平台加工的链路时,数据资产管理平台就已经无声无息地介入了 。
数据资产管理的首要任务是管理好进入数据中台的元数据,这里的元数据包括数据源、建设的各种模型、通过模型拆解出来的指标与标签以及调度作业 。有序管理这些数据资产的元数据是前提条件,只有做好了这一步,才能继续对数据流向的追溯,才能对指标、标签体系的生命周期进行管理,确定指标的使用频率,决定是否下线 。
3)标签工厂
标签工厂又称标签平台,是数据中台体系内的明星工具类产品 。标签建设是数据中台走向数据业务化的关键步骤 。因此,一个强大的标签工厂是数据中台价值体现的有力保障 。
严格来说,标签工厂也属于数据开发平台的一部分,为什么我们要把它单独剥离出来讲呢?这是因为标签的使用场景丰富,标签与业务结合得非常紧密;同时,标签数据的存储与分析型数据的存储有一定的差异 。
标签工厂致力于屏蔽底层复杂的大数据框架,面向普通开发人员、数据分析师、运营人员提供友好的界面交互配置,完成标签的全生命周期管理;同时,对上层业务系统提供自身API能力,与各业务系统形成数据闭环 。
标签工厂按功能一般分为两部分:底层的标签计算引擎与上层的标签配置与管理门户 。标签计算引擎一般会采用MapReduce、Spark、Flink等大数据计算框架,而计算后的标签存储可采用Elasticsearch或者HBase,这样存储的好处是便于快速检索 。
而标签配置与管理门户则支持通过配置标签规则提交到标签计算引擎,就能定时算出所需要的标签 。标签配置和管理门户还提供标准的标签服务申请与调用 。通过标签工厂,数据中台团队可减少大量的数据开发工作 。
4)ID-MApping
ID-Mapping又称ID打通工具,是数据中台建设的可选项 。可选不代表不重要,在一些多渠道、多触点的新零售企业,离开了这个工具,数据质量将大打折扣 。
举个例子 。消费者在逛街的时候看到一款剃须刀,扫了店内的二维码,正准备下单购买时被朋友的电话中断了 。回到家,打开抖音又看到这个剃须刀的广告,便立即打开链接下单购买了 。


推荐阅读