数据中台到底包括什么内容?一文详解架构设计与组成( 二 )


这样的场景在生活中比比皆是,其中隐藏了很多的消费者信息,如果我们不去打通ID,那么可能至少会将同一个用户当作4个用户来处理 。实际上可以将扫描二维码记录留下的OpenID、抖音注册留下的微信号、下单提供的订单手机号码及注册账号等多条信息结合起来,判别是不是同一个人 。这样给这个消费者打标签或者推荐商品就会更加精准 。
ID-Mapping功能的建设一般会利用强大的图计算功能,通过两两之间的关系实现互通,自动高效地将关联的身份映射为同一身份即唯一ID的数据工具 。它能大幅度降低处理成本,提高效率,挖掘更多用户信息,形成更完整的画像,大大利于数字营销的推进 。
另外,ID-Mapping工具也可用于企业主数据治理 。
5)机器学习平台
在整个机器学习的工作流中,模型训练的代码开发只是其中一部分 。除此之外,数据准备、数据清洗、数据标注、特征提取、超参数的选择与优化、训练任务的监控、模型的发布与集成、日志的回收等,都是流程中不可或缺的部分 。
机器学习平台支持训练数据的高质量采集与高效标注,内置预训练模型,封装机器学习算法,通过可视化拖曳实现模型训练,支持从数据处理、模型训练、模型部署为在线预测服务,通过RESTful API的形式与业务应用集成,实现预测,打通机器学习全链路,帮助企业更好地完成传统机器学习和深度学习的落地 。
【数据中台到底包括什么内容?一文详解架构设计与组成】6)统一数据服务
统一数据服务旨在为企业搭建统一的数据服务门户,帮助企业提升数据资产的价值,同时保证数据的可靠性、安全性和有效性 。
统一数据服务支持通过界面配置的方式构建API和数据服务接口,以满足不同数据的使用场景,同时降低数据的开发门槛,帮助企业实现数据应用价值最大化 。
统一数据服务作为唯一的数据服务出口,实现了数据的统一市场化管理,在有效降低数据开放门槛的同时,保障了数据开放的安全 。

数据中台到底包括什么内容?一文详解架构设计与组成

文章插图
 
2. 数据资产层
数据资产层是数据中台的核心层,它依托于工具平台层,那么这一层又有什么内容呢?答案是因企业的业务与行业而异,但总体来讲,可以划分为主题域模型区、标签模型区和算法模型区 。
1)主题域模型
主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合 。业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等 。
为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动 。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影响地被包含进已有的数据域中或者很容易扩展新的数据域 。
数据域划分需要先对业务系统进行充分调研 。将业务过程划分到哪个数据域没有绝对的对错,但是会影响报表开发人员定位数据的效率,所以还需要从开发人员定位效率的角度来进行综合划分 。
2)标签模型
标签模型的设计与主题域模型方法大同小异,同样需要结合业务过程进行设计,需要充分理解业务过程 。标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店、经销商等 。这些主体一般来说都穿插在各个业务流程中,比如会员一般都穿插在关注、注册、浏览、下单、评价、服务等环节 。
那么在设计标签的时候就需要充分理解这些业务流程,在流程中发现标签的应用点,结合这些应用点来搭建企业的标签体系 。
标签模型按计算模式一般分为客观标签和主观标签,客观标签是可以量化的,而主观标签是不可量化的 。根据实现方式又可以将标签分为事实标签、模型标签、算法标签等,根据业务场景还可将标签分为基础信息标签、偏好标签、价值标签等 。
设计标签模型时非常关键的要素是标签模型一定要具有可扩展性 。毕竟标签这种数据资产是需要持续运营的,也是有生命周期的,在运营的过程中随时可能增加新的标签 。
3)算法模型
算法模型更加贴近业务场景 。在设计算法模型的时候要反复推演算法模型使用的场景,包括模型的冷启动等问题 。整个模型搭建过程包含定场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整7个环节 。
以新零售企业为例,常用的机器学习算法有决策树、神经网络、关联规则、聚类、贝叶斯、支持向量机等 。这些算法已经非常成熟,可以用来实现商品个性化推荐、销量预测、流失预测、商品组货优化等新零售场景的算法模型 。


推荐阅读