柠檬少年|一口气说穿数据中台-给你架构师的视角( 二 )


数据仓库解决的核心问题其实就是上面说到的 , 解决历史情况追踪 , 解决数据分析能力、解决业务频繁变化等一系列问题 。
拿inmon老爷子的话来总结一下:
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合 , 用于支持管理决策(Decision Making Support) 。
柠檬少年|一口气说穿数据中台-给你架构师的视角这个像什么?是不是很像系统架构中的微服务?对不对?横向分层 , 竖向切分领域 。 跟微服务的理念一样一样的 。
柠檬少年|一口气说穿数据中台-给你架构师的视角数据湖时代
数据仓库很好用 , 多维分析简直能满足老板的一切需要 。 它能让决策者从公司总体情况 , 一直下钻到每个业务员的贡献 , 极大的满足了决策者的掌控欲 , 同时也给企业的决策带来了坚实的数据基础 。
但是 , 数据仓库也有其非常致命的弊端:所有数据必须经过定义之后才能被使用 , 所有数据都经过了ETL处理 , 所有数据都被聚合 。
作为数据工作者的你 , 肯定能理解其中的含义 。 一旦数据被动过 , 那就会造成信息丢失 。
而在算法时代 , 这是不可接受的 。
因此 , 在数据仓库发展了20年之后的2010年 , Pentaho的创始人James Dixon提出了一个“数据湖”的概念 。 简单来说 , 数据湖其实可以理解为一个巨大的ODS层 。
柠檬少年|一口气说穿数据中台-给你架构师的视角任何使用数据的同学都可以直接到数据湖中自由提取数据:

  • 在多维分析报表中钻取到最细颗粒度之后仍然不能解决问题的 , 就到数据湖中查看最原始的数据 , 查找根因 。
  • 在进行算法设计的时候 , 数仓中处理的数据已经损失了一部分信息 , 那就去数据湖中找更详尽、更丰富的底层数据 , 没准可以找到最佳特征 。
数据中台时代
数据湖貌似非常完美 , 能解决一切问题 , 但是肯定哄不住专业的你 。 是的 , 数据湖说的好听 , 是一个原生态的 , 任由你汲取的巨型数据源 , 说的不好听 , 就是一个数据垃圾堆 。 不管你管理的多么好都无法改变这个事实 。
你现在已经找到了一个异常客户 , 想找到这个客户在公司业务流中的表现 。 我们应该会通过CRM与其进行沟通和跟进;通过交易平台与其发生交易;货物是通过ERP进行采购的 , 通过WMS记录货物存储信息的 , 通过TMS记录货物运输过程信息的 。 最后你是在微博中收到了他的抱怨信息 , 在客服中心的CallCenter接到投诉电话的 。
这个时候 , 你想怎么办?各个系统都是独立建设的 , 所有数据都在数据湖中 , 你就是没办法把他们串起来!而且 , 这还是一条业务线 。 公司通常都会有N条业务线 , 每个业务线的系统都统统单独建立一遍 , 一个客户与公司发生关系的系统越来越多 。
这个时候 , 数据中台就出现了 。
柠檬少年|一口气说穿数据中台-给你架构师的视角图片来自于阿里云数据中台解决方案手册
所以你可以看到 , 数据中台解决的是什么问题:
  • 实体的打通和画像-OneID;
  • 数据资产的统一构建与管理-OneModel;
  • 数据服务的统一服务-OneService
这三点 , 共同组成了数据中台的OneData的方法论体系 。


推荐阅读