一文了解数据仓库

人工智能层的:智慧地球、智慧城市、智慧社会企业层面的:数字互联网,数字经济、数字平台、数字城市、数字政府;平台层面的:物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱技术层面的:数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等
数据中台数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念 。数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制 。数据中台连接数据前台和后台,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本 。数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径 。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务 。数据中台,包括平台、工具、数据、组织、流程、规范等一切与企业数据资产如何用起来所相关的 。
可以看出,数据中台是解决如何用好数据的问题,目前还缺乏一个标准,而说到数据中台一定会提及大数据,而大数据又是由数据仓库发展起来的 。
数据仓库(Data WareHouse)简述数据仓库,按照传统的定义,数据仓库是一个面向主题的、集成的、非易失的、反映历史变化(随时间变化),用来支持管理人员决策的数据集合 。1,面向主题操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织 。主题是一个抽象的概念,是数据归类的标准,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关 。每一个主题基本对应一个宏观的分析领域 。例如,银行的数据仓库的主题:客户客户数据来源:从银行储蓄数据库、信用卡数据库、贷款数据库等几个数据库中抽取的数据整理而成 。这些客户信息有可能是一致的,也可能是不一致的,这些信息需要统一整合才能完整体现客户 。
2,集成面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的 。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息 。具体如下:1:数据进入数据仓库后、使用之前,必须经过加工与集成 。2:对不同的数据来源进行统一数据结构和编码 。统一原始数 据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等 。3:将原始数据结构做一个从面向应用到面向主题的大转变 。
3,非易失即相对稳定的操作型数据库中的数据通常实时更新,数据根据需要及时发生变化 。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新 。
数据仓库中包括了大量的历史数据 。
数据经集成进入数据仓库后是极少或根本不更新的 。
随时间变化即反映历史变化操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测 。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础 。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义 。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务 。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程
数据仓库内的数据时限一般在5-10年以上,甚至永不删除,这些数据的键码都包含时间项,标明数据的历史时期,方便做时间趋势分析 。


推荐阅读