数据仓库,并不是数据最终目的地,而是为数据最终的目的地做好准备:清洗、转义、分类、重组、合并、拆分、统计等等通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制、成本、提高产品质量等
主要解决问题:数据报表,数据沉淀,数据计算Join过多,数据查询过慢等问题 。防止烟囱式开发,减少重复开发,开发通用中间层数据,减少重复计算;将复杂问题简单化,将复杂任务的多个步骤分解到各个层次中,每一层只处理较少的步骤,使单个任务更容易理解;可进行数据血缘追踪,便于快速定位问题;整个数据层次清晰,每个层次的数据都有职责定位,便于使用和理解 。
主要价值体现:企业数据模型,这些模型随着前端业务系统的发展变化,不断变革,不断追加,不断丰富和完善,即使系统不再了,也可以在短期内快速重建起来,这也是大数据产品能够快速迭代起来的一个重要原因.总结:数据仓库,即为企业数据的模型沉淀,为了能更快的发展大数据应用,提供可靠的模型来快速迭代 。本文也主要为了讲解数据仓库
数据仓库相关图集
文章插图
数仓硬件架构图
文章插图
数仓功能架构
文章插图
数仓流程架构图1
文章插图
数仓流程架构图2
文章插图
实时数仓流程架构图
数据仓库的演进
文章插图
演进
数据仓库主要用途大家应该已经意识到这个问题:既然分析型数据库中的操作都是查询,因此也就不需要严格满足完整性/参照性约束以及范式设计要求,而这些却正是分析型数据库精华所在 。这样的情况下再将它归为数据库会很容易引起大家混淆,毕竟在绝大多数人心里数据库是可以关系型数据库画上等号的 。
那么为什么不干脆叫"面向分析的存储系统"呢?这就是关于数据仓库最贴切的定义了 。事实上数据仓库不应让传统关系数据库来实现,因为关系数据库最少也要求满足第1范式,而数据仓库里的关系表可以不满足第1范式 。也就是说,同样的记录在一个关系表里可以出现N次 。但由于大多数数据仓库内的表的统计分析还是用SQL,因此很多人把它和关系数据库搞混了 。
支持数据提取数据提取可以支撑来自企业各业务部门的数据需求 。
由之前的不同业务部门给不同业务系统提需求转变为不同业务系统统一给数据仓库提需求,避免烟囱式开发
文章插图
数据提取
支持报表系统基于企业的数据仓库,向上支撑企业的各部门的统计报表需求,辅助支撑企业日常运营决策 。
文章插图
报表系统
支持数据分析从许多来自不同的企业业务系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取、转换和装载,即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图;
在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识);
最后将知识呈现给管理者,为管理者的决策过程提供支持。
支持数据挖掘数据挖掘也称为数据库知识发现(Knowledge Discovery in Databases, KDD),就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识) 。
Jiawei Han在《数据挖掘概念与技术》一书中对数据挖掘的定义:数据挖掘是从大量数据中挖掘有趣模式和知识的过程,数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据 。
文章插图
image.png
支持数据应用物联网基于位置数据的旅游客流分析及人群画像通信基于位置数据的人流监控和预警银行基于用户交易数据的金融画像应用电商根据用户浏览和购买行为的用户标签体系及推荐系统征信机构根据用户信用记录的信用评估出行基于位置数据的车流量分析,调度预测
推荐阅读
- 常见加密算法 「asp.net core 系列」12 数据加密算法
- 电热水器24小时开着好,还是用时再开好?了解后发现,多半人做错
- 供电局是怎么远程抄电表的,智能电表如何传送数据?看了算明白了
- 茶文化之了解茶的功效,蜀土茶称圣为川茶特殊历史渊源所作之歌词
- 淘宝店铺运营及分析的总结 如何分析优化淘宝客推广数据
- Streamlit是python的一个机器学习、数据科学、应用开发框架
- Python-Streamlit库再学习:st.slider和数据可视作图
- 淘宝行业大盘在哪里看 淘宝怎么看大盘实时数据
- 两万字深度介绍分布式,一文入魂
- 生意参谋怎么看竞品数据 生意参谋竞争商品怎么添加