数据|关于数据仓库的架构及3大类组件工具选型( 三 )
有关报表工具 , 现在项目上用的比较多的是帆软FineReport , 针对不同企业数仓架构以及报表需求的适用性较广 。比如对接各种数据库直接生成报表;对采集整理后的数据进行多维报表展现 , 支撑业务分析报表;对接集团性数据仓库 , 构建数据中心平台 , 形成决策分析平台 。
文章图片
文章图片
2、BI即席分析工具
BI一般都集成了OLAP服务器和报表展示功能 。分析型BI基于多维数据库的概念 , 能多维视角分析数据 , 通常是从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端BI分析工具读取 。
BI在前端通过拖拽数据字段 , 多维度实施展现数据 , 最终生成各种分析报告 。常用的BI工具有PowerBI、Tableau、FineBI , 还有开源的superset 。个人使用多用前两者 , 企业项目上选型多用FineBI , 因为要考虑性能、服务方案等 。剩余就是自研或者开源 , superset算是比较公认的开源BI 。
文章图片
文章图片
BI工具做什么的不多说了 , 在项目选型的时候主要考虑上手难度(考虑没技术基础的业务用) , 数据处理性能 , 其他就是技术选型的事 , 还有成本 。
3、数据挖掘工具
OLAP是将数据多维视角呈现分析 , 数据挖掘则是应用的算法来揭示数据的规律性 , 比如相关性、模式和趋势等 。数据挖掘工具就是做这个的 , 它能让一些算法和过程自动化 。
举个例子 , 比如银行里数据仓库以面向“客户”为主题进行数据的存储 , OLAP可以实现数据按照客户的基本信息、储蓄账户信息、历史余额信息、银行交易日志等 , 以报表或者可视化的方式呈现分析 , 多方面掌握客户动态 , 发现数据的问题 , 更好的针对不同类型用户进行特定性营销 。而数据挖掘则是通过历史数据建立模型 , 在拟合历史的基础上 , 分析未来趋势 , 判断哪些因素的改变将很可能意味着客户的最终流失 , 进而避免其发生 。
常用的数据挖掘工具 , R、Python还有SPSS , 基本都是开源个人可用的 。和BI和报表不同 , 市面上少有为客户提供定制化数据分析和挖掘的商业工具或者项目服务 , 因为行业性太强 , 需要非常熟悉业务、数据、平台 , 所以我见过基本都是自己养数据分析团队或者挖这类的人才 。
4、应用开发
以上报表型、分析型的数据产品 , 但也会有延申出来的各种特定业务的数据决策系统 , 比如银行业基于管理层监控的的行长驾驶舱、零售业基于门店数据经营的决策系统 , 以及电商平台的营销参谋(输入营销目标及参数 , 比如要开展双十一母婴市场的促销活动 , 系统可以基于以往海量数据计算出应该选择什么品类的商品 , 在什么用户群中 , 以什么形式开展活动效果会更佳) , 都是基于这样的逻辑——基于业务深度应用 。此时数仓就是提供一个服务平台的角色 , 比如现在很火的数据中台也大体是这个逻辑 , 将数据服务化 , 具体不懂就不班门弄斧了 。
这样的服务 , 当然需要自己开发 。
【数据|关于数据仓库的架构及3大类组件工具选型】在这三层之间其实还有中间层OLAP服务器 , 典型实现为ROLAP模型或MOLAP模型 。现在很多成熟的BI工具都是集成了OLAP服务器的 , 所以通常我们只需要选择ETL工具以及存储方案和可视化BI方案即可 , 所以OLAP本文也就不多讲了 。
推荐阅读
- 数据|首届数字共青发展高峰论坛顺利召开,海云数据智能智造研发基地同期揭牌
- 新机发布|内置骁龙875的OnePlus 9跑分数据现身GeekBench
- 直播|“双11”刷单刷量频现 直播新规直指数据“注水”
- 直播|直播带货将迎最强监管 国家网信办征言:严禁点赞、交易等数据流量造假
- 超能网|Ryzen 7 5700U亮身Geekbench数据库,依然是Zen 2架构
- 京东健康|京东健康赴港上市获批 全国已布局241个仓库
- 钛媒体APP|汪涵直播带货“翻车”?网信办出新规:对数据造假严厉打击
- 华为|堆料级线材,华为5A线取得京东双十一数据线销量冠军
- 互联网|周宏仁:工业互联网核心是先进的数据分析和处理
- |临床数据缺乏标准化、科研转化难?专家提议造一个“医疗科研领域的淘宝”