(7)数据是有保留期限的:采集的数据一般都有基于时长的保留策略 , 比如仅仅保留一天、一周、一个月、一年甚至更长时间 , 为节省存储空间 , 系统最好能自动删除 。
(8)数据的查询分析往往是基于时间段和某一组设备的:对于物联网数据 , 在做计算和分析时 , 一定是指定时间范围的 , 不会只针对一个时间点或者整个历史进行 。而且往往需要根据分析的维度 , 对物联网设备的一个子集采集的数据进行分析 , 比如某个地理区域的设备 , 某个型号、某个批次的设备 , 某个厂商的设备 。等等 。
(9)除存储查询外 , 往往需要实时分析计算操作:对于大部分互联网大数据应用 , 更多的是离线分析 , 即使有实时分析 , 但实时分析的要求并不高 。比如用户画像 , 可以在积累一定的用户行为数据后进行 。但是对于物联网应用 , 对数据的实时计算要求往往很高 , 因为需要根据计算结果进行实时报警 , 以避免事故的发生 。
(10)流量平稳、可预测:给定物联网数量、数据采集频次 , 就可以较为准确地估算出所需要的带宽和流量、每天新生成的数据大小 。
(11)数据处理的特殊性:与典型的互联网相比 , 还有不一样的数据处理需求 。比如要检查某个具体时间的设备采集的某个量 , 但传感器实际采集的时间不是这个时间点 , 这时往往需要做插值处理 。还有很多场景需要基于采集量进行复杂的数学函数计算 。
(12)数据量巨大:以智能电表为例 , 一台智能电表每隔15分钟采集一次数据 , 每天自动生成96条记录 , 全国就有接近5亿台智能电表 , 每天生成近500亿条记录 。一台联网的汽车每隔10到15秒就采集一次数据发送到云端 , 一台汽车一天就很容易产生1000条记录 。如果中国2亿辆车全部联网 , 那么每天将产生2000亿条记录 。5年之内 , 物联网设备产生的数据将占世界数据总量的90%以上 。
三通用大数据处理工具在时序数据场景的三大挑战从工具维度看 , 时序数据处理工具与传统时序数据库的差异很大 。后者局限于车间级的可编程逻辑控制器 , 而非企业级 。企业级的时序数据处理 , 首先是基于数据架构和数据模型的 。
数据架构决定哪些时序数据需要采集 , 如何处理 , 用于哪些业务场景 , 用于时序数据采集的规划与设计开发;数据模型用于解析时序数据的数据结构 。
在物联网、车联网、工业互联网兴起之后 , 大家都想用通用的大数据平台来处理其中的数据 。现在市场上流行的物联网、车联网等大数据平台几乎无一例外都是这类架构 , 但这套通用处理工具的效果如何?可以说有很多不足 , 主要表现在以下几个方面:
数字化工厂产生的时序数据量是巨大的 , 处理它有相当的技术挑战 。以数控机床加工生产为例 , 由于工业行业的要求 , 需要将包括报警在内的各种工况数据存储起来 。假设企业每个厂区具有2000个监测点 , 5秒一个采集周期 , 全国一共200个厂区 。这样粗略估算起来每年将产生惊人的几十万亿个数据点 。假设每个点0.5KB , 数据总量将达PB级别(如果每台服务器的硬盘容量是10TB , 那么总共需要100多台服务器) 。这些数据不仅要实时生成 , 写入存储 , 还要支持快速查询 , 实现可视化的展示 , 帮助管理者分析决策;并且也能够用来做大数据分析 , 发现深层次的问题 , 帮助企业节能减排 , 增加效益 。这样看来 , 需要解决的关键技术问题如下 。
文章插图
通用大数据处理工具在时序数据场景的挑战
传统的数据采集体系面临着数据质量差、查询速度慢、缺少实时智能分析等问题 。
(1)高并发、高吞吐量的写入能力:如何支持每秒钟上千万数据点的写入 , 这是最关键的技术能力 。
(2)数据高速聚合:如何支持以秒级的速度对上亿数据进行分组聚合运算 , 如何能高效地在大数据量的基础上将满足条件的原始数据查询出来并聚合 , 要知道统计的原始值可能因为时间比较久远而不在内存中 , 因此这可能是一个非常耗时的操作 。
推荐阅读
- 百花草泡水喝的功效,脂肪肝适合喝什么
- 凉茶是药不是茶,喝凉茶注意事项
- 数据库中的索引,原理是什么?为什么查询使用索引就会快?
- 为什么使用移动路由的人,往往不愿意使用手机热点?
- 安吉白茶主要养生功能,安吉白茶和福建白茶有什么区别
- 什么是深度学习?
- 大学必备含金量高的几大证书是什么?
- 马里奥最初登场的游戏作品是什么?
- 一般公司或者团队是怎么进行代码开发并且部署到服务器上的?
- 地热放水最佳方法是什么?