4、需要高效的缓存功能
在绝大部分场景中 , 都需要能快速获取设备当前状态或其他信息 , 用以报警、大屏展示等 。时充数据处理系统需要提供高效机制 , 让用户可以获取全部或符合过滤条件的部分设备的最新状态 。
5、需要实时流式计算
各种实时预警或预测已经不是简单地基于某一个阈值进行的 , 而是需要通过将一个或多个设备产生的数据流进行实时聚合计算(并且不只是基于一个时间点 , 而是基于一个时间窗口进行计算) 。不仅如此 , 计算的需求也相当复杂 , 因场景而异 , 应容许用户自定义函数进行计算 。
6、需要支持数据订阅
时序数据处理系统与通用大数据平台比较一致的地方是 , 同一组数据往往有很多应用都需要 , 因此 , 时序数据处理系统应该提供订阅功能:只要有新的数据更新 , 就应该实时提醒应用 。而且这个订阅也应该是个性化的 , 容许应用设置过滤条件 , 比如只订阅某个物理量5分钟的平均值 。
7、实时数据和历史数据的处理要合二为一
实时数据被存储在缓存里 , 历史数据被存储在持久化存储介质里 , 而且可能依据时长 , 被存储在不同的存储介质里 。时序数据处理系统应该隐藏背后的存储介质 , 给用户和应用呈现的是同一个接口和界面 。无论是访问新采集的数据还是10年前的老数据 , 除输入的时间参数不同外 , 其余都应该是一样的 。
8、需要保证数据能持续、稳定地写入
对于物联网系统 , 数据流量往往是平稳的 , 因此数据写入所需要的资源往往是可以估算的 。其中变化的是查询、分析 , 特别是即席查询 , 有可能耗费很多的系统资源 , 不可控 。因此 , 时序数据处理系统必须保证分配足够的资源以确保数据能够写入系统而不被丢失 。准确地说 , 时序数据处理系统必须是一个写优先系统 。
9、需要支持灵活的多维度数据分析
对于联网设备产生的数据 , 需要进行各种维度的统计分析 , 比如根据设备所处的地域进行分析 , 根据设备的型号、供应商进行分析 , 根据设备所使用的人员进行分析等 。这些维度的分析是无法事先设计好的 , 而是在实际运营过程中 , 根据业务发展需求定下来的 。因此 , 工业互联网大数据平台需要一个灵活的机制来增加某个维度的分析 。
10、需要支持数据降频、插值、特殊函数计算等操作
原始数据的采集可能频次较高 , 但在具体分析时 , 往往不需要对原始数据进行分析 , 而是需要对数据进行降频 。时序数据处理系统需要提供高效的数据降频操作 。不同设备采集数据的时间点是很难一致的 , 因此 , 分析一个特定时间点的值 , 往往需要插值才能解决 , 系统需要提供线性插值、设置固定值等多种插值策略 。
11、需要支持即席分析和查询
为提高数据分析师的工作效率 , 时序数据处理系统应该提供命令行工具或容许用户通过其他工具 , 执行SQL查询 , 而不是非要通过编程接口 。并且查询分析结果可以很方便地被导出 , 以及被制作成各种图表 。
12、需要提供灵活的数据管理策略
一个大的系统 , 其中采集的数据种类繁多 , 而且除采集的原始数据外 , 还有大量的衍生数据 。这些数据各自有不同的特点 , 有的采集频次高 , 有的要求保留时间长 , 有的需要保存多个副本以保证更高的安全性 , 有的需要能快速访问 。因此 , 工业互联网大数据平台必须提供多种策略 , 让用户可以根据特点进行选择和配置 , 而且各种策略并存 。
13、必须是开放的
时序数据处理系统需要支持业界流行的标准 , 提供各种语言开发接口 , 包括C/C++、JAVA、Go、Python、RESTful等 , 也需要支持Spark、R、MATLAB等 , 方便集成各种机器学习、人工智能算法或其他应用 , 让大数据处理平台能够不断扩展 , 而不是成为一个数据孤岛 。
14、必须支持异构环境
大数据平台的搭建是一个长期工作 , 每个批次采购的服务器和存储设备都会不一样 , 时序数据处理系统必须支持各种档次、各种不同配置的服务器和存储设备并存 。
推荐阅读
- 百花草泡水喝的功效,脂肪肝适合喝什么
- 凉茶是药不是茶,喝凉茶注意事项
- 数据库中的索引,原理是什么?为什么查询使用索引就会快?
- 为什么使用移动路由的人,往往不愿意使用手机热点?
- 安吉白茶主要养生功能,安吉白茶和福建白茶有什么区别
- 什么是深度学习?
- 大学必备含金量高的几大证书是什么?
- 马里奥最初登场的游戏作品是什么?
- 一般公司或者团队是怎么进行代码开发并且部署到服务器上的?
- 地热放水最佳方法是什么?