|终于有人把云计算、物联网和大数据讲明白了( 三 )


运输(transportation)是物联网在工业领域的第二大市场 。 当前 , 在众多城市中涌现的智能运输网络能够优化传统运输网络中的路径 , 生成高效、安全的路线 , 降低基础设施的开销并缓解交通拥塞 。 航空、铁路、城际等货运公司能够集成海量的数据来对需求进行实时分析 , 实现统筹规划和优化操作 。
03 大数据
随着物联网和云计算技术的发展 , 海量的数据以前所未有的速度从异构数据源产生 , 这些数据源所在的领域有医疗健康、政府机构、社交网络、环境监测和金融市场等 。
在这些景象的背后 , 存在大量强大的系统和分布式应用程序来支持与数据相关的操作 , 例如智能电网(smart grid)系统、医疗健康(healthcare)系统、零售业(retailing)系统、政府(government)系统等 。
在大数据的变革发生之前 , 绝大多数机构和公司都没有能力长期保存归档数据 , 也无法高效地管理和利用大规模的数据集 。 实际上 , 现有的传统技术能够应对的存储和管理规模都是有限的 。 在大数据环境下 , 传统技术缺乏可扩展性和灵活性 , 其性能也无法令人满意 。
当前 , 针对海量的数据集 , 需要设计涵盖清洗、处理、分析、加载等操作的可行性方案 。 业界的公司越来越意识到针对大数据的处理与分析是使企业具有竞争力的重要因素 。
|终于有人把云计算、物联网和大数据讲明白了
本文插图

1. 三类定义
当前大数据在各个领域的广泛普及使得学界与业界对大数据的定义很难达成一致 。 不过有一点共识是 , 大数据不仅是指大量的数据 。 通过对现有大数据的定义进行梳理 , 我们总结出三种对大数据进行描述和理解的定义 。
1)属性型定义(attributive definition)
作为大数据研究与应用的先驱 , 国际数据公司(International Data Corporation , IDC)在戴尔易安信(DELL EMC)公司的资助下于2011年提出了如下大数据的定义:
大数据技术描述了技术与体系结构 , 其设计初衷是通过实施高速的捕获、发现以及分析 , 来经济性地提取大量具有广泛类型的数据的价值 。
该定义侧面描述了大数据的四个显著特征:数量、速度、多样化和价值 。 由Gartner公司分析师Doug Laney总结的研究报告中给出了与上述定义类似的描述 , 该研究指出数据的增长所带来的挑战与机遇是三个维度的 , 即显著增长的数量(Volume)、速度(Velocity)和多样化(Variety) 。
尽管Doug Laney关于数据在三个维度的描述最初并不是要给大数据下定义 , 但包括IBM、微软在内的业界在其后的十年间都沿用上述“3V”模型来对大数据进行描述 。
2)比较型定义(comparative definition)
Mckinsey公司2011年给出的研究报告将大数据定义为:
规模超出了典型数据库软件工具的捕获、存储、管理和分析能力的数据集 。
尽管该报告没有在具体的度量标准方面对大数据给出定义 , 但其引入了一个革命性的方面 , 即怎样的数据集才能够被称为大数据 。
3)架构型定义(architectural definition)
美国国家标准与技术研究院(NIST)对大数据的描述为:
大数据是指数据的数量、获取的速度以及数据的表示限制了使用传统关系数据库方法进行有效分析的能力 , 需要使用具有良好可扩展性的新型方法来对数据进行高效的处理 。
|终于有人把云计算、物联网和大数据讲明白了
本文插图
2. 5V
以下是一些文献中关于大数据特征的描述:
数据的规模成为问题的一部分 , 并且传统的技术已经没有能力处理这样的数据 。
数据的规模迫使学界和业界不得不抛弃曾经流行的方法而去寻找新的方法 。
大数据是一个囊括了在合理时间内对潜在的超大数据集实现捕获、处理、分析和可视化的范畴 , 并且传统的信息技术无法胜任上述要求 。


推荐阅读