|终于有人把云计算、物联网和大数据讲明白了( 四 )


大数据的核心必须包含三个关键的方面:数量多、速度快和多样化 , 即著名的“3V” 。
1)数量
数据的数量又称为数据的规模 , 在大数据中 , 其是指在进行数据处理时所面对的超大规模的数据量 。 目前 , 海量的数据持续不断地从千百万设备和应用中产生(例如信息通信技术、智能手机、软件代码、社交网络、传感器以及各类日志) 。

  • McAfee公司在2012年估算:在2012年的每一天中 , 全球都产生着2.5EB的数据 , 并且该数值约每40个月实现翻倍 。
  • 2013年 , 国际数据公司(IDC)估算全球所产生、复制和消费的数据已经达到4.4ZB , 并且该数值约每两年实现翻倍 。
  • 到2015年 , 全球产生的数据将达到8ZB 。 根据IDC的研究报告 , 全球产生的数据将在2020年达到40ZB 。
2)速度
在大数据中 , 数据的速度是指在进行数据处理时所面对的具有高频率和高实时性的数据流 。 高速生成的数据应当及时进行处理 , 以便提取有用的信息和洞察潜在的价值 。
全球知名的折扣连锁店沃尔玛基于消费者的交易每小时产生2.5PB的数据 。
视频分享类网站(例如优酷、爱奇艺等)则是大数据高频率和高实时性特征的另一个例证 。
3)多样化
在大数据中 , 数据的多样化是指在进行数据处理时所面对的具有不同语法格式的数据类型 。 随着物联网技术与云计算技术的普及 , 海量的多源异构数据从不同的数据源以不同的数据格式持续地产生 , 典型的数据源有传感器、音频、视频、文档等 。
海量的异构数据形成各种各样的数据集 , 这些数据集可能包含结构化数据、半结构化数据、非结构化数据 , 数据集的属性可能是公开或隐私的、共享或机密的、完整或不完整的 , 等等 。
随着大数据理论的发展 , 更多的特征逐步被纳入考虑的范围 , 以便对大数据做出更好的定义 , 例如:
  • 想象(vision) , 这里的想象是指一种目的;
  • 验证(verification) , 这里的验证是指经过处理后的数据符合特定的要求;
  • 证实(validation) , 这里的证实是指前述的想象成为现实;
  • 复杂性(complexity) , 这里的复杂性是指由于数据之间关系的进化 , 海量数据的组织和分析均很困难;
  • 不变性(immutability) , 这里的不变性是指如果进行妥善管理 , 那么经过存储的海量数据可以永久保留 。
描述大数据的五个关键特征(即“5V”):
  • 数量(Volume)
  • 速度(Velocity)
  • 多样化(Variety)
  • 准确性(Veracity)
  • 价值(Value)
4)准确性
在商界 , 决策者通常不会完全信任从大数据中提取出的信息 , 而会进一步对信息进行加工和处理 , 然后做出更好的决策 。 如果决策者不信任输入数据 , 那么输出数据也不会获得信任 , 这样的数据不会参与决策过程 。
随着大数据中数据规模的日新月异和数据种类的多样化 , 如何更好地度量和提升数据可信度成为一个研究热点 。
5)价值
一般来说 , 海量的数据具有价值密度低的缺点 。
如果无法从数据中有效地提取出潜在的价值 , 那么这些数据在某种程度上就是没用的 。 数据的价值是决策者最关注的方面 , 其需要仔细且认真的研究 。 目前 , 已经有大量的人力、物力和财力投入到大数据的研究和应用中 , 这些投资行为都期望从海量数据中获得有价值的内容 。
但是 , 对于不同的机构和不同的价值提取方法 , 同样的数据集所产生的价值差异可能很大 , 即投入与产出并不一定成正比 。 因此 , 对大数据价值的研究需要建立更加完善的体系 。
关于作者:高聪 , 男 , 1985年11月生 , 西安电子科技大学计算机科学与技术专业学士 , 计算机系统结构专业硕士、博士 。 自2015年12月至今 , 在西安邮电大学计算机学院任教 , 主要研究方向:数据感知与融合、边缘计算和无线传感器网络 。


推荐阅读