洪泰精选 | 如何避免成为信息时代的囚徒?——浅析大数据发展趋势( 二 )


, 这体现出数据在国民经济运行中变得越来越重要 , 数据对经济发展、社会生活和国家治理正在产生着根本性、全局性、革命性的影响 。


而在即将到来的5G时代中 , 除了急剧膨胀的数据量 , 数据的维度也会更加丰富 , 场景更细分 , 用户的需求也就更复杂 , 因此
对于跨平台的要求会进一步提升 , 大数据需要与与物联网、云计算、区块链和人工智能有机结合 , 共同支撑新场景下的业务需求 。


关于
大数据(Big Data)的定义
众说纷纭 , 从技术特征上可以理解为
数据量大(volume)、数据类型多(variety)和数据处理和响应速度快(velocity)



麦肯锡对“大数据”的定义是
超过了常规数据库软件所能搜集/存储/管理和分析的规模的数据集
。 大数据处理技术可以认为是处理大数据以便从中获取价值的技术总和 。 大数据及其技术正在影响着IT产业 , 利用Hadoop和关系数据库来解决大数据难题是当前通常采用的方法 。



然而
大数据技术与传统技术最大的差别
体现在 , 它们并不是为了通用的需求去设计 , 而是不同的厂商按照自己的特定需求或细分市场设计的 ,
用户在应用的时候需要结合自身需求进行技术选型 。 这点与区块链技术有着相似之处



这些年以来 , 大数据的底层技术越发成熟 , 在早期 , 技术方案更侧重在庞杂的数据量上 , Apach Hadoop通过定义最基础的分布式批处理架构 , 打破了传统数据库的模式 , 将计算和存储分离开来 , 同时数据集群的存储成本也更低 。 Hadoop友好的社区生态和技术上可扩展的优势 , 对大规模并行处理的MPP造成一定影响 , 不过
现在MPP在扩展性能上也有不断突破 , 在大数据处理领域仍具有关键地位


  • 随着大数据的进一步发展 , Hadoop庞大的运维操作生态中 , MapReduce的处理效率问题也逐步显现 , 于是出现了Apach Spark的计算架构 。

  • 而更侧重于数据处理时效性的Apache Flink、Kafka Streams、SparkStructured Streaming等产品也为之后的流处理框架打下了基础 。



大数据技术产品在不断迭代和细化 , 为适应不同的应用需求 ,
开源社区中形成了丰富的技术栈 , 覆盖存储、计算、分析、集成、管理、运维等各个方面
。 据统计 , 目前大数据相关开源项目已达上百个 。


1
未来大数据的演化趋势



趋势一:


数据资产化







数据资产
”概念的兴起主要来自大数据浪潮中信息和数据的普及 。
信息资源
诞生于计算机科学 , 被视为与人力资源、物质资源、财务资源和自然资源同等重要的资源 ,
在信息时代的组织管理中尤为重要




数据资源
是上世纪90年代伴随着数字化办公数字化产业转型等业务场景而产生 , 是指
能产生规模效应并具备含义的数据集所形成的资源
。 而
数据资产
是在前两者的基础上 , 于本世纪初期大数据技术兴起的背景下产生的 , 并随着数据管理和数字经济的发展而呈现出明显的发展趋势 。