云计算简史(完整版)( 五 )
MapReduce和Hadoop
搜索引擎的霸主Google成立于1998年 , 几年以后 , Google的搜索服务所承载的数据量已经是一个天文数字 , 而且还在以光速增加 。 传统的数据处理技术完全依赖硬件算力的铺陈 , 这会让Google在未来的发展中不堪重负 。2004年 , Google在内部推出了GFS分布式文件系统和分布式计算框架MapReduce 。 前者解决了单一硬件资源的限制 , 后者通过一系列数学原理 , 将多类型的数据进行切片并分散存储在特定的分区中 , 这个设计能够让未来的计算和分析大幅提效 。 MapReduce的技术原理是大数据技术发展的最重要基础 。
很快 , 开源软件领域开始响应这项技术方案 , Lucene项目创始人Doug Cutting在2006年正式独立出Hadoop开源项目 , 在其中包括了分布式文件系统 , 在集群资源上的调度工具 , 以及最核心的大数据并行处理开发框架 。 有了Hadoop以后 , 那些面对海量数据分析难题行业从此有了更好的解决方案 。 只是在2006年前后 , 主要的应用行业还是互联网行业本身 。 Yahoo ,
中国的百度等都很快应用了Hadoop来解决海量数据的存储和检索问题 。
本文插图
Hive , Spark和流式计算
在随后的几年中 , Hadoop相关的大数据处理技术继续得到增强 。 Facebook开源的Hive分析工具用更高层和抽象的语言来描述算法和数据处理流程 , 能够用SQL语句进行大数据分析 , 这大大降低了使用者门槛 , 也提升了大数据技术的应用效率 。 不要小看这项改进 , 它让全世界大多数现有的数据分析人员可以轻易掌握大数据技术 。
2009年 , 加州大学伯克利分校的AMP实验室开发了Spark开源集群计算框架 , 通过完善API和库 , 提供更完善的能力和通用性 。 而且Spark的特色是能够将数据存储在内存中 , 所以数据处理和查询效率要比利用硬盘存储的MapReduce框架快百倍 。 目前 , Spark已经加入Apache Software Foundation , 成为Apache开源项目中的明星项目 , 被大数据技术领域作为最重要的工具框架 。
至此为止的技术栈基本解决了针对海量数据批量进行处理和分析的需求 。 比如零售业企业如果需要研究顾客和交易数据 , 从而对顾客群进行特征细分 , 这些技术就足够了 。 但是 , 数字化技术的发展总是会刺激出更高级的需求 。 比如 , 在线上零售中 , 商品和顾客的行为数据是永续不断在发生的 , 我们希望在数据发生的时刻就立即进行计算 , 及时地给顾客推送一张个性化的优惠券 , 而不是定时进行某种批量计算 , 这时候就需要大数据技术的一个分支—流式计算 。
流式计算的常用框架包括Storm和Spark Stream和Flink , 他们在零售和电子商务行业中的交易分析、金融风控、物联网中的态势监控、车联网中的自动驾驶等领域都被广泛应用 。 2019年 , 阿里巴巴用1亿美元收购了Flink , 是因为我们用的淘宝天猫中的搜索、商品推荐 , 包括双11的实时监控大屏数据都是由Flink来驱动的 。 Flink用几乎无延迟的速度截获双十一最后一秒钟结束后的GMV数值 , 可见它在实时处理数据方面的性能 。
NoSQL数据库
与大数据技术同步发展的还包括NoSQL(非关系型)数据库市场 。 在上个世纪 , 大多数商业数据库都是关系数据库 , 通过SQL语言进行数据处理和查询 。 当大数据技术发展起来后 , 技术专家们发现数据库完全可以用不同的形态来存储数据 , 这样可以大幅减少数据分析过程中的预处理工作量 。 所以 , 从2009前后开始 , 各种NoSQL数据库开始进入市场 。
下图是维基百科上针对NoSQL数据库类型的分类方法:
类型
主要产品
键值缓存
Apache Ignite, Couchbase, Coherence, eXtreme Scale, Hazelcast, Infinispan, Memcached, Redis, Velocity
推荐阅读
- 互联网|中国互联网大佬直播简史
- Epic|喜加一:EPIC限时免费领取独立恐怖题材冒险游戏《DARQ:完整版》
- 学生|她值得!张桂梅被写进中华人民共和国简史 网友纷纷留言致敬
- 张桂梅被写进《中华人民共和国简史》!网友3字留言刷屏
- 云计算|阿里云发布全新容器服务ACK Anywhere:四大核心能力、统一集群管理
- 华为|华为3亿元成立深圳云计算公司 云业务已成国内第二
- 完整版|25秒!周杰伦公布新歌MV前奏,吊足胃口
- 中青报整版聚焦付费刷课乱象:每门4至6元,“不学而过”
- 云计算|Windows 365云电脑配置公布:最高8核、512GB 随时随地访问
- 华为|手机业务被打压 华为发力云计算:份额国内第二、仅次于阿里