加米谷大数据|MapReduce与Apache Spark，带你对比Hadoop( 二 ) 文章来源：加米谷大数据Hadoop和Spark

文章图片

文章图片
i）Hadoop与Spark性能
据说仅通过减少对磁盘的读写次数， HadoopSpark即可执行比HadoopMapReduce框架快约10至100倍的批处理作业。
在使用MapReduce的情况下，将执行以下MapandReduce任务，随后将出现同步障碍，并且需要将数据保存到磁盘。开发MapReduce框架的功能是为了在出现故障的情况下可以恢复作业，但是这样做的缺点是，它没有最大程度地利用Hadoop群集的内存。
不过，借助HadoopSpark ， RDD（弹性分布式数据集）的概念使您可以将数据保存在内存中，并且仅在需要时才将其保存到磁盘上，并且它不具有任何类型的同步障碍，可能会减慢数据传输速度。处理。因此，使用内存时， Spark的通用执行引擎比HadoopMapReduce快得多。
ii）HadoopMapReduce与Spark-轻松管理与HadoopSpark一样，组织现在可以轻松地简化其用于数据处理的基础架构，因为现在可以在同一群集中执行流式处理，批处理和机器学习。
大多数实时应用程序都使用HadoopMapReduce生成报告，以帮助找到历史查询的答案，然后完全延迟另一个将处理流处理的系统，以便实时获取关键指标。因此，组织应该管理和维护单独的系统，然后为两个计算模型开发应用程序。
但是，使用HadoopSpark可以消除所有这些复杂性，因为可以在同一系统上同时实现流处理和批处理，从而简化了应用程序的开发，部署和维护。使用Spark可以控制各种工作负载，因此，如果同一流程中的各种工作负载之间存在交互，则更容易管理和保护此类工作负载，这是MapReduce的局限性。
iii）SparkvsMapreduce–处理流的实时方法在使用HadoopMapReduce的情况下，您只需要处理一批存储的数据，但是使用HadoopSpark ，也可以通过SparkStreaming实时修改数据。
使用SparkStreaming ，可以通过各种软件功能传递数据，例如在收集数据时进行数据分析。

文章图片
开发人员现在也可以使用ApacheSpark进行图形处理，该处理可在各种实体（例如人和对象）之间映射数据中的关系。组织还可以将ApacheSpark与预定义的机器学习代码库结合使用，以便可以对存储在各种Hadoop集群中的数据执行机器学习。
iv）Spark与MapReduce-缓存与完全面向磁盘的MapReduce不同， Spark通过在分布式工作者的内存中缓存部分结果来确保较低的延迟计算。与编写复杂的HadoopMapReduce管道相比， HadoopSpark逐渐被证明可以极大地提高生产力。
v）SparkvsMapReduce-易于使用编写Spark总是比编写HadoopMapReduce代码紧凑。这是一个SparkMapReduce示例-下图显示了Spark和HadoopMapReduce中的字数统计程序代码。如果查看这些图像，显然可以看出HadoopMapReduce代码更加冗长冗长。
SparkMapReduce示例-Spark中的Wordcount程序

文章图片
SparkMapReduce示例-HadoopMapReduce中的Wordcount程序

文章图片

文章图片
SparkMapReduce比较-底线HadoopMapReduce用于不适合内存的数据，而ApacheSpark对于适合内存的数据具有更好的性能，特别是在专用集群上。 HadoopMapReduce可以是一种经济的选择，因为Hadoop即服务（HaaS）和更多人员的可用性。根据基准测试， ApacheSpark更具成本效益，但是在使用Spark的情况下，人员配置会很昂贵。 ApacheSpark和HadoopMapReduce都具有容错能力，但是相对而言， HadoopMapReduce比Spark具有更高的容错能力。就数据类型和数据源而言， Spark和HadoopMapReduce都具有相似的兼容性。在ApacheSpark中进行编程比较容易，因为它具有交互模式，而HadoopMapReduce需要具有核心的Java编程技能，但是有多种实用程序使在HadoopMapReduce中进行编程更加容易。 ApacheSpark是否会消除HadoopMapReduce？HadoopMapReduce被大多数用户谴责为HadoopClustering中的日志阻塞，原因是MapReduce以批处理模式执行所有作业，这意味着无法实时分析数据。随着HadoopSpark的问世（事实证明它是HadoopMapReduce的替代品），阻碍数据科学家的最大问题是Hadoopvs.Spark-谁赢得了胜利？

加米谷大数据|MapReduce与Apache Spark，带你对比Hadoop( 二 )

推荐阅读

盆里长“白霜”，是换盆“信号”，再不换烂根又黄叶，别忽视

养生胡医师|皮肤有弹性，改善睡眠质量，越活越年轻，女性多食牛奶果

翡翠|【肥仔翡翠】翡翠知识第1期｜每天一分钟学点翡翠知识——紫罗兰

商业卫星互联网势在必行，「微纳星空」助力国家“造星”计划

茶叶黄变工艺介绍,黄茶具备什么特点黄茶的来历介绍

丁香茶什么时候喝最好,喝金银花茶需要注意些什么

顾千帆|顾千帆人设和气质是冷若冰霜，让陈晓这张脸来扮演，很出戏

韩素希|长得像韩素希？韩国女网红上综艺因颠覆性外貌被主持人问：你是谁

描写虫的诗句有哪些诗?关于虫的诗句有哪些_1

卖爆了！国产千元机遭海外疯抢：“黄牛”加价倒卖，消费者连夜抢购……

阅读后遗症林黛玉和史湘云，态度为何截然不同？，同样面对邢岫烟的不幸

新机发布华为MATE 40造型曝光，确定打孔曲面屏，EMUI 11再曝重磅技术

【大美中国】260m2新中式，大美中国风

上观新闻|“上海最浪漫的马路”虹口甜爱路举行首届HOST七夕甜爱节

[励志视频短片]做好事，微笑挂满两腮才是正道！，早安心语：存好心

『骑着毛驴看唱本』XR很受伤，“白菜价”也卖不动了？，iPhone SE突然杀到，iPhone

娱乐中的趣闻|秒女枪，虐诺手，完克149位英雄！，唯一让剑圣认怂的AP

怎么制作流程图，wps自动生成流程图方法

白骨精炖猪八戒|有三个儿子尚在人世，为何传位于幼子刘弗陵？，汉武帝临死前

股票行情|9月18日股票市场复盘笔记