加米谷大数据|MapReduce与Apache Spark,带你对比Hadoop( 三 )
ApacheSpark以微批的方式执行作业 , 这些作业非常短 , 例如大约不到5秒 。 与面向实时流的Hadoop框架相比 , ApacheSpark过去一直在提供更高的稳定性方面取得了成功 。
尽管如此 , 每个硬币都有两个面 , 是的 , HadoopSpark也存在一些积压 , 例如如果中间数据大于节点的内存大小 , 则无法处理 , 节点故障时的问题 , 最重要的是成本因素 。
HadoopSpark利用日志记录(也称为“重新计算”)来提供弹性 , 以防万一发生节点故障 , 因此我们可以得出结论 , 节点故障情况下的恢复行为与以下情况相似:HadoopMapReduce除外 , 事实上恢复过程会更快 。
如果特定节点的RAM不足以存储数据分区 , Spark还具有“溢出磁盘”功能 , 从而为基于磁盘的数据处理提供了适度的降级功能 。
HadoopMapReduce相对于ApacheSpark的一大优势是 , 如果数据大小大于内存 , 则在这种情况下 , ApacheSpark将无法利用其缓存 , 并且很有可能比它慢得多 。 MapReduce的批处理 。
困惑的Hadoop与Spark–选择哪一个?
如果让您对HadoopMapReduce或ApacheSpark感到困惑的问题 , 或者说是选择基于磁盘的计算或基于RAM的计算 , 那么这个问题的答案很简单 。 这全都取决于并且这个决定所依赖的变量会随着时间而动态变化 。
但是 , 当前的趋势支持诸如ApacheSpark之类的内存技术 , 因为行业趋势似乎正在为其提供积极的反馈 。 因此 , 总而言之 , 我们可以说 , 选择HadoopMapReduce与ApacheSpark取决于基于用户的情况 , 我们无法做出自主选择 。
推荐阅读
- Python之王|Pandas数据合并与拼接的5种方法
- 「杨辉」中科院学者涉嫌剽窃科研想法、数据造假,听一场报告就能发Cell?
- 科技小数据|产业观察:如何通俗地理解5G及其应用
- 雷科技|为解决App连接问题,特斯拉迁移数据至中国,开车不再“卡顿”
- 大数据系统|倾力分享!,2020小红书kol推广8种玩法
- 小熊带你玩科技|全新等离子体光子芯片:利用光进行超高速数据传输
- 蓝色星晨|以对比1977年的气候变化数据,科学家在南极最大冰架上钻取样品
- 灵锦文化|网络安全需求有望进一步加速释放,《数据安全法》出台
- 鲍跃忠新零售工作室|数据的价值在于链接
- 金十数据|向芯片业注入2614亿!或担忧“中国芯”崛起,美国提出2项新法案