零基础入门Spark fold操作(Java版)
市面上大多都是Scala的教程 , 这里专门介绍如何使用Java编写相关Spark程序 。
什么是JavaRDD fold操作fold函数是一种聚合操作 , 把所有RDD中的元素进去聚合操作 。
JavaRDD fold函数参数解释fold函数有两个参数 , 分别是 zeroValue , Function2 。
- zeroValue参数是聚合时的初始值 , 值得注意的是 , 聚合操作分两步 , 两步都使用到了该初始值 。
- 聚合每个分区的值
- 聚合所有分区聚合后的值
- Function2提供聚合函数的具体实现 。
文章插图
【零基础入门Spark fold操作(Java版)】执行步骤可以理解如下:
第一分区聚合的值是:zeroValue,Spark 。
第二分区聚合的值是:zeroValue,HBase 。
第三分区聚合的值是:zeroValue,Hive 。
最后聚合分区后的聚合就是 zeroValue,zeroValue,Spark,zeroValue,HBase,zeroValue,Hive
总结该操作最重要的就是理解zeroValue参与计算的地方 。 特别主要 , 每个分区的聚合计算都参与 , 把每个分区聚合后的值在进行聚合也参与计算 , 搞清楚这点就彻底掌握改函数了 。
推荐阅读
- 苹果两款新iPad齐曝光:性能提高、入门款更轻薄、售价便宜
- RHEL 9提升了x86_64处理器的入门要求
- 市科委与联影集团联合首设“探索者计划”,共推基础及应用基础研究
- 入门HiFi享好声,这几款耳机绝对值得入手
- 从事Java开发时发现基础差,是否应该选择辞职自学一段时间
- 大力发展新型基础设施建设“数字浙江”再添新引擎
- 「新书推荐」5G安全:5G生态的重要组成部分和5G发展的关键基础条件
- DIY从入门到放弃:电源挑贵的买就靠谱吗?
- 微软Surface Pro 8基础版规格或升级 酷睿i3+8GB运存
- 昆明2500万元奖补新能源汽车充电基础设施建设