[埃尔法哥哥]解决 Spark 数据倾斜的 8 大实用方法( 四 )

现在将 leftSkewRDD 与膨胀 n 倍的 rightSkewRDD 进行 join ，且在 Join 过程中将随机前缀去掉，得到倾斜数据集的 Join 结果 skewedJoinRDD 。注意到此时我们已经成功将原先相同的 key 打散成 n 份，分散到多个 task 中去进行 join 了。
对 leftUnSkewRDD 与 rightUnRDD 进行Join ，得到 Join 结果 unskewedJoinRDD 。
通过 union 算子将 skewedJoinRDD 与 unskewedJoinRDD 进行合并，从而得到完整的 Join 结果集。
TIPS：
rightRDD 与倾斜 Key 对应的部分数据，需要与随机前缀集 (1~n) 作笛卡尔乘积 (即将数据量扩大 n 倍），从而保证无论数据倾斜侧倾斜 Key 如何加前缀，都能与之正常 Join 。
skewRDD 的 join 并行度可以设置为 n * k (k 为 topSkewkey 的个数) 。
由于倾斜Key与非倾斜Key的操作完全独立，可并行进行。
（1）适用场景
两张表都比较大，无法使用 Map 端 Join 。其中一个 RDD 有少数几个 Key 的数据量过大，另外一个 RDD 的 Key 分布较为均匀。
（2）解决方案
将有数据倾斜的 RDD 中倾斜 Key 对应的数据集单独抽取出来加上随机前缀，另外一个 RDD 每条数据分别与随机前缀结合形成新的RDD（相当于将其数据增到到原来的N倍， N即为随机前缀的总个数），然后将二者Join并去掉前缀。然后将不包含倾斜Key的剩余数据进行Join 。最后将两次Join的结果集通过union合并，即可得到全部Join结果。
（3）优势
相对于 Map 则 Join ，更能适应大数据集的 Join 。如果资源充足，倾斜部分数据集与非倾斜部分数据集可并行进行，效率提升明显。且只针对倾斜部分的数据做数据扩展，增加的资源消耗有限。
（4）劣势
如果倾斜 Key 非常多，则另一侧数据膨胀非常大，此方案不适用。而且此时对倾斜 Key 与非倾斜 Key 分开处理，需要扫描数据集两遍，增加了开销。
思路6. 大表 key 加盐，小表扩大 N 倍 jion
如果出现数据倾斜的 Key 比较多，上一种方法将这些大量的倾斜 Key 分拆出来，意义不大。此时更适合直接对存在数据倾斜的数据集全部加上随机前缀，然后对另外一个不存在严重数据倾斜的数据集整体与随机前缀集作笛卡尔乘积（即将数据量扩大N倍）。
其实就是上一个方法的特例或者简化。少了拆分，也就没有 union 。
（1）适用场景
一个数据集存在的倾斜 Key 比较多，另外一个数据集数据分布比较均匀。
（2）优势
对大部分场景都适用，效果不错。
（3）劣势
需要将一个数据集整体扩大 N 倍，会增加资源消耗。
思路7. map 端先局部聚合
在 map 端加个 combiner 函数进行局部聚合。加上 combiner 相当于提前进行 reduce ,就会把一个 mapper 中的相同 key 进行聚合，减少 shuffle 过程中数据量以及 reduce 端的计算量。这种方法可以有效的缓解数据倾斜问题，但是如果导致数据倾斜的 key 大量分布在不同的 mapper 的时候，这种方法就不是很有效了。
TIPS：
使用 reduceByKey 而不是 groupByKey 。
思路8. 加盐局部聚合 + 去盐全局聚合
这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个 key 都打上一个 1~n 的随机数，比如 3 以内的随机数，此时原先一样的 key 就变成不一样的了，比如 (hello, 1) (hello, 1) (hello, 1) (hello, 1) (hello, 1) ，就会变成 (1_hello, 1) (3_hello, 1) (2_hello, 1) (1_hello, 1) (2_hello, 1) 。接着对打上随机数后的数据，执行 reduceByKey 等聚合操作，进行局部聚合，那么局部聚合结果，就会变成了 (1_hello, 2) (2_hello, 2) (3_hello, 1) 。然后将各个 key 的前缀给去掉，就会变成 (hello, 2) (hello, 2) (hello, 1) ，再次进行全局聚合操作，就可以得到最终结果了，比如 (hello, 5) 。

[埃尔法哥哥]解决 Spark 数据倾斜的 8 大实用方法( 四 )

推荐阅读

微软|微软再次提醒：Windows Server 20H2下月停更

龙文教育集团官微会毁了孩子，家长这样陪孩子写作业

普查|大国点名，没你不行！钟南山、姚明邀您一起支持第七次全国人口普查！

帅不过三秒|《亲爱的自己》花絮：李思雨夸自己时笑场，陈一鸣小细节有爱

宜兴本地红茶,宜兴红茶怎么泡好喝

考研|“最适合”二本学生考研的三所重点大学，不歧视双非，实力还不俗

中新网视频|加拿大多伦多中餐馆开设夜市大排档现场伴唱揽客

爱尔眼科|随时崩塌的高估值：茅台50倍、海天90倍、爱尔眼科120倍

湖北省自然灾害工程应急救援基地挂牌成立

历史揭秘|国务院为什么一直没有盖办公大楼？原来是因为他，敬佩

炫锋网络|依旧美丽动人，一点儿看不出岁月痕迹，38岁张钧甯晒照

好六网■镜又双叒加强？元歌加强了个特效，王者荣耀：廉颇优化完毕

洋洋|不倒翁小哥被指以恋爱为名找女粉丝借钱不还，已停职

支付宝|致敬最可爱的人全国首个“老兵码”上线支付宝：一键申领

街拍|美女街拍：甜美十足的小姐姐，靓丽的紧身裙打扮，回头率满满！

脂肪肝伴随肝囊肿，光减脂肪就行了？老中医：治疗的关键不在这！

#历史智慧库#德国：中国人太疯狂，中国终于“反击”了！霸气取消“千亿订单”

三星|大量全新三星Note3现身闲鱼，7年前发布价5399，如今残值399

热刺|热刺夏窗开启豪购？穆帅盯上21岁中场超新星，首次报价高达5000万

问董秘|年度报告中关于...，投资者提问：##针对公告《2019年年度报告》提问##您好