Spark调优 — 数据倾斜解决方案
使用Hive ETL预处理数据
过滤少数导致倾斜的key – 提高shuffle操作的并行度
加随机前缀进行双重聚合
将reduce join转为map join
采样分拆RDD加随机前缀和扩容RDD进行 Join
全部Key使用随机前缀和扩容RDD进行 join
Spark调优
资源调优
任务的并行度调优
代码调优
Shuffle调优
调节堆外内存
解决问题
资源调优
任务的并行度调优
代码调优
Shuffle调优
调节堆外内存
解决问题