ImCoder's 博客

叶落九秋枝未枯兮，水迎孤月遥未有辞，尔胡以有不自平兮，非心之逑兮以为然

浮云千里望，路行影自难

登录 or 注册

Spark调优 — 数据倾斜解决方案

作者: 独伫小桥风卷袖
分类: 开发
2017-09-24 21:34:29

使用Hive ETL预处理数据

过滤少数导致倾斜的key – 提高shuffle操作的并行度

加随机前缀进行双重聚合

将reduce join转为map join

采样分拆RDD加随机前缀和扩容RDD进行 Join

全部Key使用随机前缀和扩容RDD进行 join

- 阅读剩余部分 -

1