Spark调优 — 数据倾斜解决方案
使用Hive ETL预处理数据
过滤少数导致倾斜的key – 提高shuffle操作的并行度
加随机前缀进行双重聚合
将reduce join转为map join
采样分拆RDD加随机前缀和扩容RDD进行 Join
全部Key使用随机前缀和扩容RDD进行 join
Spark调优
资源调优
任务的并行度调优
代码调优
Shuffle调优
调节堆外内存
解决问题
Kafka 高吞吐的分布式消息队列系统
![](https://static.imcoder.site/blog/upload/image/article/2017/09/1505741314608_16_a.png)
SparkStreaming 准实时流式处理框架
![](https://static.imcoder.site/blog/upload/image/article/2017/09/1505733395848_16_a.png)
Spark SQL
![](https://static.imcoder.site/blog/upload/image/article/2017/10/1507112760377_16_a.jpg)