ImCoder's 博客

叶落九秋枝未枯兮，水迎孤月遥未有辞，尔胡以有不自平兮，非心之逑兮以为然

浮云千里望，路行影自难

登录 or 注册

Spark调优 — 数据倾斜解决方案

作者: 独伫小桥风卷袖
分类: 开发
2017-09-24 21:34:29

使用Hive ETL预处理数据

过滤少数导致倾斜的key – 提高shuffle操作的并行度

加随机前缀进行双重聚合

将reduce join转为map join

采样分拆RDD加随机前缀和扩容RDD进行 Join

全部Key使用随机前缀和扩容RDD进行 join

- 阅读剩余部分 -

Spark调优

作者: 独伫小桥风卷袖
分类: 开发
2017-09-22 21:01:25

资源调优

任务的并行度调优

代码调优

Shuffle调优

调节堆外内存

解决问题

- 阅读剩余部分 -

Kafka 高吞吐的分布式消息队列系统

作者: 独伫小桥风卷袖
分类: 开发
2017-09-18 21:29:58

- 阅读剩余部分 -

SparkStreaming 准实时流式处理框架

作者: 独伫小桥风卷袖
分类: 开发
2017-09-18 21:10:53

- 阅读剩余部分 -

Spark SQL

作者: 独伫小桥风卷袖
分类: 开发
2017-09-17 05:25:06

- 阅读剩余部分 -

1
2
3
4
5
后一页 »