ImCoder's 博客

叶落九秋枝未枯兮，水迎孤月遥未有辞，尔胡以有不自平兮，非心之逑兮以为然

浮云千里望，路行影自难

登录 or 注册

Spark MLlib — 机器学习库

作者: 独伫小桥风卷袖
分类: 开发
2017-10-11 15:01:35

Spark MLlib （Machine Learning Library ）

- 阅读剩余部分 -

Spark调优 — 数据倾斜解决方案

作者: 独伫小桥风卷袖
分类: 开发
2017-09-24 21:34:29

使用Hive ETL预处理数据

过滤少数导致倾斜的key – 提高shuffle操作的并行度

加随机前缀进行双重聚合

将reduce join转为map join

采样分拆RDD加随机前缀和扩容RDD进行 Join

全部Key使用随机前缀和扩容RDD进行 join

- 阅读剩余部分 -

Spark调优 — 数据本地性

作者: 独伫小桥风卷袖
分类: 开发
2017-09-24 17:15:43

- 阅读剩余部分 -

Spark调优

作者: 独伫小桥风卷袖
分类: 开发
2017-09-22 21:01:25

资源调优

任务的并行度调优

代码调优

Shuffle调优

调节堆外内存

解决问题

- 阅读剩余部分 -

SparkStreaming 与 Kafka 整合

作者: 独伫小桥风卷袖
分类: 开发
2017-09-19 14:01:40

- 阅读剩余部分 -

1
2
3
4
后一页 »