0717-7821348
关于我们

欢乐彩快3

您现在的位置: 首页 > 关于我们 > 欢乐彩快3
20出产预警渠道项目之记载Spark Streaming+Spark SQL的数据歪斜
2019-12-14 01:23:42

1.现象

三台机器都有发生executor,每台都会发生tasks,可是其间只要一台的task有input数据,其他机器的t20出产预警渠道项目之记载Spark Streaming+Spark SQL的数据歪斜asks都没有数20出产预警渠道项目之记载Spark Streaming+Spark SQL的数据歪斜据。

2.猜测

2.1是不是数据歪斜?

2.2是数据量过大,group by时,导致key散布不均?

比方key1 有98万,key2有2万,那么shuffle时,必定数据歪斜。可是我刚开始数据量不是很大,所以pass (就算数据量大,也很简单处理,一般处理时key加上随机前缀数)

2.20出产预警渠道项目之记载Spark Streaming+Spark SQL的数据歪斜3是不是数据量太少 不行分区的?

也置疑过,不过还没去验证

2.4 flume流到kafka,是snappy紧缩格局,而spark作为kafka的顾客,尽管可以自动识别紧缩格局,可是这种snappy格局不支撑切分

也置疑过,不过还没去修正支撑spilt的紧缩格局,也还没去验证

2.5 spark streaming分区数目是有谁决议的?

运用direct这种形式是由kafka的分区数目决议,

运用receiver这种形式由流的数目决议也便是由receiver数目决议。

3.修正分区数

4.验证(每个executor都有inp1080ut数据)