Spark 累加器

Spark 累加器

累加器只能在Driver定义初始化,不能在Executor端定义初始化。 accumulator相当于集群总统筹大变量累加器取值accmulator.value 只能在Driver读取,不能在Executor端.value读取值,可以直接accumulator读取值,但没有意义。 import org.apache.spark.S……

RDD宽窄依赖 stage 任务资源调度

RDD宽窄依赖 stage 任务资源调度

窄依赖: 父RDD与子RDD partion之间的关系是一对一、多对一。 宽依赖(有shuffle): 父RDD与子RDD partion之间的关系是一对多。 tips:相同的key肯定去同一个分区,但一个分区中可以有不同的key 术语 Appliction由job组成,有几个action算子就有几个job ……

Spark全部算子

Spark全部算子

transformations算子 mapPartitionWithIndex 类似于mapPartitions,除此之外还会携带分区的索引值。 repartition 增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle) coalesce coalesce常用来减少分区,第二个参数是减少……

Spark任务提交模式

Spark任务提交模式

基于Standalne的两种提交模式 1、Standalne-client模式提交任务 ./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100……

持久化算子

持久化算子

package wordcount import org.apache.spark.SparkConf /*持久化算子(单位是partition) * cache()默认将RDD中的数据存在内存中,懒执行算子 * * *persist() 可以手动的指定持久化级别,懒执行 * * * checkpoint */ import org……

Spark wordcount

Spark wordcount

package spark; import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apac……