package wordcount
import org.apache.spark.SparkConf
/*持久化算子(单位是partition)
* cache()默认将RDD中的数据存在内存中,懒执行算子
*
*
*persist() 可以手动的指定持久化级别,懒执行
*
*
* checkpoint
*/
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel
object wordfcount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf()
conf.setMaster("local").setAppName("count")
val sc=new SparkContext(conf)
sc.setCheckpointDir("./checkpoint")//checkpoint保存路径
val lines:RDD[String]=sc.textFile("./words")
lines.checkpoint()
// lines.cache()
//lines.persist(StorageLevel.MEMORY_ONLY)//级别
val result1=lines.count();//触发cache()持久化算子
//result1来源于磁盘
val result2=lines.count();
//result2已经来源于了内存
sc.stop()
}
}
分享到:
给你点赞
给你点赞
挺明白的
我也是学计算机的
奥利给
给你点赞
不错
我加你了哦