创建parquet文件读取parquet文件加载DataFrame

创建parquet文件读取parquet文件加载DataFrame

parquet文件是一个压缩格式 package spark;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apac……

动态创建schema加载DataFrame

动态创建schema加载DataFrame

动态构建DataFrame中的元数据创建row顺序要和动态创建schema的顺序一致package spark;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.Jav……

开窗函数

开窗函数

开窗函数只能在hive中使用开窗函数格式:row_number() over (partition by XXX order by XXX desc) as rankrank是从1开始package kc;import org.apache.spark.SparkConf;import org.apache.spark.api.java.Jav……

读取mysql加载DataFrame

读取mysql加载DataFrame

package spark;import java.util.HashMap;import java.util.Map;import java.util.Properties;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;……

DateFrame

DateFrame

读取json格式的RDD加载成DateFrameDateFrame 有数据,有列的schemasqlContext读取json文件加载成DateFrame ,DateFrame中列会按照Ascii码进行排序直接写sql ,查询出来的dateFrame会按照指定的列进行查询不能读取嵌套的json格式package spark;import org……

广播变量

广播变量

广播变量只能在Driver定义,在Executor端使用,不能在Executor端使用,不能在Excutor改变不能将RDD广播出去,可以将RDD的结果广播出去如果不使用广播变量在Executor中有多少task,就有多少个Driver端的变量副本,如果使用广播变量,在每个Executor中只有一份Driver端的变量副本import org……