- 基于Standalne的两种提交模式
1、Standalne-client模式提交任务
./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
Standalne-client模式会在客户端看到task的执行情况和结果,当在客户端提交多个application时,每个application都会启动自己的Driver,Driver与集群worker有大量的通信,会造成客户端网卡流量激增问题。( 测试)
2、Standalne-cluster模式提交任务
./spark-submit --master spark://node01:7077 --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
Standalne-cluster模式提交任务 Driver会在集群中随机选一台worker上启动,如果提交多个application,那么每个application的Driver会分散到集群的worker节点,相当于将client模式的客户端网卡流量激增问题分散到集群中。
- 基于yarn的两种提交模式
1、yarn-client模式提交任务
./spark-submit --master yarn-client --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
yarn-client模式提交任务,Driver在客户端启动,当提交多个application,每个application的Driver都会在客户端启动,也会有网卡流量激增问题。(测试)
2、yarn-cluster模式提交任务
./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
yarn-cluster模式提交任务,AM(Driver)随机在一台NM节点上启动,当提交多个application时,每个application的Driver会分散到集群中NM中启动,相当于将yarn-client模式的客户端网卡流量激增问题分散到集群中。
以后多多交流
我也是学计算机的
记住这个网站了
好