Spark任务提交模式

1年前 (2020-03-13) 389次浏览 已收录 4个评论
  • 基于Standalne的两种提交模式

1、Standalne-client模式提交任务

./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100

Standalne-client模式会在客户端看到task的执行情况和结果,当在客户端提交多个application时,每个application都会启动自己的Driver,Driver与集群worker有大量的通信,会造成客户端网卡流量激增问题。( 测试)

2、Standalne-cluster模式提交任务

./spark-submit --master spark://node01:7077 --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100

Standalne-cluster模式提交任务 Driver会在集群中随机选一台worker上启动,如果提交多个application,那么每个application的Driver会分散到集群的worker节点,相当于将client模式的客户端网卡流量激增问题分散到集群中。


  • 基于yarn的两种提交模式

1、yarn-client模式提交任务

./spark-submit --master yarn-client --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100

yarn-client模式提交任务,Driver在客户端启动,当提交多个application,每个application的Driver都会在客户端启动,也会有网卡流量激增问题。(测试)

2、yarn-cluster模式提交任务

./spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100

yarn-cluster模式提交任务,AM(Driver)随机在一台NM节点上启动,当提交多个application时,每个application的Driver会分散到集群中NM中启动,相当于将yarn-client模式的客户端网卡流量激增问题分散到集群中。


渣渣龙, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Spark任务提交模式
喜欢 (0)

您必须 登录 才能发表评论!

(4)个小伙伴在吐槽
  1. 以后多多交流
    hello2020-03-28 16:51
  2. 我也是学计算机的
    笨鸟先飞2020-03-28 17:17
  3. 记住这个网站了
    笔记本2020-03-28 17:42
  4. 渣渣辉2020-03-29 18:20