Spark on Yarn配置（详细）

luengmingbiao 2021-11-04 原文

　　本文是基于已经搭建好且正常运行的Spark以及Hadoop集群上进行，为了支持Spark on Yarn是需要额外的配置。

1、Spark on Yarn配置

　　在搭建好的Spark上修改spark-env.sh文件：

# vim $SPARK_HOME/conf/spark-env.sh

　　添加以下配置：

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

　　yarn的capacity-scheduler.xml文件修改配置保证资源调度按照CPU + 内存模式：

<property> 
    <name>yarn.scheduler.capacity.resource-calculator</name> 
    <!-- <value>org.apache.hadoop.yarn.util.resource.DefaultResourceCalculator</value> --> 
    <value>org.apache.hadoop.yarn.util.resource.DominantResourceCalculator</value> 
</property>

2、Spark on Yarn日志配置

　　在yarn-site.xml开启日志功能：

<property>
    <description>Whether to enable log aggregation</description>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>

<property>
    <name>yarn.log.server.url</name>
    <value>http://master:19888/jobhistory/logs</value>
</property>

　　修改mapred-site.xml:

<property>
    <name>mapreduce.jobhistory.address</name>
    <value>master:10020</value>
</property>
 
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>master:19888</value>
</property>

　　修改spakr-defaults.conf文件：

spark.eventLog.dir=hdfs:///user/spark/applicationHistory
spark.eventLog.enabled=true
spark.yarn.historyServer.address=http://master:18018

　　修改spark-evn.sh环境变量：

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18018 -Dspark.history.fs.logDirectory=hdfs:///user/spark/applicationHistory"

　　yarn查看日志命令： yarn logs -applicationId <application_1590546538590_0017>

　　启动Hadoop和Spark历史服务器：

# mapred  --daemon start historyserver
# $SPARK_HOME/sbin/start-history-server.sh

　　查看效果：

　　1）先进入YARN管理页面查看Spark on Yarn应用，并点击如下图的History：

　　2）跳转到如下的Spark版本的WordCount作业页面：

　　3）如上已经对Spark on Yarn日志功能配置成功。

　　 4) SparkShell词频统计测试：

./bin/spark-shell --master yarn --deploy-mode client --total-executor-cores 3 --num-executors 3 --executor-memory 4g --executor-cores 1

　　在master:8080查看spark任务：

　　执行WordCount任务：

scala> val text = sc.textFile("hdfs:///user/liangmingbiao/wordcount_test.txt")
scala> text.flatMap(s => s.split(" ")).map(s => (s, 1)).reduceByKey((x, y) => x+y).collect().foreach(kv => println(kv))

　　从master:8080进入查看Job任务历史：

3、调优之Jar包共享

　　这是SPARK on YARN调优的一个手段，节约每个NODE上传JAR到HDFS的时间，在默认情况：Spark on YARN要用Spark jars（默认就在Spark安装目录），但这个jars也可以再HDFS任何可以读到的地方，这样就方便每次应用程序跑的时候在节点上可以Cache，这样就不用上传这些jars。

　　解决方案：

　　1. 创建archive：

# jar cv0f spark-jars.jar -C $SPARK_HOME/jars/*.jar .

　　2. 上传jar包到HDFS：

# hdfs dfs -mkdir -p /user/spark/jars
# hdfs dfs -copyFromLocal spark-jars.jar /user/spark/jars

　　3. 在spark-default.conf中设置

#  spark.yarn.archive=hdfs:///user/spark/jars/spark-jars.jar

本文链接：https://www.cnblogs.com/luengmingbiao/p/12985143.html

Spark on Yarn配置（详细）的更多相关文章

记一次Apache Carbondata PR的经历

前言前段时间有幸接触到Apache Carbondata，试用过程中发现了一个小小的问题， […]...

Spark学习进度11-Spark Streaming&Structured Streaming

Spark Streaming Spark Streaming 介绍批量计算流计算 Spark […]...

Spark 源码解析：TaskScheduler的任务提交和task最佳位置算法 – 听风居士

Spark 源码解析：TaskScheduler的任务提交和task最佳位置算法上篇文章《 Spark 源 […]...

Spark DataFrame写入HBase的常用方式

Spark是目前最流行的分布式计算框架，而HBase则是在HDFS之上的列式分布式存储引擎，基于Spark做离 […]...

Spark Mllib里的如何对两组数据用皮尔逊计算相关系数 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计

　　不多说，直接上干货！ import org.apache.spark.mllib.stat.Sta […]...

Hadoop 及Spark 分布式HA运行环境搭建

作者：京东物流秦彪工欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境，对于继续研究大数据生态圈各类技术具有重要意义。本文旨在站在研发的角度上通过手动实践搭建运行环境...

Spark内核解析

Spark内核概述 Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任 […]...

Spotlight on Oracle注册码破解(亲测可用)

　　了解到该工具监控十分强大，该工具优点：　　我就是为了监控一个Oracle数据库，查阅各种资料，真是费了十 […]...

随机推荐

高德地图定位根据经纬度获取信息搜索

// 地图生命周期 const amapEvents = { created: () => { if ( […]...

我去，你竟然还不会用 synchronized

二哥，离你上一篇我去已经过去两周时间了，这个系列还不打算更新吗？着急着看呢。以上是读者 Jason 发来的一 […]...

App启动页倒计时功能 – Tyhoo_Wu

App启动页倒计时功能转载请注明出处：http://www.cnblogs.com/cnwutianhao/ […]...

一个十年java程序员的心得

一个十年java程序员的心得展望未来，总结过去10年的程序员生涯，给程序员小弟弟小妹妹们的一些总结性忠告走 […]...

STM32 使用 FreeRTOS过程记录

STM32 使用 FreeRTOS过程记录资源：http://blog.csdn.net/zhzht1986 […]...

新浪微博热门评论爬虫采集

　　本科毕业设计的时候做实验数据集的需要，自己写了一个微博转发的采集器，今晚心血来潮，整理了一下原来的代码，重 […]...

区块链时代：生产关系的改变——提高工作协同效率

我是铁柱，进京务工第五年了，最近同村的二丹推荐了一个活儿，听她说是通过一个叫“星火联盟”的平台，有个组织要在 […]...

使用idea创建第一个springboot项目