Spark Standalone模式高可用部署

wenBlog 2020-11-12 原文

本文使用Spark的版本为：spark-2.4.0-bin-hadoop2.7.tgz。

spark的集群采用3台机器进行搭建，机器分别是server01，server02,server03。

其中：server01,server02设置为Master，server01,server02,server03为Worker。

1.Spark

下载地址：

http://spark.apache.org/downloads.html

选择对应的版本进行下载就好，我这里下载的版本是：spark-2.4.0-bin-hadoop2.7.tgz。

2.上传及解压

2.1 下载到本地后，上传到Linux的虚拟机上

scp spark-2.4.0-bin-hadoop2.7.tgz hadoop@server01:/hadoop

2.2 解压

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz

2.3 重命名

mv spark-2.4.0-bin-hadoop2.7 spark

3.配置环境

进入spark/conf目录

3.1 复制配置文件

cp slaves.template slaves

cp spark-env.sh.template spark-env.sh

3.2 修改slaves配置文件

spark集群的worker conf配置 slaves

server01

server02

server03

3.3 修改spark-env.sh配置文件

# java环境变量

export JAVA_HOME=/usr/local/java

#spark home

export SPARK_HOME=/export/opt/spark/spark2.4.0

# spark集群master进程主机host

export SPARK_MASTER_HOST=server01

# 配置zk 此处可以独立配置zk list,逗号分隔

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=xxx.xxx.xxx.xxx:2181, xxx.xxx.xxx.xxx:2181……"

如下图

3.4 下发到server02和server03机器上

scp -r /hadoop/spark hadoop@server02:/hadoop

scp -r /hadoop/spark hadoop@server03:/hadoop

3.5 修改server02机器上的spark-env.sh的SPARK_MASTER_HOST参数信息

# 增加备用master主机,改为server02,将自己设置为master（备用）

export SPARK_MASTER_HOST=server02

3.6 配置环境变量

给server01,server02,server03机器上配置spark的环境变量

export SPARK_HOME=/export/opt/spark/spark2.4.0

export PATH=$PATH:${SPARK_HOME}/bin:${SPARK_HOME}/sbin

#使配置环境生效

source /etc/profile

4. 启动Spark集群

在server01机器上，进入spark目录

4.1 分别启动master和slaves进程

# 启动master进程

sbin/start-master.sh

# 启动3个worker进程，也可以每个机器独立启动需要输入两个master地址

sbin/start-slaves.sh

jps查看进程1有既有master又有Worker,2,3只有Worker

4.2 直接使用start-all.sh启动

sbin/start-all.sh

4.3 手动启动server02机器上的master进程

进入spark目录

sbin/start-master.sh

我们可以使用stop-all.sh杀死spark的进程

sbin/stop-all.sh

web页面展示

在浏览器中输入

server01:8080

Status：ALIVE 说明master为主Master

server02:8080

总结

　　部署完成后可以尝试kill掉1的master，然后需要等几分钟后会重启备用master，此时备用切换为主。

　　另外如果application被杀掉或者jvm出现问题，还可以通过增加参数 –supervise（需要安装,pip install supervise）可以重新启动application。

本文链接：https://www.cnblogs.com/wenBlog/p/13965698.html

Spark Standalone模式高可用部署的更多相关文章

sqoop增量导入hbase

背景　　因为hadoop/hive本质上不支持更新，所以hive不能够采用update行级别的维度数据的更新 […]...

试用最强Spark IDE–IDEA

1、安装IntelliJ IDEA IDEA 全称 IntelliJ IDEA，是java语言开发的集成环境， […]...

mysql执行计划简介

介绍　　本篇主要通过汇总网上的大牛的知识，简单介绍一下如何使用mysql的执行计划，并根据执行计划判断如何优 […]...

如何使用Python读取大文件

背景最近处理文本文档时（文件约2GB大小），出现memoryError错误和文件读取太慢的问题，后来找到了两 […]...

Elasticsearch-精确查找

转译：（https://www.elastic.co/guide/en/elasticsearch/guide […]...

初识kafka

简介 Kafka经常用于实时流数据架构，用于提供实时分析。本篇将会简单介绍kafka以及它为什么能够广 […]...

安装配置最强Spark IDE–IDEA

1、安装IntelliJ IDEA IDEA 全称 IntelliJ IDEA，是java语言开发的集成环境， […]...

Elasticsearch-深入理解索引原理

最近开始大面积使用ES，很多地方都是知其然不知其所以然，特地翻看了很多资料和大牛的文档，简单汇总一篇。内容 […]...

随机推荐

抖音logo制作教程 – Leo雷

抖音logo制作教程 1.新建1200*1200PX的画板 2.创建484*484px、216*216px […]...

java8-Stream原理

前言 java8新特性目前使用非常广泛，其中Stream更是最常用的特性，这篇文章将介绍Stream的原理，如 […]...

【深度学习kears+tensorflow】MNIST手写数字识别

目录前言代码 [keras]MNIST 数据集下载不了，其他kears自带数据下载不了同理（例如imdb） […]...

AMR 转mp3 失败

private void changeToMp3(String sourcePath) { File sour […]...

经典 Excel 2007使用技巧集锦——168种技巧

一、基本方法 1.快速选中全部工作表右键单击工作窗口下面的工作表标签，在弹出的菜单中选择“选定全部工作表”命 […]...

生成随机数的方法

生成随机数的方法生成随机数的犯法； 1）使用系统变量$RANDOM 0-32767 加密性不好，利用md5s […]...

项目实战：Qt+Android模拟操作器（模拟操作app，打开，点击，输入，获取验证码等等）

若该文为原创文章，转载请注明原文出处本文章博客地址：https://blog.csdn.net/qq21497 […]...

Object Pooling(对象池)实现

在文章开始之前首先要思考的问题是为什么要建立对象池。这和.NET垃圾回收机制有关，正如下面引用所说，内存不是无 […]...

Spark Standalone模式高可用部署