Apache spark2.1.0编译hadoop-2.6-cdh5.11.2的对应版本

Thomas-blog 2018-10-23 原文

Apache spark2.1.0 编译 hadoop-2.6-cdh5.11.2 的对应版本

搞了两天，终于把spark编译成功了，把编译过程记录一下

编译失败的坑：

　　1）linux内存不足，maven编译过程中内存溢出

　　2）找不到cloudera仓库

　　3）报各种错误

考虑到maven下载可能会被墙，于是买了国外的云主机,内存4g，终于编译成功了，并且编译速度相当快，只花了8分钟

成功编译Apaceh spark成对应的chd版本基本步骤如下（使用make-distribution.sh打包编译）：

1.安装maven,有版本要求3.x以上的，用最新的就行了

2.安装jdk 1.7+,2.x以上的spark尽量使用 jdk1.8，并且不要使用自带的open jdk ,下载oracle的jdk

3.确认maven，jdk都配置完成

4.下载spark,解压

5.因为要编译成对应hadoop cdh版本，所以需要在spark HOME目录下的pom.xml文件找到repository位置添加

<repository>
<id>cloudera</id>
<name>cloudera repository</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>

6.为了加快编译速度，修改dev/make-distribution.sh文件

添加以下内容，并把之前的内容注释，因为默认是通过扫描来获得这些值的，会消耗一些时间

VERSION=2.1.0  #spark的版本
SCALA_VERSION=2.10.6  #scala的版本，可以在pom.xml文件的scala.version中找到
SPARK_HADOOP_VERSION=2.6.0-cdh5.11.2 #编译对应具体的hadoop版本
SPARK_HIVE=1  #支持HIVE

7.避免内存溢出

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

可以根据自己电脑内存情况调整

8.开始编译

./dev/make-distribution.sh --name spark2.1.0-cdh5.11.2  --tgz   -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.11.2 -Phive -Phive-thriftserver  -Pyarn


--tgz 打包成 tgz 
  
--name 编译打包的名称 spark2.1.0-cdh5.11.2 默认会在前面添加spark2.1.0-bin，如果编译成功那么全名应该是 spark2.1.0-bin-spark2.1.0-cdh5.11.2

-Phadoop 对应hadoop的大版本

-Dhadoop.version 对应hadoop的具体版本

-Phive  -Pyarn 支持hive，yarn

9.等待完成，编译成功后会在 spark 的home目录下生成打包的文件

10.然后使用xftp软件把编译成功的包传回本地就行

ps：博客上的代码，直接复制到linux文件上可能会用问题，所以建议手动输入

版权声明：本文为Thomas-blog原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/Thomas-blog/p/9835687.html

Apache spark2.1.0编译hadoop-2.6-cdh5.11.2的对应版本的更多相关文章

Spring与Akka的集成
Spring与Akka的集成概述近年来随着Spark的火热，Spark本身使用的开发语言Sc […]...
spark shuffle写操作之BypassMergeSortShuffleWriter
前言再上一篇文章 spark shuffle的写操作之准备工作中，主要介绍了 spark shuffle的 […]...
spark内存管理器–MemoryManager源码解析
MemoryManager内存管理器内存管理器可以说是spark内核中最重要的基础模块之一，shuffle时 […]...
Spark ML源码分析之一设计框架解读
Spark ML源码分析之一设计框架解读本博客为作者原创，如需转载请注明参考在深入理 […]...
重要 | Spark和MapReduce的对比，不仅仅是计算模型？
笔者将分上下篇文章进行阐述Spark和MapReduce的对比，首篇侧重于”宏观”上的 […]...
Spark学习进度7-综合案例
综合案例文件排序解法： 1.读取数据 2.数据清洗，变换数据格式 3.从新分区成一个分区 4.按照k […]...
spark shuffle的写操作之准备工作
前言在前三篇文章中，spark 源码分析之十九 — DAG的生成和Stage的划分剖析了DAG […]...
spark系列-8、Spark Streaming
参考链接：http://spark.apache.org/docs/latest/streaming-prog […]...

随机推荐

《3D打印与工业制造》—— 读书笔记
《3D打印与工业制造》—— 读书笔记原创内容，学习不易，转载请注明出处！一、读后感—— “WO […]...
小进阶：数据指标体系和数据治理的管理
小进阶：数据指标体系和数据治理的管理关于作者：小姬，某知名互联网公司产品专家，对数据采集、生产、加工有所了解 […]...
移动Web端，游客点击商品的收藏按钮，登录完成，回来之后，如何自动收藏
我们都知道，移动Web端（M站环境下），很多时候，前端是无法判断用户的登录状态的，因为出于安全性考虑，与账号相 […]...
如何用路由器改成WiFi Pineapple系统镜像网络流量
本文主要介绍利用自己现有的设备，如何制作和使用WiFi Pineapple镜像网络流量，利用DWall模块分析 […]...
StringUtils工具类常用方法汇总2(截取、去除空白、包含、查询索引)
在上一篇中总结了StringUtils工具类在判断字符串为空，大小写转换，移除字符或字符序列，替换，反转， […]...
千万别说图在变化，其实你的大脑在变化！
在你看来，下面图像的运动方向是顺时针呢还是逆时针呢？？每个人看来都是不一样的顺时针的话，属于是用右脑较多的 […]...
红米k30s/k40刷magisk面具+LSPosed+大圣净化
此教程不需要root手机，但是需要【解锁bl】、并且【开启usb调试】安装adbadb即电脑连接安卓驱 […]...
Linux系统安装和使用
Linux的发行版本、内核版本；二者的区别与联系区别：内核版本的官方版本由Linux Torvalds本人维 […]...

展开目录

目录导航