hadoop离线计算项目上线配置问题记录

dahaha 2019-03-15 原文

最近上线一个hadoop离线处理项目，因为在低配置（8G,4核）的时候装的CDH，后来集群配置（64G，16核）上来了，但许多参数不会自动修改，需要自己调整，处理过程中遇到的配置问题记录下。

1、hive

跑任务的时候发现reduce任务个数特别多，后来发现这个参数被改成64M了，改成1G就好了。

hadoop推测的reduce个数基本上是用输入数据的大小除以这个参数得出来的。

    set hive.exec.reducers.bytes.per.reducer=1G

2、yan

每个map，reduce的内存大小，

    set mapreduce.map.memory.mb=2G
    set mapreduce.reduce.memory.mb=4G

修改yarn最大可用内存、cpu。机器配置变动的时候要记得修改这个配置，不然，要不资源不够用，要不加了资源又没用到

    set yarn.nodemanager.resource.memory-mb=节点内存的2/3
    set yarn.nodemanager.resource.cpu-vcores= node节点的cpu数

启用JVM重用

    set mapreduce.job.ubertask.enable=true
    set mapreduce.job.ubertask.maxmaps=9
    set mapreduce.job.ubertask.maxreduces=1
    set mapreduce.job.ubertask.maxbytes=128M

3、hdfs

没做权限控制，取消hdfs权限检查，省去许多麻烦

set dfs.permissions=false

4、运行中报错

报文件已存在、文件丢失之类的错误（Caused by: org.apache.hadoop.fs.FileAlreadyExistsException），后来发现是在开启了本地模式下，用shell命令同时并发的跑好几个任务时就会出问题。去掉本地模式，用集群跑任务就好了。

    set hive.exec.mode.local.auto=true;

本文链接：https://www.cnblogs.com/dahaha/p/10539238.html

hadoop离线计算项目上线配置问题记录的更多相关文章

hive merge into 批量更新测试

一、使用条件 hive2.2.0及之后的版本支持使用merge into 语法，使用源表数据批量目标表的数据。 […]...

Spark SQL源码解析（四）Optimization和Physical Planning阶段解析

Spark SQL原理解析前言： Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述 Sp […]...

hive2.3.5语法变化预研

Hive版本升级后，语法要求越来越严格，所以很多在1.1.0可以跑成功的SQL，到了2.3.5会报错。 1、隐 […]...

Spark DataFrame 的 groupBy vs groupByKey

在使用 Spark SQL 的过程中，经常会用到 groupBy 这个函数进行一些统计工作。但是会发现除了 g […]...

spark RDD，reduceByKey vs groupByKey

Spark 中有两个类似的api，分别是 reduceByKey 和 groupByKey 。这两个的功能类似 […]...

Spark SQL源码解析（五）SparkPlan准备和执行阶段

Spark SQL原理解析前言： Spark SQL源码剖析（一）SQL解析框架Catalyst流程概述 Sp […]...

从分治算法到 MapReduce

从分治算法说起要说 MapReduce 就不得不说分治算法，而分治算法其实说白了，就是四个字分而治之。其 […]...

随机推荐

Quartz Spring分布式集群搭建Demo

注:关于单节点的Quartz使用在这里不做详细介绍,直接进阶为分布式集群版的 1.准备工作: 使用环境Spri […]...

运行jar包的命令

windows下使用java -jar xxx.jar运行，linux下使用nohup java -jar x […]...

KSM概念学习

KSM： Kernel SamePage Merging 内核同页合并简介 KSM允许内核在两个或多个进程( […]...

mac 常用的开发工具 – 悬笔e绝

mac 常用的开发工具原文链接 mac 常用的开发工具 http://www.oschina.net/new […]...

【caffe】基本数据结构blob

@tags: caffe blob blob是caffe中的基本数据结构，简单理解就是一个“4维数组”。但是， […]...

【基础设计】Java生成微信分享海报

微信后台生成海报一般都是一个模板写死，然后就完事了，过了不久让修改个模板，就又要看半天，还要考虑是否重新复制一 […]...

Microsoft Dynamics CRM 2013 安装过程图解 Microsoft Dynamics CRM 2013 CD-KEY

Microsoft Dynamics CRM 2013 安装过程图解及安装序列号在安装前，先持一下SQL配置 […]...

理解函数式编程语言中的组合–前言(一)

理解函数式编程语言中的组合–前言(一) 函数式编程思想可以用一句话总结，即：可组合的类型+可组合的 […]...