hadoop mapreduce 优化

c840136 2021-08-30 原文

mapreduce程序效率的瓶颈在于两点：

　　1：计算机性能

　　2：I/O操作优化

优化无非包括时间性能和空间性能两个方面，存在一下常见的优化策略：

　　1：输入的文件尽量采用大文件

　　　　众多的小文件会导致map数量众多，每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理，整合成大文件，或者直接采用ConbinFileInputFormat来作为输入方式，此时hadoop会考虑节点和集群的位置信息，已决定将哪些文件打包到同一个单元之中。

　　2：合理分配map和reduce任务的数量

　　　　通过属性mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum分别可以配置单个节点上map任务和reduce任务的最大数量。

　　3：压缩中间数据，减少I/O

　　4：在map后先进行combine处理，减少I/O

参考资料：《Hadoop 实战》–机械工业出版社

版权声明：本文为c840136原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/c840136/archive/2013/03/10/2952887.html

hadoop mapreduce 优化的更多相关文章

hadoop中各个组件区别
这个文章主要是理清hadoop中不同组件的区别以及联系hadoop分为4个大部分hadoop的公共库hdfs 文件存储yarn 资源调度mapreduce 计算框架hdfs中包括的主要组件：Namenode2nnDatenod...
MapReduce的架构及原理
MapReduce是一种分布式计算模型，是Hadoop的主要组成之一，承担大批量数据的计算功能。MapRedu […]...
大数据技术之_11_HBase学习_01_HBase 简介+HBase 安装+HBase Shell 操作+HBase 数据结构+HBase 原理
第1章 HBase 简介1.1 什么是 HBase1.2 HBase 特点1.3 HBase 架构1.3 HB […]...
ubuntu server上安装Hadoop步骤
1. Java安装： Because everything work with java. $ sudo ap […]...
hadoop集群搭建
几年前搞过一段时间hadoop，现在又要开始搞了，发现环境都不会搭建了。写个博客记录下搭建过程。目录1、创建虚拟机及规划2、关闭防火墙3、设置各主机之间免密登录1、在每台主机hosts文件中添加IP与主机名的映射关系2、设置互信(每台主机都...
Hadoop HA Hbase启动报UnknownHostException: mycluster
Hadoop HA 搭建hbase启动时只有HMaster起来，HRegionServer没有起来查看报错信 […]...
Hadoop学习笔记01
一、大数据概念大数据大数据(Big Data)：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。主要解决问题海量数据的采集存储和分析计算问题特点大量(Volume)高速(Velocity)：处理效率多样(Var...
Hadoop（liunx操作系统）
Linux环境下HDFS安装（多节点参考以下）https://blog.csdn.net/xiaohu21/article/details/108028516#t8宝塔面板安装：curl -sSO http://download.b...

随机推荐

软件工程概论3
软件工程概论第三章软件项目管理 1.软件项目管理概述软件项目的特征：不可见性，高度不确定性，多变化性，高 […]...
全方位讲解硬件防火墙的选择
防火墙是指设置在不同网络（如可信任的企业内部网和不可信的公共网）或网络安全域之间的一系列部件的组合。它是不同网 […]...
PPT 设置幻灯片母版
现在我设计了一个PPT背景，我想新建幻灯片的时候，直接就是以这个背景展现，并把这个背景作用于左右的幻灯片。 1 […]...
商城管理系统(前台+后台+管理员+用户+html+jsp)
定制or毕设99：761273133 最新项目地址：https://www.cnblogs.com/weib […]...
Bootstrap入门（三）标签的css样式
Bootstrap入门（三）<p>标签的css样式前提：引入css文件，内容放在一个class为 […]...
数字对讲系统开发札记（前端linux c 后端 c#）
前言数字化是一种趋势，特别是在“提速降费”的大环境下，这种趋势愈发明显。对讲机这种古老的系统也处在时代的变革 […]...
Castle DynamicProxy基本用法（AOP）
本文介绍AOP编程的基本概念、Castle DynamicProxy（DP）的基本用法，使用第三方扩展实现对异 […]...
Android常用库源码解析
图片加载框架比较共同优点都对多级缓存、线程池、缓存算法做了处理自适应程度高，根据系统性能初始化缓存配置、 […]...

展开目录

目录导航