Hadoop-day06(MapReduce设计理念)
一、MapReduce设计理念
map—>映射
reduce—>归纳
mapreduce必须构建在hdfs之上的一种大数据离线计算框架
在线:实时数据处理
离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果
mapreduce不会马上得到结果,他会有一定的延时(磁盘IO)
如果数据量小,使用mapreduce反而不合适
杀鸡焉用宰牛刀
原始数据–>map(Key,Value)–>Reduce
分布式i计算
将大的数据切分成多个小数据,交给更多的节点参与运算
计算向数据靠拢
将计算传递给有数据的节点上进行工作
二、MapReduce架构特点
MapReduce1.x
JobTracker
主节点,单点,负责调度所有的作用和监控整个集群的资源负载。
TaskTracker
从节点,自身节点资源管理和JobTracker进行心跳联系,汇报资源和获取task。
Client
以作业为单位,规划作业计算分布,提交作业资源到HDFS,最终提交作业到JobTracker。
MapReduce1.x的弊端
1.JobTracker负载过重,存在单点故障。
2.资源管理和计算调度强耦合,其它计算框架难以复用其资源管理。
3.不同框架对资源不能全局管理。
MapReduce2.x
ResourceManager
主节点,负责整个集群的资源管理。
NodeManager
与ResourceManager汇报资源,管理Container生命周期,计算框架中的角色都以Container表示。
Container
默认NodeManager启动线程监控Container大小,超出申请资源额度会kill掉。支持Linux内核的Cgroup。
Client
ResourceManager-client:请求资源创建ApplicationMaster-client。
ApplicationMaster-client:与ApplicationMaster交互。
YARN【Yet Another Resource Negotiator】:Hadoop 2.0新引入的资源管理系统,直接从MRv1演化而来的。
核心思想:将MRv1中JobTracker的资源管理和任务调度两个功能分开,分别由ResourceManager和ApplicationMaster进程实现:
ResourceManager:负责整个集群的资源管理和调度。
ApplicationMaster:负责应用程序相关的事务,比如任务调度、任务监控和容错等。
YARN的引入,使得多个计算框架可运行在一个集群中 每个应用程序对应一个ApplicationMaster 目前多个计算框架可以运行在YARN上,比如MapReduce、Spark、Storm等。
三、Hadoop搭建yarn环境(我们已经搭建好了,回顾配置文件)
四、扑克牌的问题
你想数出一摞牌中有多少张黑桃,红桃,方块,梅花。直观方式是一张一张检查并且数出分别有多少张。
MapReduce方法则是:
1.给在座的所有玩家中分配这摞牌
2.让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你
3.你把所有玩家告诉你的数字加起来,得到最后的结论
五、MR的计算流程
计算1T数据中每个单词出现的次数—->wordcount
5.1 原始数据File(可以从网上找一篇英文的文章)
The books chronicle the adventures of the adolescent wizard Harry Potter and his best friends Ron Weasley and Hermione Granger, all of whom are students at Hogwarts School of Witchcraft and Wizardry.
1T数据被切分成块存放在HDFS上,每一个块有128M大小
5.2 数据块Block
block块是hdfs上数据存储的一个单元,同一个文件中块的大小都是相同的
因为数据存储到HDFS上不可变,所以有可能块的数量和集群的计算能力不匹配——(为什么要引入split)
我们需要一个动态调整本次参与计算节点数量的一个单位
我们可以动态的改变这个单位––>参与的节点
5.3 切片Split【逻辑上的概念,实际上并没有切分】
1、MapReduce作业中Map Task数目的确定:
1)MapReduce从HDFS中分割读取Split文件,通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计算单元,一个Split文件对应一个Map Task
2)默认情况下HDFS种的一个block,对应一个Split。
3)当执行Wordcount时:
(1)一个输入文件小于64MB,默认情况下则保存在hdfs上的一个block中,对应一个Split文件,所以将产生一个Map Task。
(2)如果输入一个文件为150MB,默认情况下保存在HDFS上的三个block中,对应三个Split文件,所以将产生三个Map Task。
(3)如果有输入三个文件都小于64MB,默认情况下会保存在三个不同的block中,也将产生三个Map Task。
4)用户可自行指定block与split的关系,HDSF中的一个block,一个Split也可以对应多个block。Split与block的关系都是一对多的关系。
5)总结MapReduce作业中的Map Task数目是由:
(1)输入文件的个数与大小
(2)hadoop设置split与block的关系来决定。
目的:动态地控制计算单元的数量
切片是一个逻辑概念
在不改变现在数据存储的情况下,可以控制参与计算的节点数目
通过切片大小可以达到控制计算节点数量的目的
有多少个切片就会执行多少个Map任务:即 map 任务是有split的数量来决定的
一般切片大小为Block的整数倍(2 1/2)
防止多余创建和很多的数据连接
如果Split大小 > Block大小 ,计算节点少了
如果Split大小 < Block大小 ,计算节点多了
默认情况下,Split切片的大小等于Block的大小 ,默认128M,如果读取到最后一个block块的时候,与前一个blokc块组合起来的大小小于128M*1.1的话,他们结合生一个split切片,生成一个map任务
一个切片对应一个MapTask
5.4 MapTask
map默认从所属切片读取数据,每次读取一行(默认读取器)到内存中(map种的逻辑作用在每一行上)
我们可以根据自己书写的分词逻辑(空格,逗号等分隔),计算每个单词出现的次数(wordcount)
这时会产生(Map<String,Integer>)临时数据,存放到内存中**Map任务默认不会做任何的累加,只是会统计。出现一次就写记录一下:如下面的the **
the books chronicle the adventures of the adolescent wizard Harry Potter and his best friends Ron Weasley and Hermione Granger, all of whom are students at Hogwarts School of Witchcraft and Wizardry the 1 books 1 chronicle 1 the 1 adventures 1 of 1 ... Wizardry 1
但是内存的大小是有限的,如果每个任务随机的去占用内存,会导致内存不可控。多个任务同时执行有可能内存溢出(OOM)
如果把数据都直接放到硬盘,效率太低
所以想个方案,内存和硬盘结合,我们要做的就是在OOM和效率低之间提供一个有效方案,可以先往内存中写入一部分数据,然后写出到硬盘
5.5 环形缓冲区(KV-Buffer)
可以循环利用这块内存区域,减少数据溢写时map的停止时间
每一个Map可以独享的一个内存区域
在内存中构建一个环形数据缓冲区(kvBuffer),默认大小为100M
设置缓冲区的阈值为80%(设置阈值的目的是为了同时写入和写出),当缓冲区的数据达到80M开始向外溢写到硬盘
溢写的时候还有20M的空间可以被使用效率并不会被减缓
而且将数据循环写到硬盘,不用担心OOM问题
说完这个先说溢写,合并,拉取(分析出问题得到结论),再说中间的分区排序
理解
1 . 环形缓冲区的大小为 100 M,有一个 map 个人独享
2 . map任务将数据写到缓冲区中,当缓存中的数据达到 80 M 时,即达到阈值,就会将数据写入到磁盘中,进行数据持久化
3 . 此时环形缓冲区中还有 20M 的空余空间继续留给内存使用,二者互不影响。
4.每当达到阈值时,就会将环形缓冲器中的数据重新写入一个文件。
5 . 有可能内存写入到环形缓冲区中比缓冲区写到磁盘中快,依旧会导致大量数 据阻塞在内存中,此时我们可以调节缓冲区的阈值,将其调小。
5.6 分区Partition(环形缓冲区做的)()
根据Key直接计算出对应的Reduce
分区的数量和Reduce的数量是相等的
hash(key) % partation(reduce的数量) = num
默认分区的算法是Hash然后取余
Object的hashCode()—equals()
如果两个对象equals,那么两个对象的hashcode一定相等
如果两个对象的hashcode相等,但是对象不一定equlas
1.一个文件会被切分成多个block(128M)存在HDFS上
2.按照我们定义的split逻辑对block进行切分,(不是真正意义上的切分,而是逻辑上的切分,读到定义大小就会产层一个map任务,hadoop默认的split大小是128M,但是如果最后一个block块与前一个block块数据真实的大小小于128*1.1的话,会生成一个map 人任务)
3.map任务的逻辑始作俑在每一行,会按照我们定义的分隔符进行切分,得到一个Key-value的数据格式
4.map任务产生的数据会进入到一个叫环形缓冲区的地方,这个环形缓冲区(内存,每一个map任务会有一个这样的环形缓冲区)的大小默认为100M,当数据写到默认的80%的时候,开始溢写到磁盘中,产生一个文件
5.在溢写之前,也就是在环形缓冲区的时候,会先将数据分区(哈希值%reduce的数量),在进行排序(快速排序)
6.reduce去拉取的时候,每个map产生的小文件都会进行合并一次(归并排序)。同一个分区的数据会被拉到同一个reduce中
7.这个时候一个reduce就会计算出每一个map任务的结果
8.reduce再将每一个map任务的结果做合并(并归排序),聚合得到结果
9.最终将结果写入到HDFS
面试题:
1、什么是环形缓冲区?
环形缓冲区,顾名思义这个缓冲区是环形的,那么何谓环形这个意思也很好理解,就是用一个指针去访问该缓冲区的最后一个内存位置的的后一位置时回到环形缓冲区的起点。类似一个环一样
2、介绍一些环形缓冲区的原理?
环形缓冲区通常有一个读指针和一个写指针。读指针指向环形缓冲区中可读的数据,写指针指向环形缓冲区中可写的缓冲区。通过移动读指针和写指针就可以实现缓冲区的数据读取和写人。
1 . 环形缓冲区的大小为 100 M,有一个 map 个人独享
2 . map任务将数据写到缓冲区中,当缓存中的数据达到 80 M 时,即达到阈值,就会将数据写入到磁盘中,进行数据持久化
3 . 此时环形缓冲区中还有 20M 的空余空间继续留给内存使用,二者互不影响。
4.每当达到阈值时,就会将环形缓冲器中的数据重新写入一个文件。
3。mapreduce整个流程中涉及到什么算法并介绍该算法出现的位置?
两种算法:第一种:快速排序。出现在环形缓冲区中,先通过hash算法计算出单个数据的哈希值,在通过哈希值进行排序
第二种:归并排序;第一次出现在由于溢写导致出现很多小文件,需要将小文件合并起来,合并之后,为了使合并后的文件有序,就进行的归并排序。第二次出现。将reduce中的数据合并到一起的时候,进行归并排序
4.设么是shuffle?
shuffle就是对数据进行重组的过程,由于分布式的特性和要求,在是实现细节撒上更加繁琐。
在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个程序的性能高低。Spark也会有自己的shuffle实现过程
5.7 排序Sort(环形缓冲区做的,快速排序,对前面分区后的编号进行排序,使得相同编号的在一起)
对要溢写的数据进行排序(QuickSort)
按照先Partation后Key的顺序排序–>相同分区在一起,相同Key的在一起
我们将来溢写出的小文件也都是有序的
5.8 溢写Spill
将内存中的数据循环写到硬盘,不用担心OOM问题
每次会产生一个80M的文件
如果本次Map产生的数据较多,可能会溢写多个文件
5.9 合并Merge
因为溢写会产生很多有序(分区 key)的小文件,而且小文件的数目不确定
后面向reduce传递数据带来很大的问题
所以将小文件合并成一个大文件,将来拉取的数据直接从大文件拉取即可
合并小文件的时候同样进行排序(归并 排序),最终产生一个有序的大文件
5.10 组合器Combiner
a. 集群的带宽限制了mapreduce作业的数量,因此应该尽量避免map和reduce任务之间的数据传输,hadoop允许用户对map的输出数据进行处理,用户可自定义combiner函数(如同map函数和reduce函数一般),其逻辑一般和reduce函数一样,combiner的输入是map的输出,combiner的输出作为reduce的输入,很多情况下可以i直接将reduce函数作为conbiner函数来试用(job.setCombinerClass(FlowCountReducer.class))。
b. combiner属于优化方案,所以无法确定combiner函数会调用多少次,可以在环形缓存区溢出文件时调用combiner函数,也可以在溢出的小文件合并成大文件时调用combiner,但是要保证不管调用多少次,combiner函数都不影响最终的结果,所以不是所有处理逻辑都可以i使用combiner组件,有些逻辑如果试用了conbiner函数会改变最后reduce的输出结果(如求几个数的平均值,就不能先用conbiner求一次各个map输出结果的平均值,再求这些平均值的平均值,那样会导致结果的错误)。
c. combiner的意义就是对每一个maptask的输出进行局部汇总,以减小网络传输量:
原先传给reduce的数据时a1 a1 a1 a1 a1
第一次combiner组合后变成a(1,1,1,1,1)
第二次combiner后传给reduce的数据变为a(5,5,6,7,23,…)
5.11 拉取Fetch
我们需要将Map的临时结果拉取到Reduce节点
第一种方式:两两合并 第二种方式:相同的进一个reduce 第三种对第二种优化,排序 第四种对第三种优化:如果一个reduce处理两种key,而key分布一个首一个尾,解决不连续的问题,给个编号,这个编号怎么算呢,`回到分区,排序`
原则(用统计姓氏的例子画图理解)
相同的Key必须拉取到同一个Reduce节点
但是一个Reduce节点可以有多个Key
未排序前拉取数据的时候必须对Map产生的最终的合并文件做全序遍历
而且每一个reduce都要做一个全序遍历
如果map产生的大文件是有序的,每一个reduce只需要从文件中读取自己所需的即可
5.12 合并Merge
因为reduce拉取的时候,会从多个map拉取数据
那么每个map都会产生一个小文件,这些小文件(文件与文件之间无序,文件内部有序)
为了方便计算(没必要读取N个小文件),需要合并文件
归并算法合并成2个(qishishilia)
相同的key都在一起
5.13 归并Reduce
将文件中的数据读取到内存中
一次性将相同的key全部读取到内存中
直接将相同的key得到结果–>最终结果
5.14 写出Output(说完这个后再画两个案例图总结)
每个reduce将自己计算的最终结果都会存放到HDFS上
5.15 MapReduce过程截图
六、MapReduce程序编写(统计单词个数)
步骤一:在hadoop父项目中创建一个子类的maven项目结构如下
步骤二在子MapReduce项目中配置需要用到的包
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<parent>
<artifactId>java-hadoop</artifactId>
<groupId>org.example</groupId>
<version>1.0-SNAPSHOT</version>
</parent>
<modelVersion>4.0.0</modelVersion>
<artifactId>hadoop-mapreduce</artifactId>
<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
</dependency>
</dependencies>
</project>
步骤三:WordCound代码:
package com.shujia;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
/**
* @author WangTao
* @date 2022/5/26 22:01
*/
/*
编写mapreduce实现WordCount单词统计
*/
class MyMapper extends Mapper<LongWritable,Text,Text,LongWritable>{
@Override
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context) throws IOException, InterruptedException {
//先将Text类型转成java中String类型
String line = value.toString();
//每一行的数据用空格进行分割
String[] strings = line.split(" ");
for (String word : strings) {
context.write(new Text(word), new LongWritable(1L));
}
}
}
class MyReduce extends Reducer<Text,LongWritable,Text,LongWritable>{
@Override
protected void reduce(Text key, Iterable<LongWritable> values, Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {
Long sum = 0L;
for (LongWritable value : values) {
long l = value.get();
sum += l;
}
context.write(key, new LongWritable(sum));
}
}
public class WordCount {
public static void main(String[] args) throws Exception{
//获取MapReduce集群的环境配置
Configuration conf = new Configuration();
//创建一个任务
Job job = Job.getInstance();
//设置reduce的数量
job.setNumReduceTasks(2);
//设置job的名称
job.setJar("TeBieXingDong");
//设置运行的主类
job.setJarByClass(WordCount.class);
//设置map类
job.setMapperClass(MyMapper.class);
//设置reduce类
job.setReducerClass(MyReduce.class);
//设置map任务出来的结果的类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(LongWritable.class);
//设置reduce输出结果的key和value的类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(LongWritable.class);
//指定数据在HDFS上的路径,这个路径需要自己手动传入
FileInputFormat.setInputPaths(job,new Path(args[0]));
FileOutputFormat.setOutputPath(job,new Path(args[1]));
job.waitForCompletion(true);
}
}
步骤四:将项目打成一个 jar 包(两种方式)
第一种:在右侧栏中直接点击
第二种:通过 build 构建项目
大成的jar包如下:
步骤五:将 jar 包拖到linux中运行
使用 hadoop jar last-time.jar com.shujia.WordCount /bigdata17/test.txt /bigdata17/last-time 运行:
运行结果: