Hadoop要解决的问题:

  海量数据的存储和计算

 

Hadoop优势

  1.高可靠性,Hadoop底层维护多个数据副本,即使某个结点故障,也不会导致数据丢失

  

  2.高扩展性:在集群间分配任务数据,方便扩展数以千计的结点(动态增加删除服务器)

  3.高效性:  Hadoop是并行工作的,加快任务处理速度

  4.高容错性: 能够自动将失败的任务重新分配

 

 

Hadoop的组成(重点)

  Hadoop3.x在组成上没有太大变化

 

 

 

 HDFS概述:

  NameNode(nn):记录每个文件块存储的位置(类似与目录)(文件名,文件目录结构,文件属性,文件权限,文件块列表以及所在的DataNode)

  DataNode(dn):具体来存储数据(在本地文件系统存储文件块数据,以及块数据的校验和)

  Secondary NameNode (2NN):辅助NameNode工作(每隔一段时间对NameNode的元数据进行备份)

  

 

 

Yarn(ResourceManager–RM和NodeManager–NM)

  ResourceManager:整个集群的资源管理–内存、CPU等

  NodeManager:单个结点的资源管理

  ApplicationMaster:单个任务运行的管理者

  Container:容器,相当于一个独立的服务器,里面封装任务运行所需要的资源,CPU 内存 网络 等

 

 

   

 

   多个客户端,集群上可以运行多个APP Master,每个NM上可有多个Container

  

 MapReduce

  计算过程分为两个阶段:Map和Reduce

  Map:并行处理输入数据

  Reduce:对Map阶段的结果进行汇总

 

 

   

 

 

HDFS,Yarn,MapReduce三者关系

  

 

 

 大数据生态图

  

 

版权声明:本文为zlnfcl原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/zlnfcl/p/16803913.html