Hadoop入门

大数据:无法在一定时间内,通过常规的技术手段解决的信息资产。

Hadoop就是解决大数据存储、计算问题的框架

Hadoop生态圈(Hadoop是核心)

 

Hadoop的组成:
Hadoop1.x时,hdfs负责大数据的存储  mapreduce负责大数据的计算和资源调度

Hadoop2.x时,增加了yarn负责资源调度

Hadoop的架构:

hdfs架构:
namenode:负责存储文件的元数据(文件名、存储位置、文件属性)

datanode: 负责存储文件块数据、以及块数据的校验和

secondarynamenode : 每隔一段时间为namenode中的数据做备份

 

yarn架构:

resourcemanager:负责管理整个集群的资源调度

nodemanager:负责管理单个节点的资源

applicationmaster:单个任务

container:容器,相当于一台服务器,里头封装了内存、cup、磁盘、网络

Hadoop运行环境的搭建:
1)制作出一台模板虚拟机(安装操作系统(Centos7),配置该虚拟机的网络(ip,主机名)(关闭防火墙))

2)以模板机为例克隆出三台虚拟机(修改网络配置)

3)安装jdk(hadoop的运行离不开jdk。Hadoop是用Java编写的,Hadoop天生支持Java语言的编写作业),配置jdk环境变量

4)将Hadoop的压缩包上传到/opt/software/下

5)将Hadoop的压缩包解压并将解压的内容安装到/opt/module/下(tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/),配置Hadoop环境变量

 

Hadoop运行模式:

本地模式:文件存储在Linux本地

伪分布式:文件存储在hdfs,但是只有单台机器

完全分布式:文件存储在hdfs,多个机器组成的集群

 

集群的核心配置文件:
core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

workers

配置完成后分发出去

 

 集群的开启/停止方式:

start/stop-dfs.sh

start/stop-yarn.sh

单节点启动/停止方式:

hdfs –daemon start datanode/namenode/secondarynamenode

yarn –daemon start resourcemanager/nodemanager

 

群起集群:
第一次启动集群,需要将namenode进行初始化。生成新的集群id

 

版权声明:本文为hskq原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/hskq/p/16256955.html