Hadoop学习
Hadoop入门
大数据:无法在一定时间内,通过常规的技术手段解决的信息资产。
Hadoop就是解决大数据存储、计算问题的框架
Hadoop生态圈(Hadoop是核心)
Hadoop的组成:
Hadoop1.x时,hdfs负责大数据的存储 mapreduce负责大数据的计算和资源调度
Hadoop2.x时,增加了yarn负责资源调度
Hadoop的架构:
hdfs架构:
namenode:负责存储文件的元数据(文件名、存储位置、文件属性)
datanode: 负责存储文件块数据、以及块数据的校验和
secondarynamenode : 每隔一段时间为namenode中的数据做备份
yarn架构:
resourcemanager:负责管理整个集群的资源调度
nodemanager:负责管理单个节点的资源
applicationmaster:单个任务
container:容器,相当于一台服务器,里头封装了内存、cup、磁盘、网络
Hadoop运行环境的搭建:
1)制作出一台模板虚拟机(安装操作系统(Centos7),配置该虚拟机的网络(ip,主机名)(关闭防火墙))
2)以模板机为例克隆出三台虚拟机(修改网络配置)
3)安装jdk(hadoop的运行离不开jdk。Hadoop是用Java编写的,Hadoop天生支持Java语言的编写作业),配置jdk环境变量
4)将Hadoop的压缩包上传到/opt/software/下
5)将Hadoop的压缩包解压并将解压的内容安装到/opt/module/下(tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/),配置Hadoop环境变量
Hadoop运行模式:
本地模式:文件存储在Linux本地
伪分布式:文件存储在hdfs,但是只有单台机器
完全分布式:文件存储在hdfs,多个机器组成的集群
集群的核心配置文件:
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
workers
配置完成后分发出去
集群的开启/停止方式:
start/stop-dfs.sh
start/stop-yarn.sh
单节点启动/停止方式:
hdfs –daemon start datanode/namenode/secondarynamenode
yarn –daemon start resourcemanager/nodemanager
群起集群:
第一次启动集群,需要将namenode进行初始化。生成新的集群id