Hadoop 十七
集群时间同步
为了使三台服务器的时间一致,而且服务器没有连接外网的话,需要进行集群时间同步。一般虚拟机的时间是同步的,所以这个过程我们不需要配置。
下面开始学习Hadoop_HDFS
hdfs解决海量问题的存储问题,是一个文件系统。用来存储文件,通过目录树来定位文件,分布式的,适合一次写入,多次读出。
优点:
1, 高容错性,自动保存多个副本
2,适合处理大数据(文件规模,数据规模)
3,可构建在廉价的机器上
缺点:
1,不适合低延时数据访问
2,无法高效的对大量小文件进行存储
3,不支持并发写入,文件随机修改
HDFS组成:
NameNode(nn) :是Master,是主管,管理者
1、管理HDFS的名称空间
2、配置副本策略
3、管理数据快(Block)映射信息
4、处理客户端读写请求
DaraNode:是Slave。执行NameNode实际的操作
1、存储实际的数据快
2、执行数据快的读/写操作
Client:客户端
1、文件切分
2、与NameNode交互,获取文件的位置信息
3、与DataNode交互,读取或者写入数据
4、提供一些命令来管理HDFS,比如NameNode的格式化
5、通过一些命令来访问HDFS,比如对HDFS的增删改查
Secondary NameNode:辅助回复NameNode,并非热备