Hadoop概论

拉普拉斯_凯 2022-05-26 原文

Hadoop的定义

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。(百度百科)

Hadoop的诞生

Hadoop 三大发行版本：Apache、Cloudera、Hortonworks。

Apache 版本最原始（最基础）的版本，对于入门学习最好。2006
Cloudera 内部集成了很多大数据框架，对应产品 CDH。2008
Hortonworks 文档较好，对应产品 HDP。2011
Hortonworks 现在已经被 Cloudera 公司收购，推出新的品牌 CDP。 2018
2021宣布所有版本收费

Hadoop的地位

大数据生态圈

由此可见，Hadoop位于整个大数据生态圈的最底层，是学习整个大数据框架的关键。

Hadoop的技术架构

架构图

现版本为3.x.x，其技术架构和2.0相同。

主要技术框架：

Hadoop Distributed File System，简称 HDFS，是一个分布式文件系统。用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。

Hadoop特点

参考链接：https://blog.csdn.net/qq_42937522/article/details/121016314

版权声明：本文为拉普拉斯_凯原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/kks1234/p/16315902.html

Hadoop概论的更多相关文章

Hadoop 和 MPP 的比较
如果我们回顾5年前会发现，那就是当时Hadoop不是大多数公司的选择，特别是那些要求稳定和成熟的平台的企业。 […]...
xen虚拟机（Centos6.6）的创建和扩容
好久没来更博了，从这篇开始，我准备好好梳理一下Hadoop的那些“事”。本人技术渣一枚，只是本着知识共享的 […]...
使用docker安装hadoop（已实现）
1.拉镜像这里推荐第一个docker pull registry.cn-hangzhou.aliyuncs.com/hadoop_test/hadoop_base或者docker pull qianiqan/hadoop_only2.创...
hadoop2集群环境搭建
在查询了很多资料以后，发现国内外没有一篇关于hadoop2集群环境搭建的详细步骤的文章。所以，我想把我知道的 […]...
Hadoop集群搭建和简单应用
主从结构：在一个集群中，会有部分节点充当主服务器的角色，其他服务器都是从服务器的角色，当前这种架构模式叫做主从结构。主从结构分类：1、一主多从2、多主多从Hadoop中的HDFS和YARN都是主从结构，主从结构中的主节点和从节点有...
工作中集群中遇到的trouble shooting
1.HDFS 修复问题描述：其他部门在yarn平台上跑spark 程序错误的生成了海量的不到100 […]...
Hadoop安装
1.软件版本选取在VMware Workstation Pro 12.0以上版本的虚拟机上部署5台CentOS-7系统模拟5台服务器。Java jdk环境采用jdk-1.8以上版本，Hadoop采用hadoop-2.8.3版本2.节点...
Kafka数据每5分钟同步到Hive
1.概述最近有同学留言咨询Kafka数据落地到Hive的一些问题，今天笔者将为大家来介绍一种除Flink流批 […]...

随机推荐

勾股定理和完全平方公式
１．已知直角三角形的周长是2+，斜边长2，求它的面积。２．已知直角三角形的斜边中线为５，面积为２４，求它的周 […]...
开源服务器设计总计（plain framework2020年总计）
2020年注定会被历史铭记，世界遭受着一场前所未有的灾难，这种灾难到现在还在持续。还记得19年末的时候，那时候 […]...
PHP之ThinkPHP框架（界面）
Thinkphp框架其精髓就在于实现了MVC思想，其中M为模板、V为视图、C为控制器，模板一般是公共使用类，在 […]...
解决Moto XT610 大容量存储不能用的问题
昨天在某宝买的二手XT610到了，280包邮，俩电池，结果卖家没发USB头，而我现有的USB电源都不能用，甚是 […]...
路由器常见配置和解决方案
示列1：分析：由于Windows系统的网关没有配置，如果配置好了再次ping不通的话，可能是由于DNS没有配 […]...
MySQL到ClickHouse实时同步-CloudCanal实战
简述 CloudCanal 近期实现了 MySQL（RDS）到 ClickHouse 实时同步的能力，功能包 […]...
C#-Xamarin的Android项目开发(一)——创建项目
创建项目使用Xamarin开发安卓项目，首先需要安装VS2017以上版本。因为VS2017以上的版本，可以直 […]...
开放api接口签名验证
不要急，源代码分享在最底部，先问大家一个问题，你在写开放的API接口时是如何保证数据的安全性的？先来看看有哪些 […]...

展开目录

目录导航