初识Kafka

huzixia 2019-02-13 原文

本文将从以下五个方面初识Kafka

一. Kafka组件介绍

二. 消费者消费的条件

三. Kafka与ActiveMQ的区别

四. Kafka如何保证数据不丢失

五. Kafka的深入学习

一. Kafka组件介绍

1.producer 生产者会把数据源写入kafka集群中

2.broker kafak服务器, 一个broker就是kafka集群的节点,可以存放数据

3.topic 消息的主题, 是一类消息的集合

4.partition 分区概念一个topic有多个分区,提高并行处理的效率

5.replication 副本一个分区可以设置多个副本,副本保证数据的安全性

6.segment 每一个分区数据都有很多个segment

一个segment都有2个文件: ①.log文件(是topic数据存储的文件) ②.index文件(是.log文件索引文件,快速定位某一分区上次消息消费到哪里了,然后往后继续消费)

7.zookeeper 通过zk保存kafka集群元数据信息, 这些元数据信息包括: kafka集群地址,有哪些topic,以及每一个topic的分区数等信息.

8.consumer 消费者消费者去kafka集群中拉取数据然后进行消费

9.offset 消息的偏移量保存消息消费到哪里了,把消息消费的数据记录.当前这个记录信息叫做offset偏移量

消息偏移量保存有2种方式: ① 由kafka自己去保存 ② 由zookeeper去保存

二. 消费者消费的条件

1. 消费的topic

2. Zookeeper集群

3. 消息offset的偏移量, kafka集群可以自己记录,不用手动处理

三. Kafka与ActiveMQ的区别

四. Kafka如何保证数据不丢失

Kafka从以下三个方面来保证数据的不丢失

1. Producer

① ack机制-同步模式: 每次发送一条数据,每条数据都需要确认,效率比较低,但是数据安全

producer.type=sync （同步模式）
request.required.acks=1

② ack机制-异步模式: 通过buffer来进行控制数据的发送，有两个值来进行控制，时间阈值与消息的数量阈值，如果buffer满了数据还没有发送出去，若设置的是立即清理模式，风险很大，一定要设置为阻塞模式。

2.Broker

一个topic有很多个分区,每一个分区有很多个副本,可以通过副本保证数据的安全性

3.Consumer

针对每一个消费者在消费数据的时候,都会把当前消费的偏移量保存在kafka集群或者zookeeper,当前消费者挂了,再次重启,重启之后可以读取上一次消费的偏移量,然后继续消费

五. 关于Kafka的深入学习

关于Kafka深入学习, 如Kafka领导选举, offset管理, Stream接口, 高性能之道, 监控运维, 性能测试等,

请关注个人微信公众号: 求学之旅, 发送Kafka, 即可收获Kafka大礼包一枚。

本文链接：https://www.cnblogs.com/huzixia/p/10372221.html

初识Kafka的更多相关文章

Flume+Kafka收集Docker容器内分布式日志应用实践

1 背景和问题随着云计算、PaaS平台的普及，虚拟化、容器化等技术的应用，例如Docker等技术，越来越多的 […]...

K8S 搭建 Kafka:2.13-2.6.0 和 Zookeeper:3.6.2 集群

搭建 Kafka:2.13-2.6.0 和 Zookeeper:3.6.2 集群一、服务版本信息： Kafk […]...

Kafka、Logstash、Nginx日志收集入门

Nginx作为网站的第一入口，其日志记录了除用户相关的信息之外，还记录了整个网站系统的性能，对其进行性能排查是 […]...

初始 Kafka Consumer 消费者

温馨提示：整个 Kafka 专栏基于 kafka-2.2.1 版本。 1、KafkaConsumer 概述根 […]...

Kafka consumer的参数

earliest：当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时， […]...

rabbitmq、kafka、activemq、rocketmq之间对比，区别 rabbitmq、kafka、activemq、rocketmq之间对比，区别

支持原创转自 https://www.cnblogs.com/williamjie/p/9481780.h […]...

Hive分区表动态添加字段

场景描述：　　公司埋点项目，数据从接口服务写入kafka集群，再从kafka集群消费写入HDFS文件系统，最 […]...

Kafka

1.　引言　　最近使用Kafka做消息队列时，完成了基本的消息发送与接收，已上线运行。一方面防止出现Bug时 […]...

随机推荐

有关搜索方法的学习过程

最近看到一些有关学习如何更高效得去搜索的视频和文章因此从中得出了一点小小的心得，记录下来，方便以后学习的过程 […]...

查找Linux中8080端口被占用的方法 – java*爱好者

1、首先用netstat -nlp | grep 8080，可以看出哪个pid占用了8080端口。 2、然后p […]...

面试官问我：谈谈对Java GC的了解？回答完让我回家等消息….

JVM的运行数据区首先我简单来画一张 JVM的结构原理图，如下。我们重点关注 JVM在运行时的数据区， […]...

华为云对Kubernetes在Serverless Container产品落地中的实践经验

通过一层封装和引入Federation来获得整体服务的超大规模。华为云容器实例服务，它基于 Kubernet […]...

敏捷开发中如何使用看板方法创造价值

看板方法起源于丰田精益，最核心的理念就是减少浪费。而精益生产分析技能在敏捷中的体现，就是“价值流程图”工具，可 […]...

cacti1.2.7安装教程+Centos7|Cacti1.2.x+Centos7+Spine1.2.7零基础手把手教学

cacti1.2.7安装教程+Centos7|Cacti1.2.x+Centos7+Spine1.2.7零基础 […]...

现代c++模板元编程：遍历tuple

tuple是c++11新增的数据结构，通过tuple我们可以方便地把各种不同类型的数据组合在一起。有了这样的数 […]...

洛谷 P1357 花园

原题链接题解首先考虑$N \leq 10^5$ 很容易想到动态规划我们不难设计状态 $f_{i,j}$表 […]...