Apache Kafka教程 之 Apache Kafka -工作流程

Apache Kafka - 工作流程

kafka只是一个分为一个或多个分区的主题集合。kafka分区是线性有序的消息序列,其中每个消息由其索引(称为偏移量)标识。Kafka群集中的所有数据都是分区的不连贯的并集。传入的消息被写在分区的末尾,消息被消费者依次读取。通过将消息复制到不同的经纪人来提供耐久性。

Kafka以快速,可靠,持久,容错和零停机的方式提供基于pub-sub和队列的消息传递系统。在这两种情况下,生产者只需将消息发送到主题,消费者可以根据需要选择任何一种消息系统。让我们按照下一节中的步骤来了解消费者如何选择他们选择的消息系统。

Pub-Sub消息传递工作流程

以下是Pub-Sub Messaging的逐步工作流程 -

  • 生产者定期向主题发送消息。
  • Kafka代理将所有邮件存储在为该特定主题配置的分区中。它确保消息在分区之间平等共享。如果生产者发送两个消息,并且有两个分区,则Kafka将在第一个分区中存储一个消息,在第二个分区中存储第二个消息。
  • 消费者订阅一个特定的主题。
  • 一旦消费者订阅了一个话题,Kafka将向消费者提供该主题的当前偏移量,并将偏移量保存在Zookeeper系列中。
  • 消费者将定期请求Kafka(如100 Ms)新消息。
  • 一旦Kafka收到来自生产者的消息,它会将这些消息转发给消费者。
  • 消费者将收到消息并处理它。
  • 一旦消息被处理,消费者将向Kafka经纪人发送确认。
  • 一旦Kafka收到确认,它会将偏移量更改为新值,并在Zookeeper中进行更新。由于Zookeeper中保留了偏移量,因此即使在服务器出现故障时,消费者也可以正确读取下一条消息。
  • 上述流程将重复,直到消费者停止请求。
  • 消费者可以随时快退/跳到主题的偏移量,并阅读所有后续消息。

队列消息/消费群组工作流程

在队列消息传递系统中,而不是单个消费者,具有相同组ID的消费者组将订阅主题。简单来说,订阅具有相同组ID的主题的消费者被认为是单个组,并且消息在它们之间共享。我们来看一下这个系统的实际工作流程。

  • 生产者定期向主题发送消息。
  • Kafka将所有邮件存储在为该特定主题配置的分区中,与之前的方案类似。
  • 单个消费者订阅一个特定的主题,假设Topic-01与Group ID为Group-1。
  • kafka用相同的方式,发布-订阅消息的消费者互动,直到新的消费订阅同一主题,主题-01与同组ID为第1组。
  • 一旦新消费者到达,kafka将其业务转为共享模式,并在两个消费者之间共享数据。这种共享将继续进行,直到协调者的数量达到为该特定主题配置的分区数。
  • 一旦消费者数量超过了分区数量,新的消费者将不会再收到任何消息,直到任何一个现有的消费者取消订阅。出现这种情况是因为kafka的每个消费者将被分配至少一个分区,一旦所有分区分配给现有的消费者,新消费者将不得不等待。
  • 此功能也称为消费者组。以同样的方式,kafka将以非常简单和有效的方式提供两种系统中最好的。

ZooKeeper的作用

Apache Kafka的关键依赖是Apache Zookeeper,它是一种分布式配置和同步服务。Zookeeper作为kafka经纪人和消费者之间的协调接口。Kafka服务器通过Zookeeper群集共享信息。kafka在Zookeeper中存储基本元数据,例如有关主题,经纪人,消费者偏移量(队列读者)等的信息。

由于所有关键信息都存储在Zookeeper中,并且通常会在其整体中复制此数据,所以Kafka代理/ Zookeeper的故障不会影响Kafka群集的状态。一旦Zookeeper重启,Kafka将恢复状态。这给kafka零停机。kafka经纪人之间的领导选举也是在领导失败的情况下使用Zookeeper完成的。