`kafka`标签下的文章

大数据

kafka使用场景

Kafka被当作传统消息中间件的替代品。消息中间件的使用原因有多种(从数据生产者解耦处理,缓存未处理的消息等)。与大多数消息系统相比,Kafka具有更好的吞吐量,内置的分区,多副本和容错功能,这使其成为大规模消息处理应用程序的良好解决方案。

阅读剩下更多

kafka使用场景
大数据

Apache Kafka - 与Spark集成

Spark Streaming API支持实时数据流的可扩展,高吞吐量,容错流处理。数据可以从诸如Kafka,Flume,Twitter等许多来源中获取,并且可以使用诸如地图,缩小,连接和窗口之类的高级功能的复杂算法进行处理。最后,处理后的数据可以推送到文件系统,数据库和现场仪表盘上。弹性分布式数据集(RDD)是Spark的基础数据结构。它是一个不可变的分布式对象集合。RDD中的每个数据集分为逻辑分区,可以在集群的不同节点上进行计算。

阅读剩下更多

Apache Kafka - 与Spark集成
大数据

Apache Kafka - 与Storm集成

Storm最初是由Nathan Marz和BackType创建的。在短时间内,Apache Storm成为分布式实时处理系统的标准,可让您处理大量数据。Storm非常快,每个节点每秒处理超过一百万个元组的基准测试。Apache Storm持续运行,从配置的源(Spouts)中消耗数据,并将数据传递到处理管道(Bolts)。组合,spout和Bolts 做拓扑。

阅读剩下更多

Apache Kafka - 与Storm集成
大数据

Apache Kafka - 消费者示例

Apache Kafka - 消费者(Consumer Group)是从kafka Topic的多线程或多机器消费,添加更多进程/线程将导致kafka重新平衡。如果任何消费者或broker无法向`ZooKeeper`发送心跳信息,则可以通过Kafka群集重新配置。在此重新平衡过程中,Kafka会将可用的分区分配给可用的线程,可能将分区移动到另一个进程。

阅读剩下更多

Apache Kafka - 消费者示例
大数据

Apache Kafka - 生产者示例

让我们创建一个使用Java客户端发布和使用消息的应用程序。Kafka生产者客户端由以下API组成。让我们了解本节中最重要的一套Kafka生产者API。KafkaProducer API的核心部分是KafkaProducer类。KafkaProducer类提供了一个选项,可以使用以下方法在其构造函数中连接Kafka代理。

阅读剩下更多

Apache Kafka - 生产者示例
大数据

Apache Kafka - 基本操作

首先让我们开始实现单节点单个代理配置,然后我们将我们的设置迁移到单节点多代理配置。希望你现在可以在你的机器上安装Java,ZooKeeper和Kafka。在移动到Kafka群集设置之前,首先需要启动ZooKeeper,因为Kafka Cluster使用ZooKeeper。

阅读剩下更多

Apache Kafka - 基本操作
大数据

Apache Kafka -工作流程

kafka只是一个分为一个或多个分区的主题集合。kafka分区是线性有序的消息序列,其中每个消息由其索引<称为偏移量>标识。Kafka群集中的所有数据都是分区的不连贯的并集。传入的消息被写在分区的末尾,消息被消费者依次读取。通过将消息复制到不同的经>纪人来提供耐久性。

阅读剩下更多

Apache Kafka -工作流程
大数据

Apache Kafka - 介绍

Apache Kafka起源于LinkedIn,后来成为2011年的开源Apache项目,然后在2012年成为Apache的一流项目。Kafka以Scala和Java编写>。Apache Kafka是基于发布订阅的容错消息系统。它是快速,可扩展和分布的设计。

阅读剩下更多

Apache Kafka - 介绍
返回顶部