kafka 允许通过配置 partition.assignment.strategy 来改变消费组的分区策略。kafka 提供了以下几个分区策略 RangeAssignor RoundRobinAssignor StickyAssignor 默认使用的是 RangeAssignor 同时,kafka 也允许我们自定义分区策略,只需要继承 AbstractPartitionAssignor 抽象类即可。 1、RangeAssignor 现假设有消费组 c1, c2,均订阅 t0, t1, 每个 topic 下均有 2…

2020年9月27日 0条评论 57点热度 阅读全文

maven <dependencyManagement> <dependencies> <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-dependencies</artifactId> <version>Camden.SR6</version> <type>pom</typ…

2020年9月23日 0条评论 44点热度 阅读全文

本篇文章内容来自2016年TOP100summit Microsoft资深产品经理邢国冬的案例分享。编辑:Cynthia 邢国冬(Tony Xing):Microsoft资深产品经理、负责微软应用与服务集团的大数据平台构建,数据产品与服务. 导读:微软的ASG (应用与服务集团)包含Bing,、Office,、Skype。每天产生多达5 PB以上数据,如何构建一个高扩展性的data audit服务来保证这样量级的数据完整性和实时性非常具有挑战性。本文将介绍微软ASG大数据团队如何利用Kafka、Spark以及Ela…

2020年9月16日 0条评论 36点热度 阅读全文

在进行详解之前,我想先声明一下,本次我们进行讲解说明的是 Kafka 消息存储的信息文件内容,不是所谓的 Kafka 服务器运行产生的日志文件,这一点希望大家清楚。 Kafka 消息是以主题为单位进行归类,各个主题之间是彼此独立的,互不影响。每个主题又可以分为一个或多个分区。每个分区各自存在一个记录消息数据的日志文件。也就是该文要着重关注的内容。我们根据如下的图进行进一步说明: 图中,创建了一个 demo-topic 主题,其存在 7 个 Parition,对应的每个 Parition 下存在一个 [Topic-P…

2020年9月11日 0条评论 26点热度 阅读全文

本系列每篇文章都比较短小,不定期更新,从一些实际的 case 出发抛砖引玉,提高小伙伴的姿势水平。本文介绍 Flink sink schema 字段设计小技巧,阅读时长大概 2 分钟,话不多说,直接进入正文! ## sink schema 中添加 version 版本字段 如 title,直接上实践案例和使用方式。 实践案例及使用方式 非故障场景下产出的每条记录的 version 字段值为 1 故障场景下,可以在同一 sink 中产出 version > 1(非 1)的数据,代表故障修复数据提供给下游消费 可…

2020年9月11日 0条评论 112点热度 阅读全文

Kafka是为大数据而生的消息中间件,以其百万级TPS的吞吐量名声大噪,迅速成为大数据领域的宠儿,在数据采集、传输、存储的过程中发挥着举足轻重的作用,而Storm,Spark,Flink等大数据流处理或批处理平台都有Kafka的相关插件支持。本着为开源做贡献的原则,在学习Kafka的同时也参与了Kafka官方文档的翻译,Kafka的官网文档写的比较详细,学习Kafka只看官方文档就可以了。 Kafka中文文档 这里还有一个技术分享的PPT。 原文链接:http://blog.geekidentity.com/...

2020年9月9日 0条评论 37点热度 阅读全文

大家好,我是后来,我会分享我在学习和工作中遇到的点滴,希望有机会我的某篇文章能够对你有所帮助,所有的文章都会在公众号首发,欢迎大家关注我的公众号" 后来X大数据 ",感谢你的支持与认可。 又是一周没更文了,上周末回运城看牙去了,一直都在路上,太累了。说回正题,关于flink的入门在上一篇已经讲过了。 今天主要说一下关于流处理的API,这一篇所有的代码都是scala。 那么我们还得回到上次的WordCount代码,Flink程序看起来像转换数据集合的常规程序。每个程序都包含相同的基本部分: 获得execution e…

2020年9月4日 0条评论 83点热度 阅读全文

kafka 0.9 之前的版本偏移量信息是通过 zookeeper 管理的;为了避免对 zookeeper 的过度依赖,每次从 kafka 上读取 topic 偏移量信息,连接消耗还是比较大的,从 kafka 0.9 开始,kafka 已接管了偏移量信息管理功能,并将各消费组的偏移量写入了 __consumer_offsets 主题(默认50个分区);api 方式获取某消费组的消费偏移量信息: 通过 ConsumerGroupCommand 作为入口,然后调用 ConsumerGroupService接口,该接口有…

2020年9月2日 0条评论 29点热度 阅读全文

序 本文主要展示一下如何使用reactor-kafka maven <dependency> <groupId>io.projectreactor.kafka</groupId> <artifactId>reactor-kafka</artifactId> <version>1.0.1.RELEASE</version> </dependency> 准备 启动zookeeper cd zookeeper-3.4.13 s…

2020年8月28日 0条评论 46点热度 阅读全文

简介 本文主要讲在springboot2中,如何通过自定义的配置来集成,并可以比较好的扩展性,同时集成多个kafka集群 引入依赖 引入kafka的依赖 <!-- kafka --> <dependency> <groupId>org.springframework.kafka</groupId> <artifactId>spring-kafka</artifactId> </dependency> 配置文件 添加配置文件,默认添加…

2020年8月28日 0条评论 19点热度 阅读全文