我们在《360度测试:KAFKA会丢数据么?其高可用是否满足需求?》这篇文章中,详细说明了KAFKA是否适合用在业务系统中。但有些朋友,还不知道KAFKA为何物,以及它为何存在。这在工作和面试中是比较吃亏的,因为不知道什么时候起,KAFKA似乎成了一种工程师的必备技能。 一些观念的修正 从 0.9 版本开始,Kafka 的标语已经从“一个高吞吐量,分布式的消息系统”改为"一个分布式流平台"。 Kafka不仅仅是一个队列,而且是一个存储,有超强的堆积能力。 Kafka不仅用在吞吐量高的大数据场景,也可以用在有事务要求…

2020年10月16日 0条评论 27点热度 阅读全文

背景 在我们的系统架构中,Nginx作为所有HTTP请求的入口,是非常重要的一层。每天产生大量的Nginx Access Log,闲置在硬盘上实在是太浪费资源了。所以,能不能把Nginx日志利用起来,实时监控每个业务的访问趋势、用户行为、请求质量和后端异常呢,这就是本文要探讨的主题。 目的 错误码告警(499、500、502和504); upstream_response_time超时告警; request_time超时告警; 数据分析; 关于错误和超时监控有一点要考虑的是收到告警时,要能够快速知道是哪个后端服务节…

2020年10月15日 0条评论 31点热度 阅读全文

项目见: kafka cluster example 这个实例做了些什么? 搭建了拥有 3 节点 kafka、 3 节点 zookeeper 的 docker 集群服务; 分别创建了 1 个消息发布者和 2 个相同消费组的消息订阅者的 docker 应用; 使用 ab 进行并发测试,验证该实例消息的订阅 / 发布功能; 通过这个实例,能够了解些什么? 使用 Docker Compose 构建 Kafka 集群 使用 Golang 创建 Kafka Pub/Sub 实例 使用 ApacheBench 进行并发测试 使…

2020年10月14日 0条评论 39点热度 阅读全文

欢迎关注公众号:n平方 如有问题或建议,请后台留言,我会尽力解决你的问题。 本文主要介绍【KafkaStreams】 简介 Kafka Streams编写关键任务实时应用程序和微服务的最简单方法,是一个用于构建应用程序和微服务的客户端库,其中输入和输出数据存储在Kafka集群中。它结合了在客户端编写和部署标准Java和Scala应用程序的简单性和Kafka服务器端集群技术的优点。 Kafka Streams是一个用于构建关键任务实时应用程序和微服务的客户端库,其中输入和/或输出数据存储在Kafka集群中。Kafka…

2020年10月13日 0条评论 30点热度 阅读全文

Kafka消息序列化 阅读文章,希望能解决以下问题: 序列化主要解决的问题 不同的序列化对消息大小的影响 可以用序列化来解决消息太大的问题吗 概括 序列化主要是用来解决数据在网络中传输的问题. 在网络中传输的数据必须全是字节,也称为字节流. 而文本数据到字节数据的这一步就是序列化(将非字节数据 -> 字节数组). Kafka中序列化 Kafka中的序列化主要是将发送的消息序列化成字节数组. 在Java中,有八大基本数据类型和引用类型. Kafka预先内置了一些相应的序列化和反序列化 Java类型 序列化 反序…

2020年10月11日 0条评论 58点热度 阅读全文

1. 大数据领域数据类型 1.1 有界数据 ​ 一般批处理(一个文件 或者一批文件),不管文件多大,都是可以度量 ​ mapreduce hive sparkcore sparksql 1.2 无界数据 ​ 源源不断的流水一样 (流数据) ​ Storm SparkStreaming 2. 消息队列(Message Queue) 消息 Message 网络中的两台计算机或者两个通讯设备之间传递的数据,例如说:文本、音乐、视频等内容 队列 Queue 一种特殊的线性表(数据元素首尾相接),特殊之处在于只允许在首部移除…

2020年10月9日 0条评论 31点热度 阅读全文

核心知识预热 TIPS 1.资料来源 说明书以及 内部构造 2.学习技术就是不断解惑的过程,就kafka stream自问:是个什么技术,能干什么,怎么使用.. Kafka Streams是一个数据输入和数据输出都保存在kafka集群的程序和微服务构建的客户端类库,那么就不需要专门去搭建计算集群,方便快捷; Kafka Streams提供两种方法来定义流处理拓扑。Kafka Streams DSL提供了最通用的可直接使用的数据转换操作(比如map);低阶的处理器API则允许开发者定义和连接到自定义的处理器或者和st…

2020年10月5日 0条评论 37点热度 阅读全文

本文由云+社区发表 一、困难点 建立topic的时候,可以通过指定参数 --replication-factor 设置备份数量。但是,一旦完成建立topic,则无法通过kafka-topic.sh 或者 命令修改replica数量。 二、解决办法 ​ 实际上,我们可以考虑一种 “另类” 的办法:可以利用 kafka-reassign-partitions.sh 命令对所有分区进行重新分布,在做分区重新分布的时候,通过增加每个分区的replica备份数量来达到目的。 ​ 本文将介绍如何利用 kafka-reassig…

2020年10月3日 0条评论 29点热度 阅读全文

今天来聊下大数据场景下比较流行的消息队列组件kafka。本篇文章将主要从理论角度来介绍。 kafka是一款开源、追求高吞吐、实时性,可持久化的流式消息队列,可同时处理在线(消息)与离线应用(业务数据和日志)。在如今火热的大数据时代,得到了广泛的应用。 整体架构 kafka的消息以Topic进行归类,支持分布式distribution、可分区partition和可复制replicated的特性。下面为本人梳理的一张Kafka系统架构图。 Kafka的架构相较于其他消息系统而言,比较简单。其整体流程简述如下 Produ…

2020年10月1日 0条评论 27点热度 阅读全文

一、kafka1、下载 官网地址:http://kafka.apache.org/downloads 下载:wget http://mirrors.hust.edu.cn/apache/kafka/0.11.0.2/kafka_2.11-0.11.0.2.tgz 2、解压: tar -zxvf kafka_2.11-0.11.0.2.tgz 3、修改配置文件 在config目录下,可以看到很多的配置文件,修改server.properties broker.id=0 #每个kafka节点的唯一标识 listener…

2020年9月30日 0条评论 46点热度 阅读全文