自己手写了一个监测kafka lag值的shell脚本。之前是用python写的,感觉比较麻烦,这里写了一个shell版的,大家可以直接拿来使用。 cd /usr/share/kafka/kafka_2.11-2.4.1/ || exit 1 lag=$(./bin/kafka-consumer-groups.sh --bootstrap-server localhost:9092 --describe --group my_group 2>/dev/null|grep -v GROUP|awk 'NR>…

2020年11月11日 0条评论 74点热度 阅读全文

前言 从字面意思理解就是数据不需要来回的拷贝,大大提升了系统的性能;这个词我们也经常在javanio,netty,kafka,RocketMQ等框架中听到,经常作为其提升性能的一大亮点;下面从I/O的几个概念开始,进而在分析零拷贝。 I/O概念 1.缓冲区 缓冲区是所有I/O的基础,I/O讲的无非就是把数据移进或移出缓冲区;进程执行I/O操作,就是向操作系统发出请求,让它要么把缓冲区的数据排干(写),要么填充缓冲区(读);下面看一个java进程发起read请求加载数据大致的流程图: 进程发起read请求之后,内核接…

2020年11月10日 0条评论 43点热度 阅读全文

1.kafka配置文件 解压kafka的安装包后,在conf目录下server.properties #broker 的全局唯一编号,在kafka集群中不能重复,为整型数字 broker.id=0 #开启删除topic功能 delete.topic.enable=true #处理网络请求的线程数量 num.network.threads=3 #用来处理磁盘 IO 的现成数量 num.io.threads=8 #发送套接字的缓冲区大小 socket.send.buffer.bytes=102400 #接收套接字的缓冲…

2020年11月6日 0条评论 118点热度 阅读全文

文 | 吕鹏 DataPipeline架构师 进入大数据时代,实时作业有着越来越重要的地位。本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践。 一、企业级数据面临的主要问题和挑战 1.数据量不断攀升 随着互联网+的蓬勃发展和用户规模的急剧扩张,企业数据量也在飞速增长,数据的量以GB为单位,逐渐的开始以TB/GB/PB/EB,甚至ZB/YB等。同时大数据也在不断深入到金融、零售、制造等行业,发挥着越来越大的作用。 2. 数据质量的要求不断地提升 当前比较流行的AI、数据建模,对数据质量…

2020年11月5日 0条评论 29点热度 阅读全文

1. 安装 下载地址:apache-flume-1.6.0 下载完成后,在/opt/ebohailife/目录下上传、解压 [ebohailife@e-bohailife-dat002 ~]$ tar -zxvf apache-flume-1.7.0-bin.tar.gz 检测安装是否成功:/opt/ebohailife/flume/apache-flume-1.6.0-bin/bin/flume-ng version 打印以下信息,则表示安装成功了 [ebohailife@e-bohailife-dat002 c…

2020年11月1日 0条评论 44点热度 阅读全文

作者 | 元毅 阿里云智能事业群高级开发工程师 导读:当前在 Knative 中已经提供了对 Kafka 事件源的支持,那么如何基于 Kafka 实现消息推送呢?本文作者将以阿里云 Kafka 产品为例,给大家解锁这一新的姿势。 背景 消息队列 for Apache Kafka 是阿里云提供的分布式、高吞吐、可扩展的消息队列服务。消息队列 for Apache Kafka 广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域,已成为大数据生态中不可或缺的部分。 结合 Knat…

2020年10月27日 0条评论 21点热度 阅读全文

序 本文主要研究一下kafka的consumer.timeout.ms属性。 consumer的属性值 kafka_2.10-0.8.2.2-sources.jar!/kafka/consumer/ConsumerConfig.scala /** a string that uniquely identifies a set of consumers within the same consumer group */ val groupId = props.getString("group.id") /** con…

2020年10月26日 0条评论 25点热度 阅读全文

为什么是kafka? 在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题: 我们想分析下用户行为(pageviews),以便我们设计出更好的广告位 我想对用户的搜索关键词进行统计,分析出当前的流行趋势 有些数据,存储数据库浪费,直接存储硬盘效率又低 这些场景都有一个共同点:数据是由上游模块产生,上游模块,使用上游模块的数据计算、统计、分析,这个时候就可以使用消息系统,尤其是分布式消息系统! 知道了我们有必要在数据处理系统中使用一个消息系统,但是我们为什么一定要选kafka呢?现在的消息系统可…

2020年10月26日 0条评论 27点热度 阅读全文

本文使用的Kafka版本0.11 先思考些问题: 我想分析一下用户行为(pageviews),以便我能设计出更好的广告位 我想对用户的搜索关键词进行统计,分析出当前的流行趋势。这个很有意思,在经济学上有个长裙理论,就是说,如果长裙的销量高了,说明经济不景气了,因为姑娘们没钱买各种丝袜了。 有些数据,我觉得存数据库浪费,直接存硬盘又怕到时候操作效率低。 这个时候,我们就可以用到分布式消息系统了。虽然上面的描述更偏向于一个日志系统,但确实kafka在实际应用中被大量的用于日志系统。 这些场景都有一个共同点:数据是由上游…

2020年10月17日 0条评论 27点热度 阅读全文

KafkaAppender log4j-core-2.7-sources.jar!/org/apache/logging/log4j/core/appender/mom/kafka/KafkaAppender.java public void append(final LogEvent event) { if (event.getLoggerName().startsWith("org.apache.kafka")) { LOGGER.warn("Recursive logging from [{}] for ap…

2020年10月16日 0条评论 24点热度 阅读全文