文 | 吕鹏 DataPipeline架构师 进入大数据时代,实时作业有着越来越重要的地位。本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践。 一、企业级数据面临的主要问题和挑战 1.数据量不断攀升 随着互联网+的蓬勃发展和用户规模的急剧扩张,企业数据量也在飞速增长,数据的量以GB为单位,逐渐的开始以TB/GB/PB/EB,甚至ZB/YB等。同时大数据也在不断深入到金融、零售、制造等行业,发挥着越来越大的作用。 2. 数据质量的要求不断地提升 当前比较流行的AI、数据建模,对数据质量…

2020年11月5日 0条评论 97点热度 阅读全文

1. 安装 下载地址:apache-flume-1.6.0 下载完成后,在/opt/ebohailife/目录下上传、解压 [ebohailife@e-bohailife-dat002 ~]$ tar -zxvf apache-flume-1.7.0-bin.tar.gz 检测安装是否成功:/opt/ebohailife/flume/apache-flume-1.6.0-bin/bin/flume-ng version 打印以下信息,则表示安装成功了 [ebohailife@e-bohailife-dat002 c…

2020年11月1日 0条评论 126点热度 阅读全文

作者 | 元毅 阿里云智能事业群高级开发工程师 导读:当前在 Knative 中已经提供了对 Kafka 事件源的支持,那么如何基于 Kafka 实现消息推送呢?本文作者将以阿里云 Kafka 产品为例,给大家解锁这一新的姿势。 背景 消息队列 for Apache Kafka 是阿里云提供的分布式、高吞吐、可扩展的消息队列服务。消息队列 for Apache Kafka 广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域,已成为大数据生态中不可或缺的部分。 结合 Knat…

2020年10月27日 0条评论 81点热度 阅读全文

在kafka中,broker希望收到的消息的key和value都是字节数组,所以在创建生产者对象的时候必须指定序列化器。将消息进行序列化才可以进行网络传输,在kafka中默认提供了ByteArraySerializer(字节数组序列化器)、StringSerializer(字符串序列化器)、IntegerSerializer(整形序列化器)。如果发送到Kafka的消息不是提供的这几种类型,那么可以使用序列化框架来创建消息记录,如Avro、Thrift、Protobuf,或者使用自定义序列化器。但是如果使用自定义序列…

2020年10月26日 0条评论 14点热度 阅读全文

序 本文主要研究一下kafka的consumer.timeout.ms属性。 consumer的属性值 kafka_2.10-0.8.2.2-sources.jar!/kafka/consumer/ConsumerConfig.scala /** a string that uniquely identifies a set of consumers within the same consumer group */ val groupId = props.getString("group.id") /** con…

2020年10月26日 0条评论 96点热度 阅读全文

为什么是kafka? 在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题: 我们想分析下用户行为(pageviews),以便我们设计出更好的广告位 我想对用户的搜索关键词进行统计,分析出当前的流行趋势 有些数据,存储数据库浪费,直接存储硬盘效率又低 这些场景都有一个共同点:数据是由上游模块产生,上游模块,使用上游模块的数据计算、统计、分析,这个时候就可以使用消息系统,尤其是分布式消息系统! 知道了我们有必要在数据处理系统中使用一个消息系统,但是我们为什么一定要选kafka呢?现在的消息系统可…

2020年10月26日 0条评论 87点热度 阅读全文

本文使用的Kafka版本0.11 先思考些问题: 我想分析一下用户行为(pageviews),以便我能设计出更好的广告位 我想对用户的搜索关键词进行统计,分析出当前的流行趋势。这个很有意思,在经济学上有个长裙理论,就是说,如果长裙的销量高了,说明经济不景气了,因为姑娘们没钱买各种丝袜了。 有些数据,我觉得存数据库浪费,直接存硬盘又怕到时候操作效率低。 这个时候,我们就可以用到分布式消息系统了。虽然上面的描述更偏向于一个日志系统,但确实kafka在实际应用中被大量的用于日志系统。 这些场景都有一个共同点:数据是由上游…

2020年10月17日 0条评论 91点热度 阅读全文

KafkaAppender log4j-core-2.7-sources.jar!/org/apache/logging/log4j/core/appender/mom/kafka/KafkaAppender.java public void append(final LogEvent event) { if (event.getLoggerName().startsWith("org.apache.kafka")) { LOGGER.warn("Recursive logging from [{}] for ap…

2020年10月16日 0条评论 86点热度 阅读全文

我们在《360度测试:KAFKA会丢数据么?其高可用是否满足需求?》这篇文章中,详细说明了KAFKA是否适合用在业务系统中。但有些朋友,还不知道KAFKA为何物,以及它为何存在。这在工作和面试中是比较吃亏的,因为不知道什么时候起,KAFKA似乎成了一种工程师的必备技能。 一些观念的修正 从 0.9 版本开始,Kafka 的标语已经从“一个高吞吐量,分布式的消息系统”改为"一个分布式流平台"。 Kafka不仅仅是一个队列,而且是一个存储,有超强的堆积能力。 Kafka不仅用在吞吐量高的大数据场景,也可以用在有事务要求…

2020年10月16日 0条评论 80点热度 阅读全文

背景 在我们的系统架构中,Nginx作为所有HTTP请求的入口,是非常重要的一层。每天产生大量的Nginx Access Log,闲置在硬盘上实在是太浪费资源了。所以,能不能把Nginx日志利用起来,实时监控每个业务的访问趋势、用户行为、请求质量和后端异常呢,这就是本文要探讨的主题。 目的 错误码告警(499、500、502和504); upstream_response_time超时告警; request_time超时告警; 数据分析; 关于错误和超时监控有一点要考虑的是收到告警时,要能够快速知道是哪个后端服务节…

2020年10月15日 0条评论 103点热度 阅读全文