最近接手维护一个日志系统,它用于对应用服务器上的日志进行收集然后提供实时分析、处理并最后将日志存储到目标存储引擎。针对这三个环节,业界已经有一套组件来应对各自的需求需求,它们是flume+kafka+hdfs/hbase。我们在实时分析、存储这两个环节,选择跟业界的实践相同,但agent是团队自己写的,出于对多种数据源的扩展需求以及原来收集日志的方式存在的一些不足,于是调研了一下flume的agent。结果是flume非常契合我们的实际需求,并且拥有良好的扩展性与稳定性。于是打算采用flume的agent替换我们原…

2015年6月6日 0条评论 0点热度 阅读全文

注:这篇文章的设计存在一些问题,或者说不够优雅。关于原因,请移步本人另一篇文章:《再谈pipeline-filter模式》 pipeline-filter作为一种处理数据的模式(见【POSA】卷4)可以将应用的任务划分为几个自我完备的数据处理步骤,并连接到一个数据管道。本文介绍一种不太常见的pipeline-filter的变体——尾循环的pipeline-filter,当然这也是在特定的需求场景下才会出现的。 首先,我们来看一个常见的pipeline-filter的模式图: 模式的思路比较简单明了,就是对数据的处理…

2014年10月31日 0条评论 0点热度 阅读全文