一、引言 Codis是一个分布式 Redis 解决方案,可以管理数量巨大的Redis节点。个推作为专业的第三方推送服务商,多年来专注于为开发者提供高效稳定的消息推送服务。每天通过个推平台下发的消息数量可达百亿级别。基于个推推送业务对数据量、并发量以及速度的要求非常高,实践发现,单个Redis节点性能容易出现瓶颈,综合考虑各方面因素后,我们选择了Codis来更好地管理和使用Redis。   二、选择Codis的原因 随着公司业务规模的快速增长,我们对数据量的存储需求也越来越大,实践表明,在单个…

2021年4月7日 0条评论 2点热度 阅读全文

Hive详解 一、Hive简介 二、Hive总体架构 hive架构图如下: Hive基本组成 三、Hive特点 优点 缺点 四、Hive基本语法 1、Hive DDL语法 2、Hive DML语法 五、总结 一、Hive简介 hive是什么? “懒人改变世界”,这是我一直坚信的理念。并不是提倡大家偷懒,而是要有懒人的思想,要想尽一切办法来减少自己的工作量,减少重复劳动力,提高生产效率。没有hive之前,作为程序猿需要对hadoop有详细的了解,要写复杂的MapReduce开发难度相当大,以及掌握MapReduce运…

2021年3月30日 0条评论 12点热度 阅读全文

Hbase介绍 1 Hbase是什么 2 Hbase特点 2.1 优点 2.2 缺点 3 Hbase架构 3.1 架构图 3.2 基础组件说明 3.2.1 Client 3.2.2 Zookeeper 3.2.3 Master:(是所有 Region Server 的管理者) 3.2.4 RegionServer:(为 Region 的管理者) 3.2.5 Region 3.2.6 Store 3.2.7 MemStore 3.2.8 StoreFile 3.2.9 HFile 3.2.10 HLog 4 Data…

2021年3月30日 0条评论 10点热度 阅读全文

架构图 一台目标机器3个g数据量,集群每天处理n*3 G的数据量,支持上百台目标机器数据收集,处理的数据大部分为时序数据,kafka集群用单分区保证有序性,若增加分区,可进一步提升数据的吞吐量。 架构组件解析 生产者端:目标机器为真实业务数据,采集端采集业务数据日志、服务器网络、io、cpu、内存、硬盘等信息,通过filebeat生产者运输至kafka,并自动生成单分区topic(kafka配置,保证日志的时序性,否则日志容易产生错乱)。 消费者端:logstash多实例组成一个统一消费者组(logstash配置)…

2021年3月30日 0条评论 8点热度 阅读全文

MapReduce详解 Hadoop MapReduce 也采用了 Master/Slave(M/S)架构,具体如图所示。它主要由以下几个组件组成:Client、JobTracker、TaskTracker 和 Task。 下面分别对这几个组件进行介绍 25.1.3.1. Client 用户编写的 MapReduce 程序通过 Client 提交到 JobTracker 端; 同时, 用户可通过 Client 提供的一些接口查看作业运行状态。 在 Hadoop 内部用“作业”(Job) 表示 MapReduce 程…

2021年3月26日 0条评论 5点热度 阅读全文

了解一个行业的发展前景,主要会从以下几个角度出发进行探讨: 1、行业人才缺口 判断一个行业是否好就业,首先会考虑找工作的难易度,如果市场需求量大,但是该行业人才又较为稀少,那么这个行业的就业率就会很高。大数据恰恰属于这一类行业。 近年来,信息化当道、国家大力发展数据产业,使得越来越多的企业开始重视数据带来的收益,数据再也不是一串串冷冰冰的数字,而是变成了企业高管手中的香饽饽,这就必然会加大了市场对数据行业专业人才的需求;但国内真正开设了系统性的数据方面教导的学院却是寥寥无几,这样的供需不平衡就会导致数据行业产生一个…

2021年3月25日 0条评论 8点热度 阅读全文

Yarn概述 1. 概念 YARN 是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。 其中,ResourceManager 负责所有资源的监控、分配和管理; ApplicationMaster 负责每一个具体应用程序的调度和协调; NodeManager 负责每一个节点的维护。 对于所有的 applications,RM 拥有绝对的控制权和对资源的分配权。而每个 AM 则会和 RM 协商资源,同时和…

2021年3月25日 0条评论 5点热度 阅读全文

在前一篇文章中,我们简略宏观的介绍了Hadoop的整体技术架构,并介绍了Hadoop的三个主要组件:负责存储的hdfs、负责计算的mapreduce、负责调度的yarn。另外,从存储的角度划分,Hadoop物理集群又分为两种:存储数据的datanode和维护元数据的namenode,当然还有secondarynamenode协助namenode一起维护元数据信息。本篇文章,我们将详细介绍Hadoop的核心存储组件——Hdfs。因为前一篇文章我们已经从宏观角度和话题引入的方式介绍了Hadoop的整体架构,因此,本篇文…

2021年3月25日 0条评论 9点热度 阅读全文

Apache Hudi 简介 特性 架构 Timeline 文件和索引 表类型 查询类型 查询引擎 简介 Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。 特性 基于Spark来对HDFS上的数据进行插入、更新、删除、查询操作 在HDFS上的流原语: 插入更新:使用细粒度的文件/记录级别索引来支持Update/Delete记录,同时还提供写操作的事务保证。查询会处理最后一个提交的快照,并基于此输出结果。 增量拉取:可以从给定的时…

2021年3月25日 0条评论 7点热度 阅读全文

背景 从 2010 年 Netflix 上线 Chaos Mokey 的第一个版本到现在,虽然混沌工程发展已历时十年,但其实只在少数大厂里面有较成熟的落地,对绝大部分研发同学来说,混沌工程还是一个比较陌生的领域。 分布式和微服务化已经成为主流的系统架构设计方案,大规模分布式系统的可用性保障能力越来越成为关注的重点。混沌工程也开始如雨后春笋般在各大企业内部萌芽生长,但大部分还处于初期的探索阶段,在实践过程中也遇到了这样或那样的问题,有技术上也有认知层面上的,这些问题难免会对混沌工程的快速落地产生阻力。 下面介绍一下字…

2021年3月25日 0条评论 8点热度 阅读全文