当Executor端使用到Driver端的变量时,该变量就会产生副本随着task放到Executor中,一个task对应着一个变量副本,如果使用这个变量的task有1000个,则就会产生1000个副本。 广播变量:将Executor端使用到的Driver端的变量生成一个副本,放到Executor端的BlockManager。有几个Executor使用到对用的变量,就有几个副本 无论该Executor中有多少个使用该变量的task,只需要有一个变量副本集合。 因为是多个task共享,因此广播出来的变量副本不能被修改 …

2021年11月12日 0条评论 15点热度 阅读全文

一.计算器 1.官网 2.解释 计数器只支持加,计算器字task里面 3.测试 4.结果截图WEBUI 4.应用场景 数据很多有的数据挂了,做数据质量监控用 二.广播变量 1.官网 2.join代码 def commonJoin(sc:SparkContext): Unit = { val peopleInfo = sc.parallelize(Array(("G301","糊涂虫"),("G302","森老"),("G303","Gordon"))).map(x=>(x._1, x)) val people…

2021年10月26日 0条评论 17点热度 阅读全文

消费者与分区 消费者组 我们知道 kafka 支持两种消息模型 队列模型和发布订阅模型(publish-subscribe) 队列的处理方式是一组消费者从服务器读取消息,一条消息只由其中的一个消费者来处理 发布-订阅模型中,消息被广播给所有的消费者,接收到消息的消费者都可以处理此消息。 消费者组 Kafka为这两种模型提供了单一的消费者抽象模型: 消费者组 (consumer group)。 消费者用一个消费者组名标记自己。 一个发布在Topic上消息被分发给此消费者组中的一个消费者。 假如所有的消费者都在一个组中…

2021年10月20日 0条评论 27点热度 阅读全文

大数据具有四个特性:   (1)数据量特别庞大;   (2)数据种类特别多;   (3)速度很快,像流水一样在运动,如业务交易、微博、短信、微信等每时每刻都在产生数据;   (4)价值密度低,即单个数据的价值低。所以,大数据是指海量的、多种类的、需要大规模的处理才能够凝聚足够价值的、处理和检索响应速度快的数据。 大数据是一个数据集合,包括三类数据:   (1)结构化数据,如企业用的人事系统、财务系统、ERP系统,这些系统中的数据都是结构化的;   (2)半结构化数据,如电子邮件、用windows处理的文字、在网上看…

2021年10月16日 0条评论 21点热度 阅读全文

Serializers 前言 自定义序列化器 使用Apache Avro进行序列化 将Avro记录与Kafka一起使用 参考资料 前言 如前面的示例所示,生产者配置包括强制序列化器。 我们已经了解了如何使用默认的String序列化程序。 Kafka还包括integers和ByteArrays的序列化程序,但这并不包括大多数用例。 最终,你将希望能够序列化更多通用格式的记录。 我们将首先展示如何编写自己的序列化程序,然后介绍Avro序列化程序作为推荐的替代方案。 自定义序列化器 当你需要发送给Kafka的对象不是简单…

2021年10月11日 0条评论 25点热度 阅读全文

数据采集与预处理 (1)大数据的来源 信息来源 1.信息管理系统 信息管理系统主要通过用户输入和系统二次加工的方式产生数据,其产生的数据大多数为结构化数据,通常存储在数据库中。 2.网络信息系统 在本质上,网络信息系统是信息管理系统的延伸,是专属于某个领域的应用,具备某个特定的目的。 3.物联网系统 物联网是新一代信息技术,其核心和基础仍然是互联网,是在互联网基础上延伸和扩展的网络, 4.科学试验系统 数据类型来源 1.传统商业数据 来自企业ERP系统、各种POS终端及网上支付系统等业务系统的数据 传统商业是主要的…

2021年10月10日 0条评论 18点热度 阅读全文

元胞数组的定义可以用两种方法来实现,一种是用赋值语句直接定义,另一种是由cell函数预分配存储空间,而后对元胞元素逐个赋值。 例: 第一种: >> a=[1,3,5;2,4,6];>> b=[1,3;5,7;9,11];>> x={a,b,[1,2,3,4;5,6,7,8];'love',1:3,a*b} x =      [2x3 double]    [3x2 double]    [2x4 double]…

2021年10月6日 0条评论 21点热度 阅读全文

今天易天光通信(ETU-LINK)跟大家谈谈数据中心100G光模块主流标准,传统数据中心主要基于10G网络架构,为了适应AI、深度学习、大数据计算等业务的规模部署,下一代数据中心架构正在向25G/100G网络架构演进,在国内已经看到BAT等互联网巨头都实现了规模部署。 因为建设25G/100G数据中心需要大量100G光模块,而在网络建设成本中占比较高,接下来请看100G光模块主流标准都有哪些? 100G光模块标准组织 在开始分享光模块标准之前,先了解下光模块的标准化组织。对于光模块的定义主要是两个关键组织,即IEE…

2021年10月6日 0条评论 18点热度 阅读全文

目录 1.首先利用python中的datetime模块获取到我们想要的日期 2.接着将获取到的日期加载到hdfs中 1)建立存放日期的预处理表 2)将数据导入预处理表中 3.通过sql处理获得我们想要的维表 1)新建时间维表 2)sql处理并写入时间维表 3)检验数据结果 1.首先利用python中的datetime模块获取到我们想要的日期 import datetime # 现在的时间 now=datetime.datetime.strptime('2019-01-01','%Y-%m-%d') # 递增的时间 …

2021年9月30日 0条评论 45点热度 阅读全文

根据boss想法整理一般通用的数据仓库模型构建思路,这里参考了公众号内文章,觉得写得很好,既有理论指导又有实践案例,能够详细地说明; 目录 什么是数据模型? 为什么需要数据模型? 如何建设数据模型? 数据仓库数据模型架构 数据仓库建模阶段划分 数据仓库建模方法 数据仓库建模样例 业务建模阶段 领域概念建模阶段 逻辑建模阶段 物理建模阶段   什么是数据模型? 数据模型是抽象描述现实世界的工具和方法,通过抽象的实体及实体之间联系的形式,表示现实世界中事务的相互关系的一种映射。数据模型表现的抽象的是实体和实体…

2021年9月30日 0条评论 26点热度 阅读全文