一、概念 什么是Spark? Spark是一个快速、通用、可扩展的大数据分析引擎。 ( 详见官网:http://spark.apache.org/) 简介 1)于2009年诞生于加州大学,采用Scala语言编写。 2) 2010年开源。 3) 2013年6月成为Apache孵化项目。 4) 2014年2月成为Apache顶级项目。 特点 : 四个特性是什么? 高效性:基于内存的运算,相当于Hadoop的mapreduce的100倍,计算中的结果存在内存中,Spark实现了高效的DAG执行引擎。 易用性:Spark支…

2021年3月24日 0条评论 71点热度 阅读全文

文章目录 概述 五大属性 WordCount中RDD的五大属性 概述 RDD(A Resilient Distributed Dataset):弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作。 诞生背景 没有RDD/Dataset之前做 Wordcount(大数据计算)可以使用: 原生集合:Java/Scala中的List但是只支持单机版!不支持分布式,如果要做分布式的计算需要做很多额外工作,例如线程/进程通信,容错,自动均衡等,麻烦,所有就诞生了解决这些问题的框架。 MapR…

2021年3月20日 0条评论 72点热度 阅读全文

Spark Streaming的编程抽象是离散化流,也就是DStream。它是一个 RDD 序列,每个RDD代表数据流中一个时间片内的数据。 Spark Streaming为每个输入源启动对应的接收器。接收器运行在Executor中,从输入源收集数据并保存为 RDD 默认情况下接收到的数据后会复制到另一个Executor中,进行容错; Driver 中的 StreamingContext 会周期性地运行 Spark 作业来处理这些数据。 SparkStreaming 执行流程 client 提交SparkStrea…

2021年3月20日 0条评论 70点热度 阅读全文

前言 由于Spark框架大多都搭建在Hadoop系统之上,要明白Spark核心运行原理还是得对Hadoop体系有个熟悉的认知。从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解这篇博客大家可以先去温习一下Hadoop整个体系,然后再来了解Spark框架会更有效率。 本来想直接写一篇缘由优缺点以及生态圈和运行架构与原理的,发现篇幅实在是太长了,索性分两篇: 上篇:Spark框架深度理解一:开发缘由及优缺点 中篇:Spark框架深度理解二:生态圈 一、Spark集群架构 Spark的架构图: Applic…

2021年3月19日 0条评论 73点热度 阅读全文

sparkYarn集群提交流程分析(四) 书接上文,上次进行到了在不同的节点开启了一个CoarseGrainedExecutorBackend进程,这次就从这个进程的启动开始说起(也就是main方法的执行) org.apache.spark.executor.CoarseGrainedExecutorBackend main() def main(args: Array[String]) { var driverUrl: String = null var executorId: String = null var…

2021年3月18日 0条评论 70点热度 阅读全文

1.定义: ​ RDD为弹性分布式数据集,Spark中最基本的数据抽象。表现在代码中为一个抽象类,它代表一个弹性的,不可变,可分区,里面的元素可并行计算的集合 2.基本原理之YarnCluster模式 ​ 当执行Spark-submit脚本时,首先Client客户端会调用内部main方法开始执行任务,将封装好的指令发送给ResourceManager,ResourceManager收到指令后会选择一台NodeManager来启动AppMaster,并且启动Driver程序(Client模式Driver程序会运行在客…

2021年3月12日 0条评论 81点热度 阅读全文

学习目标 1.了解Spark的特点 2.掌握Spark集群的搭建和配置及架构 3.理解Spark作业提交的工作原理 4.掌握Spark HA集群的搭建和配置 Spark于2009年诞生于美国加州大学伯克利分校的AMP实验室,它是一个可应用于大规模数据处理的统一分析引擎。Spark不仅计算速度快,而且内置了丰富的API,使得我们能够更加容易编写程序。 Spark的概述 Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发…

2021年3月11日 0条评论 71点热度 阅读全文

【前言:Spark目前提供了两种有限定类型的共享变量:广播变量和累加器,今天主要介绍一下基于Spark2.4版本的广播变量。先前的版本比如Spark2.1之前的广播变量有两种实现:HttpBroadcast和TorrentBroadcast,但是鉴于HttpBroadcast有各种弊端,目前已经舍弃这种实现,本篇文章也主要阐述TorrentBroadcast】 广播变量概述 广播变量是一个只读变量,通过它我们可以将一些共享数据集或者大变量缓存在Spark集群中的各个机器上而不用每个task都需要copy一个副本,后…

2021年3月11日 0条评论 62点热度 阅读全文

1. 精确一次消费 1.2 定义 精确一次消费(Exactly-once) 是指消息一定会被处理且只会被处理一次。不多不少就一次处理。 如果达不到精确一次消费,可能会达到另外两种情况: 至少一次消费(at least once),主要是保证数据不会丢失,但有可能存在数据重复问题。 最多一次消费 (at most once),主要是保证数据不会重复,但有可能存在数据丢失问题。 如果同时解决了数据丢失和数据重复的问题,那么就实现了精确一次消费的语义了。 1.2 问题如何产生 数据何时会丢失: 比如实时计算任务进行计算,…

2021年3月10日 0条评论 58点热度 阅读全文

spark sql  单条查询 select * from aa where `逾期总金额` is not null or `累计逾期次数` is not null or `卡系统放款日期` is not null or `机构名` is not null or `账户状态` is not null or `透支息` is not null or `R系统流水号` is not null or `分期余额` is not null or `R系统产品码` is not null or `所属地区…

2021年3月9日 0条评论 47点热度 阅读全文