在eclipse中查看内存溢出的案例: package main; import java.util.ArrayList; import java.util.List; /** * @author 刘卫卫 * 2018年9月12日下午3:22:49 */ public class HeapOOM { public static void main(String[] args) { List<String> list = new ArrayList<>(); while(true) { lis…

2021年5月1日 0条评论 40点热度 阅读全文

限于机器个数限制,本次搭建3个节点的集群,其中包含1个master节点(Hdfs namenode and yarn resourceManger)和三个(包括Master)slave节点(hdfs datanode 和Yarn nodeManger) 本次搭建,启动了keberos安全验证 版本 sottware version jdk jdk11 hadoop hadoop-3.2.2.tar.gz spark spark-3.1.1-bin-hadoop3.2.tgz ubuntu Ubuntu18.04 准…

2021年4月22日 0条评论 41点热度 阅读全文

简介Spark 1.Spark概述 1.1什么是Spark? 2.Spark的模块 3.Spark的特点 2.Spark运行模式 2.1 单机模式 2.2 集群模式 3.入门案例 3.1 Word Count 3.2 集群角色 3.2.1 Master和Worker 3.2.2 Driver和Worker 1.Spark概述 1.1什么是Spark? 进入官网,看简介:http://spark.apache.org/ Apache Spark™ is a unified analytics engine for =…

2021年3月26日 0条评论 31点热度 阅读全文

The Apache Hadoop project devolops open-source software for reliable, scalale, distributed computing. 可靠、大规模、分布式计算和开源! 要想学习Spark必定是绕不过Hadoop的,MapReduce和HDFS构成Hadoop的主要内容,MapReduce用来处理(processing),HDFS用来存储(storage)。 Hadoop要求数据应均匀分布在各个机器上,快速写入磁盘(步步为营)——而这就导致了Had…

2021年3月25日 0条评论 40点热度 阅读全文

一、概念 什么是Spark? Spark是一个快速、通用、可扩展的大数据分析引擎。 ( 详见官网:http://spark.apache.org/) 简介 1)于2009年诞生于加州大学,采用Scala语言编写。 2) 2010年开源。 3) 2013年6月成为Apache孵化项目。 4) 2014年2月成为Apache顶级项目。 特点 : 四个特性是什么? 高效性:基于内存的运算,相当于Hadoop的mapreduce的100倍,计算中的结果存在内存中,Spark实现了高效的DAG执行引擎。 易用性:Spark支…

2021年3月24日 0条评论 32点热度 阅读全文

文章目录 概述 五大属性 WordCount中RDD的五大属性 概述 RDD(A Resilient Distributed Dataset):弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作。 诞生背景 没有RDD/Dataset之前做 Wordcount(大数据计算)可以使用: 原生集合:Java/Scala中的List但是只支持单机版!不支持分布式,如果要做分布式的计算需要做很多额外工作,例如线程/进程通信,容错,自动均衡等,麻烦,所有就诞生了解决这些问题的框架。 MapR…

2021年3月20日 0条评论 30点热度 阅读全文

Spark Streaming的编程抽象是离散化流,也就是DStream。它是一个 RDD 序列,每个RDD代表数据流中一个时间片内的数据。 Spark Streaming为每个输入源启动对应的接收器。接收器运行在Executor中,从输入源收集数据并保存为 RDD 默认情况下接收到的数据后会复制到另一个Executor中,进行容错; Driver 中的 StreamingContext 会周期性地运行 Spark 作业来处理这些数据。 SparkStreaming 执行流程 client 提交SparkStrea…

2021年3月20日 0条评论 31点热度 阅读全文

前言 由于Spark框架大多都搭建在Hadoop系统之上,要明白Spark核心运行原理还是得对Hadoop体系有个熟悉的认知。从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解这篇博客大家可以先去温习一下Hadoop整个体系,然后再来了解Spark框架会更有效率。 本来想直接写一篇缘由优缺点以及生态圈和运行架构与原理的,发现篇幅实在是太长了,索性分两篇: 上篇:Spark框架深度理解一:开发缘由及优缺点 中篇:Spark框架深度理解二:生态圈 一、Spark集群架构 Spark的架构图: Applic…

2021年3月19日 0条评论 34点热度 阅读全文

sparkYarn集群提交流程分析(四) 书接上文,上次进行到了在不同的节点开启了一个CoarseGrainedExecutorBackend进程,这次就从这个进程的启动开始说起(也就是main方法的执行) org.apache.spark.executor.CoarseGrainedExecutorBackend main() def main(args: Array[String]) { var driverUrl: String = null var executorId: String = null var…

2021年3月18日 0条评论 34点热度 阅读全文

1.定义: ​ RDD为弹性分布式数据集,Spark中最基本的数据抽象。表现在代码中为一个抽象类,它代表一个弹性的,不可变,可分区,里面的元素可并行计算的集合 2.基本原理之YarnCluster模式 ​ 当执行Spark-submit脚本时,首先Client客户端会调用内部main方法开始执行任务,将封装好的指令发送给ResourceManager,ResourceManager收到指令后会选择一台NodeManager来启动AppMaster,并且启动Driver程序(Client模式Driver程序会运行在客…

2021年3月12日 0条评论 39点热度 阅读全文