本教程基于Hadoop HA集群搭建。 版本介绍 software version OS CentOS-7-x86_64-DVD-1810.iso Hadoop hadoop-2.8.4 Zookeeper zookeeper-3.4.10 Spark spark-2.4.3 集群角色分配 node actor master1 NameNode、DFSZKFailoverController(zkfc)、ResourceManager、Master master2 NameNode、DFSZKFailoverCon…

2020年9月1日 0条评论 39点热度 阅读全文

SparkContext SparkContext 是Spark 应用的主入口,通过它可以连接Spark 集群,并在集群中创建RDD,累加器,广播变量等;==每一个启动 JVM 上只能有一个SparkContext,在启动一个新的SparkContext之前,必须停掉处于活动状态的SparkContext==。 /** * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark * c…

2020年8月31日 0条评论 30点热度 阅读全文

学习背景:学习 Spark 的过程中,必要的一定是读官方文档。这里对http://spark.apache.org/examp... 中的例子做些理解性质的总结。 Spark API Examples包含以下内容: RDD API:完成数据转换、操作两部分 DataFrame API:RDD转换成DataFrame、读数据库表转换成DataFrame,然后进行关系操作 机器学习 API:用 Logistic 做训练和预测 RDD处理:统计按空格分隔的词的个数,并保存成文件: JavaRDD<String>…

2020年8月31日 0条评论 20点热度 阅读全文

在《第二篇|Spark Core编程指南》一文中,对Spark的核心模块进行了讲解。本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上构建的,于2014年5月发布。从名称上可以看出,该模块是Spark提供的关系型操作API,实现了SQL-on-Spark的功能。对于一些熟悉SQL的用户,可以直接使用SQL在Spark上进行复杂的数据处理。通过本文,你可以了解到: Spark SQL简介 DataFrame API&DataSet API Catalyst…

2020年8月31日 0条评论 35点热度 阅读全文

databricks 最近发布了 GraphFrames,这是一个用 DataFrames 封装图处理过程的Spark插件。 我评估了网络分析并且利用丰富的NBA.com的数据对金州勇士的传球网络进行可视化。 金州勇士的传球网络 传接球 联盟 MVP Stephen Curry 接到了大多数的传球,而团队中的 MVP Draymond Green则发动了最多的传球。 我们已经看到大多数的进攻是由 Curry 和 Green 的相互传球开始的。 图片来自 GIPHY 入度 inDegree id inDegree C…

2020年8月28日 0条评论 28点热度 阅读全文

特点: Spark Streaming能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。 Spark Streaming支持从多种数据源提取数据,如:Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字,并且可以提供一些高级API来表达复杂的处理算法,如:map、reduce、join和window等。 Spark Streaming支持将处理完的数据推送到文件系统、数据库或者实时仪表盘中展示。 可以将Spark的机器学习(machine learning) 和…

2020年8月25日 0条评论 20点热度 阅读全文

前言 本文对 spark 2.1.x 适用 executor 内存模型 堆内内存与堆外内存 堆内内存 堆外内存 动态资源分配 基本参数设置 # 配置 external shuffle service 服务(一定要配置启用) spark.shuffle.service.enabled = true spark.shuffle.service.por = 7337 # 启用动态资源调度 spark.dynamicAllocation.enabled = true # 每个应用中最少 executor 的个数 spark…

2020年8月24日 0条评论 43点热度 阅读全文

一、搬砖 vs. 分布式计算 一个人搬砖很累,几个人一起搬就会轻松很多,也会快很多: 分布并行计算和几个人一起搬砖的意思是一致的,一个资源密集型的任务(搬砖或计算),需要 一组资源(小伙伴或计算节点),并行地完成: 计算任务 => 搬砖 计算节点 => 小伙伴 当计算任务过重时,我们就把计算任务拆分,然后放到多个计算节点上同时执行,这就是分布并行计算。 二、求文件中包含"包租婆"的行数 从一个总计100行的文件中找出所有包含“包租婆”的行数,我们不用太动脑筋就有一个算法: 读一行,判断这一行有“包租婆”…

2020年8月15日 0条评论 40点热度 阅读全文

Spark系列文章(一):Spark初识 作者:studytime 原文: https://www.studytime.xin/ 什么是Spark 官网地址:http://spark.apache.org/ spark 是高性能 DAG 计算引擎,一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP 实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的 MapReduce 计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark 的一个主要特点是能够在…

2020年8月12日 0条评论 19点热度 阅读全文

本文主要讲述如何使用数据导入工具 Nebula Graph Exchange 将数据从 Neo4j 导入到 Nebula Graph Database。在讲述如何实操数据导入之前,我们先来了解下 Nebula Graph 内部是如何实现这个导入功能的。 Nebula Graph Exchange 的数据处理原理 我们这个导入工具名字是 Nebula Graph Exchange,采用 Spark 作为导入平台,来支持海量数据的导入和保障性能。Spark 本身提供了不错的抽象——DataFrame,使得可以轻松支持多…

2020年8月12日 0条评论 58点热度 阅读全文
1345672000