RDD,弹性分布式数据集,是spark的底层数据结构。RDD是一个容错的,可以被并行操作的数据集合。RDD的特点之一是分布式存储,它的好处就是数据存储在不同的节点上,当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候,既可以存储在内存中,也可以存储在磁盘上,也可以两者结合使用。RDD还有个特点就是延迟计算,当是transformation算子的时候,并不执行操作,直到遇到action算子的时候才开始执行计算。   根据RDD源码里面的注释,我们来了解一下RDD的五大特性 * …

2021年1月24日 0条评论 9点热度 阅读全文

内容简介 作为计算框架,Spark 速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。 本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合 Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用 Apache Spark 进行大数据分析和处理的实战宝典。 第2版根据新版 Spark 杰出实践,对样例代码和所用资料做…

2021年1月18日 0条评论 6点热度 阅读全文

1.A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。 2.A function for computing each split RDD的每个partition上面都会有function,也就是函数应用,其作用是实现RDD之间partition的转换。 3.A list of dependencies on other RDDs…

2021年1月16日 0条评论 8点热度 阅读全文

  (2)pyspark建立RDD以及读取文件成dataframe 目录 别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark Top~~ 1、启动spark (1)SparkSession 是 Spark SQL 的入口。 (2)通过 SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。 Buil…

2021年1月5日 0条评论 14点热度 阅读全文

广播变量,很简单 其实就是SparkContext的broadcast()方法,传入你要广播的变量,即可 final Broadcast<Map<String, Map<String, IntList>>> broadcast = sc.broadcast(fastutilDateHourExtractMap); 使用广播变量的时候, 直接调用广播变量(Broadcast类型)的value() / getValue() , 可以获取到之前封装的广播变量 Map<String…

2021年1月3日 0条评论 1点热度 阅读全文

Tuple 元组 关系表中的一行称为一个元组。元组可表示一个实体或实体之间的联系。       数据库里面的一些专业词汇  英中对照     · 数据仓库(Data Warehouse)一个数据仓库就是一个自带数据库的商业应用系统。利用现有的数据资源,把数据转换为信息,从中挖掘出知识,提炼成智慧,创造出效益。 · 数据发掘(Data Mining)数据发掘可帮助商业用户处理大量存在的数据,以期发现一些"意外的关系",以便增加市场份额和利润。· 信息发掘(I…

2020年12月15日 0条评论 5点热度 阅读全文

在pyspark中调用scala代码 情境说明 问题 我们这边是要使用Spark去并行一个自然语言处理的算法,其中使用到了LDA主题模型。由于使用的是天河二号,Spark版本是1.5.1,pyspark同样,所以获取主题时还不能使用describeTopics(在spark1.6中才开放对python的接口),只能使用topicsMatrix的方法。 本来凑合用topicsMatrix也行,但我们发现,这一个用来获取主题模型的函数,居然比Lda的训练还要慢!无论在我们自己的集群还是在天河二号的分区上,都是这一个情况…

2020年12月1日 0条评论 242点热度 阅读全文

Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要结合实际业务情况,在使用Spark作为底层引擎时,通过一些常见的配置参数对报错任务进行调整优化。 下面从两个方面对复杂任务的优化: Spark资源参数优化主要针对Spark运行过程中各个使用资源的地方,通过调节资…

2020年12月1日 0条评论 188点热度 阅读全文

原创文章,转载请务必将下面这段话置于文章开头处。 本文转发自 技术世界, 原文链接  http://www.jasongj.com/spark/committer/ 本文所述内容均基于 2018年9月17日 Spark 最新 Release 2.3.1 版本,以及 hadoop-2.6.0-cdh-5.4.4 概述 Spark 输出数据到 HDFS 时,需要解决如下问题: 由于多个 Task 同时写数据到 HDFS,如何保证要么所有 Task 写的所有文件要么同时对外可见,要么同时对外不可见,即保证数据一致性 同一…

2020年11月28日 0条评论 139点热度 阅读全文

背景 随着互联网架构的流行,越来越多的系统开始走向分布式化、微服务化。如何快速发现和定位分布式系统下的各类性能瓶颈成为了摆在开发者面前的难题。借助分布式追踪系统的调用链路还原能力,开发者可以完整地了解一次请求的执行过程和详细信息。但要真正分析出系统的性能瓶颈往往还需要链路拓扑、应用依赖分析等工具的支持。这些工具使用起来虽然简单,但其背后的原理是什么?本文将带您一起探索。 Jaeger 作为从 CNCF 毕业的第七个项目,已经成为了云原生架构下分布式追踪系统的第一选择。本文将以 Jaeger 为例,介绍基于 Trac…

2020年11月27日 0条评论 164点热度 阅读全文