Package install Basic Software Dependence, pre-install.sh #!/usr/bin/env bash apt install software-properties-common add-apt-repository ppa:jonathonf/vim apt update apt install vim # git, expect, openssh-server apt install git expect openssh-server # Java8 apt…

2020年10月6日 0条评论 70点热度 阅读全文

RDD,弹性分布式数据集,是一种提供了许多操作的数据集合,具有五大特性: 1.A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的List;将数据加载为RDD时,一般一个hdfs里的block会加载为一个partition。 2.A function for computing each split RDD的每个partition上面都会有function,也就是函数应用,其作用是实现RDD之间partition的转换。 3.A list of de…

2020年10月5日 0条评论 4点热度 阅读全文

spark广播变量 将外部变量发送到executor中使用。 注意事项 1、不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。 2、 广播变量只能在Driver端定义,不能在Executor端定义。 3、 在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。 4、如果executor端用到了Driver的变量,如果不使用广播变量在Executor有多少task就有多少Driver端的变量副本。 5、如果Executor端用到了Driver的变量,如果使用广播变量在每个Execu…

2020年10月5日 0条评论 3点热度 阅读全文

Preface Apache Spark 简化了海量数据的存储(HDFS) 和 计算 (MR--在集群多个节点进行并行计算的框架) 流程, MapReduce 缺点, 如 : 启动任务时的高开销、对中间数据 和 计算结果 写入磁盘的依赖。这使得 Hadoop 不适合 迭代式 或 低延迟 的任务。 机器学习 算法并非为并行架构而设计。 机器学习模型一般具有迭代式的特性, 这与 Spark 的设计目标一致。并行计算框架 很少能 兼顾 速度、扩展性、内存处理、容错性的同时,还提供灵活、表达力丰富的 API。Spark 全…

2020年10月4日 0条评论 80点热度 阅读全文

原文链接:『 读书笔记 』4月读书总结|博文推荐 写在前面 计划是每月读 5-10 本书,书籍类型大概是三个方面的:金融,技术,管理。之所以选择这三个方面,一方面是因为自己对这三个方面都很有兴趣,其次是被 linkedin 创始人 Hoffman 的 ABZ 理论 深度影响。建议大家都看看 abz 理论那篇文章,如果我有空,也会整理一些常用的这类理论模型到博客里的。 月底读书总结的形式都很简单,只是简单的一个列表和简单的书评,对觉得比较好的书会有单独的读书笔记。另外推荐大家用 excel 来做一些简单的工作管理,我…

2020年10月4日 0条评论 108点热度 阅读全文

Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。 分布式计算引擎在调优方面有四个主要关注方向,分别是CPU、内存、网络开销和I/O,其具体调优目标如下: 提高CPU利用率。 避免OOM。 降低网络开销。 减少I/O操作。 第1章 数据倾斜 数据倾斜意味着某一个或某几个Partition中的数据量特别的大,这意味着完成针对这几个Partition的计算需要耗费相…

2020年10月1日 0条评论 72点热度 阅读全文

DHCP和IP地址冲突     由于宿舍增加一些上网的设备,宿舍老是IP地址冲突,各种断线,各种麻烦。原因是DHCP的分配问题。然后由于本人严重的拖延症,路由的设置一直有问题,但一直没去修改路由,趁着今天有时间,修改了路由,然后断线问题不再有,顺便写了一篇说明和复习了一下计算机网络的DHCP协议。  注:如果你也出现类似的问题,而想直接寻找解决的办法,直接跳到第三点看就可以了。 1.什么是DHCP(Dynamic Host Configuration Protocol)   …

2020年9月30日 0条评论 11点热度 阅读全文

介绍 spark是分布式并行数据处理框架 与mapreduce的区别: mapreduce通常将中间结果放在hdfs上,spark是基于内存并行大数据框架,中间结果放在内存,对于迭代数据spark效率更高,mapreduce总是消耗大量时间排序,而有些场景不需要排序,spark可以避免不必要的排序所带来的开销,spark是一张有向无环图,spark支持scala,python,java等 适用范围: spark更适合于迭代云端比较多的ml和dm运算,因为spark里面有rdd的抽象概念,spark比hadoop更通…

2020年9月27日 0条评论 81点热度 阅读全文

10.1 Spark与Hadoop的对比 Spark 相比于 Hadoop MapReduce的优缺点 Spark的计算模式也属于MapReduce,但不限于Map和Reduce操作,提供了多种数据集操作类型,编程模式比Hadoop MapReduce更灵活 Spark 基于DGA(有向无环图)的任务调度执行机制,要优于Hadoop MapReduce 的迭代执行机制 提供了内存计算,可将中间结果放到内存,对于迭代效率更高,而Hadoop MapReduce 计算的中间结果需要缓存到硬盘,IO开销大 10.3 Sp…

2020年9月25日 0条评论 109点热度 阅读全文

Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。 为了方便理解,在Shuffle操作中,我们称负责分发数据的Executor叫做Mapper,而接收数据的Executor叫做Reducer 参考资料: Spark架构-Shuffle(译) Hash Shuffle (spark 1.2以前的默认shuffle) 首先要知道分片,Task个数,Executor个数他们直接有什么关…

2020年9月24日 0条评论 78点热度 阅读全文
1345672000