因为Segmentfault的文章发布审核对格式要求太严格了,我去简书了地址在这里https://www.jianshu.com/p/f50...

2020年10月10日 0条评论 52点热度 阅读全文

一、什么是内存溢出? 内存溢出(OOM:out of memory)通俗理解就是内存不够,通常在运行大型软件或游戏时,软件或游戏所需要的内存远远超出了你主机内安装的内存所承受大小,就叫内存溢出。 在Java中,将会产生java.lang.OutOfMemoryError。看下关于的官方说明: Thrown when the Java Virtual Machine cannot allocate an object because it is out of memory, and no more memory co…

2020年10月9日 0条评论 55点热度 阅读全文

对很多技术团队来说,在搭建智能数据架构的过程中,或多或少会遇到一些疑惑和挑战,经过多次实践后,有些团队已经破除疑惑,成功探索出一条搭建智能数据架构之路,那么他们是如何实现这一技术的呢?在近日的个推技术沙龙成都站,几位架构大师在现场开启了数据技术的“脑暴时间”。 诺基亚网络成都研发中心研发经理 刘朋 《数据增长时代的研发管理》 企业在应对数据增长带来的巨大挑战时,需在研发和管理方面做好充足准备。 研发方面,提升数据存储的扩展性;管理方面,除了增加对人和设备的管理外,要努力打造一支具有数据驱动型领导力的团队,让团队中的…

2020年10月7日 0条评论 49点热度 阅读全文

Package install Basic Software Dependence, pre-install.sh #!/usr/bin/env bash apt install software-properties-common add-apt-repository ppa:jonathonf/vim apt update apt install vim # git, expect, openssh-server apt install git expect openssh-server # Java8 apt…

2020年10月6日 0条评论 47点热度 阅读全文

Preface Apache Spark 简化了海量数据的存储(HDFS) 和 计算 (MR--在集群多个节点进行并行计算的框架) 流程, MapReduce 缺点, 如 : 启动任务时的高开销、对中间数据 和 计算结果 写入磁盘的依赖。这使得 Hadoop 不适合 迭代式 或 低延迟 的任务。 机器学习 算法并非为并行架构而设计。 机器学习模型一般具有迭代式的特性, 这与 Spark 的设计目标一致。并行计算框架 很少能 兼顾 速度、扩展性、内存处理、容错性的同时,还提供灵活、表达力丰富的 API。Spark 全…

2020年10月4日 0条评论 53点热度 阅读全文

原文链接:『 读书笔记 』4月读书总结|博文推荐 写在前面 计划是每月读 5-10 本书,书籍类型大概是三个方面的:金融,技术,管理。之所以选择这三个方面,一方面是因为自己对这三个方面都很有兴趣,其次是被 linkedin 创始人 Hoffman 的 ABZ 理论 深度影响。建议大家都看看 abz 理论那篇文章,如果我有空,也会整理一些常用的这类理论模型到博客里的。 月底读书总结的形式都很简单,只是简单的一个列表和简单的书评,对觉得比较好的书会有单独的读书笔记。另外推荐大家用 excel 来做一些简单的工作管理,我…

2020年10月4日 0条评论 84点热度 阅读全文

Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。 分布式计算引擎在调优方面有四个主要关注方向,分别是CPU、内存、网络开销和I/O,其具体调优目标如下: 提高CPU利用率。 避免OOM。 降低网络开销。 减少I/O操作。 第1章 数据倾斜 数据倾斜意味着某一个或某几个Partition中的数据量特别的大,这意味着完成针对这几个Partition的计算需要耗费相…

2020年10月1日 0条评论 47点热度 阅读全文

介绍 spark是分布式并行数据处理框架 与mapreduce的区别: mapreduce通常将中间结果放在hdfs上,spark是基于内存并行大数据框架,中间结果放在内存,对于迭代数据spark效率更高,mapreduce总是消耗大量时间排序,而有些场景不需要排序,spark可以避免不必要的排序所带来的开销,spark是一张有向无环图,spark支持scala,python,java等 适用范围: spark更适合于迭代云端比较多的ml和dm运算,因为spark里面有rdd的抽象概念,spark比hadoop更通…

2020年9月27日 0条评论 50点热度 阅读全文

10.1 Spark与Hadoop的对比 Spark 相比于 Hadoop MapReduce的优缺点 Spark的计算模式也属于MapReduce,但不限于Map和Reduce操作,提供了多种数据集操作类型,编程模式比Hadoop MapReduce更灵活 Spark 基于DGA(有向无环图)的任务调度执行机制,要优于Hadoop MapReduce 的迭代执行机制 提供了内存计算,可将中间结果放到内存,对于迭代效率更高,而Hadoop MapReduce 计算的中间结果需要缓存到硬盘,IO开销大 10.3 Sp…

2020年9月25日 0条评论 80点热度 阅读全文

Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。 为了方便理解,在Shuffle操作中,我们称负责分发数据的Executor叫做Mapper,而接收数据的Executor叫做Reducer 参考资料: Spark架构-Shuffle(译) Hash Shuffle (spark 1.2以前的默认shuffle) 首先要知道分片,Task个数,Executor个数他们直接有什么关…

2020年9月24日 0条评论 54点热度 阅读全文