在eclipse中查看内存溢出的案例: package main; import java.util.ArrayList; import java.util.List; /** * @author 刘卫卫 * 2018年9月12日下午3:22:49 */ public class HeapOOM { public static void main(String[] args) { List<String> list = new ArrayList<>(); while(true) { lis…

2021年5月1日 0条评论 40点热度 阅读全文

限于机器个数限制,本次搭建3个节点的集群,其中包含1个master节点(Hdfs namenode and yarn resourceManger)和三个(包括Master)slave节点(hdfs datanode 和Yarn nodeManger) 本次搭建,启动了keberos安全验证 版本 sottware version jdk jdk11 hadoop hadoop-3.2.2.tar.gz spark spark-3.1.1-bin-hadoop3.2.tgz ubuntu Ubuntu18.04 准…

2021年4月22日 0条评论 41点热度 阅读全文

在pyspark中调用scala代码 情境说明 问题 我们这边是要使用Spark去并行一个自然语言处理的算法,其中使用到了LDA主题模型。由于使用的是天河二号,Spark版本是1.5.1,pyspark同样,所以获取主题时还不能使用describeTopics(在spark1.6中才开放对python的接口),只能使用topicsMatrix的方法。 本来凑合用topicsMatrix也行,但我们发现,这一个用来获取主题模型的函数,居然比Lda的训练还要慢!无论在我们自己的集群还是在天河二号的分区上,都是这一个情况…

2020年12月1日 0条评论 225点热度 阅读全文

Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要结合实际业务情况,在使用Spark作为底层引擎时,通过一些常见的配置参数对报错任务进行调整优化。 下面从两个方面对复杂任务的优化: Spark资源参数优化主要针对Spark运行过程中各个使用资源的地方,通过调节资…

2020年12月1日 0条评论 167点热度 阅读全文

原创文章,转载请务必将下面这段话置于文章开头处。 本文转发自 技术世界, 原文链接  http://www.jasongj.com/spark/committer/ 本文所述内容均基于 2018年9月17日 Spark 最新 Release 2.3.1 版本,以及 hadoop-2.6.0-cdh-5.4.4 概述 Spark 输出数据到 HDFS 时,需要解决如下问题: 由于多个 Task 同时写数据到 HDFS,如何保证要么所有 Task 写的所有文件要么同时对外可见,要么同时对外不可见,即保证数据一致性 同一…

2020年11月28日 0条评论 121点热度 阅读全文

背景 随着互联网架构的流行,越来越多的系统开始走向分布式化、微服务化。如何快速发现和定位分布式系统下的各类性能瓶颈成为了摆在开发者面前的难题。借助分布式追踪系统的调用链路还原能力,开发者可以完整地了解一次请求的执行过程和详细信息。但要真正分析出系统的性能瓶颈往往还需要链路拓扑、应用依赖分析等工具的支持。这些工具使用起来虽然简单,但其背后的原理是什么?本文将带您一起探索。 Jaeger 作为从 CNCF 毕业的第七个项目,已经成为了云原生架构下分布式追踪系统的第一选择。本文将以 Jaeger 为例,介绍基于 Trac…

2020年11月27日 0条评论 140点热度 阅读全文

题图为美国尼米兹核动力航空母舰 介绍 大数据时代,我们常常面对海量数据而头疼。作为学统计出身的人,我们想折腾大数据但又不想学习Hadoop或者Java,我们更倾向于把精力放在建模和算法设计上,SparkR和Docker的完美结合,让R的计算直接从一架战斗机的当兵作战华丽转变为一个航空母舰战斗群!不仅仅简化了分布式计算的操作,还简化了安装部署的环节,我们只几乎不需要做什么改动就可以直接运用R中的data frame进行分布式的计算。 什么是SparkR 参考前文 打造大数据产品:Shiny的Spark之旅,我们可以知…

2020年11月26日 0条评论 225点热度 阅读全文

synchronized作为内置锁,使用简单,不易出错,然鹅确有相当的局限性,例如,无法从等待获取锁的阻塞中中断,无法设置获取锁的超时。所以JUC提供了另一种更灵活的加锁方式,即Lock。 Lock Lock接口定义如下 public interface Lock { void lock(); void lockInterruptibly() throws InterruptedException; boolean tryLock(); boolean tryLock(long timeout, TimeUnit …

2020年11月26日 0条评论 138点热度 阅读全文

Standalone集群模式 实验环境 ·操作机:Windows 7 ·目标机:3个节点,配置如下: 实验工具 ·Web浏览器:常用的有谷歌浏览器,火狐浏览器等 ·Xshell6:是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。 ·Xftp6:是一个功能强大的SFTP、FTP 文件传输软件。 实验内容 Standalone是Spark自带的资源管理器,独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。 本实验…

2020年11月25日 0条评论 133点热度 阅读全文

简介: 大数据时代,以Oracle为代表的数据库中间件已经逐渐无法适应企业数字化转型的需求,Spark将会是比较好的大数据批处理引擎。而随着Kubernetes越来越火,很多数字化企业已经把在线业务搬到了Kubernetes之上,并希望在此之上建设一套统一的、完整的大数据基础架构。那么Spark on Kubernetes面临哪些挑战?又该如何解决? 云原生背景介绍与思考 “数据湖”正在被越来越多人提起,尽管定义并不统一,但企业已纷纷投入实践,无论是在云上自建还是使用云产品。 阿里云大数据团队认为:数据湖是大数据和…

2020年11月20日 0条评论 165点热度 阅读全文