题图为美国尼米兹核动力航空母舰 介绍 大数据时代,我们常常面对海量数据而头疼。作为学统计出身的人,我们想折腾大数据但又不想学习Hadoop或者Java,我们更倾向于把精力放在建模和算法设计上,SparkR和Docker的完美结合,让R的计算直接从一架战斗机的当兵作战华丽转变为一个航空母舰战斗群!不仅仅简化了分布式计算的操作,还简化了安装部署的环节,我们只几乎不需要做什么改动就可以直接运用R中的data frame进行分布式的计算。 什么是SparkR 参考前文 打造大数据产品:Shiny的Spark之旅,我们可以知…

2020年11月26日 0条评论 241点热度 阅读全文

synchronized作为内置锁,使用简单,不易出错,然鹅确有相当的局限性,例如,无法从等待获取锁的阻塞中中断,无法设置获取锁的超时。所以JUC提供了另一种更灵活的加锁方式,即Lock。 Lock Lock接口定义如下 public interface Lock { void lock(); void lockInterruptibly() throws InterruptedException; boolean tryLock(); boolean tryLock(long timeout, TimeUnit …

2020年11月26日 0条评论 159点热度 阅读全文

Standalone集群模式 实验环境 ·操作机:Windows 7 ·目标机:3个节点,配置如下: 实验工具 ·Web浏览器:常用的有谷歌浏览器,火狐浏览器等 ·Xshell6:是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。 ·Xftp6:是一个功能强大的SFTP、FTP 文件传输软件。 实验内容 Standalone是Spark自带的资源管理器,独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。 本实验…

2020年11月25日 0条评论 154点热度 阅读全文

简介: 大数据时代,以Oracle为代表的数据库中间件已经逐渐无法适应企业数字化转型的需求,Spark将会是比较好的大数据批处理引擎。而随着Kubernetes越来越火,很多数字化企业已经把在线业务搬到了Kubernetes之上,并希望在此之上建设一套统一的、完整的大数据基础架构。那么Spark on Kubernetes面临哪些挑战?又该如何解决? 云原生背景介绍与思考 “数据湖”正在被越来越多人提起,尽管定义并不统一,但企业已纷纷投入实践,无论是在云上自建还是使用云产品。 阿里云大数据团队认为:数据湖是大数据和…

2020年11月20日 0条评论 185点热度 阅读全文

maven <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding> <java.version>1.8</java.version> <scala.binary.version…

2020年11月18日 0条评论 126点热度 阅读全文

spark的工作流程? 回答思路 所有spark程序都离不开程序初始化和执行任务这两部分,所以该问题可以从这两部分开始回答。 一、程序初始化的流程 用户通过sparksubmit提交程序以后,driver程序开始运行(driver程序就是运行起来的提交的程序,可以理解为spark的main程序)。 driver程序运行起来会首先初始化sparkContext。 在SparkContext对象中做的最重要的事情就是构造出一个DAGSchedule和一个TaskScheduler。 上述的TaskScheduler构建…

2020年11月15日 0条评论 146点热度 阅读全文

编程指南:http://spark.apache.org/docs/... ApiDoc: http://spark.apache.org/docs/... 0、例子 http://spark.apache.org/examp... 1、集群模式与如何部署? 集群模式:http://spark.apache.org/docs/... 提交部署应用:http://spark.apache.org/docs/... 1.1、如何监控?http://spark.apache.org/docs/... 2、RDD算子: A…

2020年11月14日 0条评论 83点热度 阅读全文

本人浅析传统IT系统层面的系统监控,不涉及k8s以及Service Mesh,抛砖引玉。 随着系统增多,我们需要一套能够立体化监控系统去监控你的应用及业务,出现问题能够及时告警,或通过大屏、短信和邮件。 我个人认为监控应该从三个方面进行入手,即:Metrics、Logging、Tracing。 Metrics (指标) 通常指标信息担负着数据可视化的物料信息,比如:计量器、直方图、计数器、TPS等等。 Logging(日志)日志信息通常记录了应用程序运行时的详细状态信息。通常会有INFO、WARN、ERROR等级别…

2020年11月10日 0条评论 89点热度 阅读全文

spark中梯度下降的实现在GradientDescent 中的方法runMiniBatchSGD 中 1.第一步是采样并计算梯度 采样用的是RDD.sample 方法 //sample 方法获取一个子集 //根据采样计算梯度 // RDD.aggregate方法介绍 https://www.jianshu.com/p/15739e95a46e //aggregate treeAggregate 区别https://www.cnblogs.com/drawwindows/p/5762392.html val (gr…

2020年11月4日 0条评论 95点热度 阅读全文

活动预告:基于云计算的大数据基础平台架构设计 本群嘉宾 —— 周小四 现任青云QingCloud大数据平台负责人,曾就职于美国FIU在线学习部门、IBM以及高德。在云计算、大数据领域有着丰富的经验。拥有美国FloridaInternationalUniversity(FIU)计算机硕士、MBA学位,上海交通大学模式识别及智能系统硕士学位,以及哈尔滨工程大学学士学位。 本期内容介绍 大数据平台基础建设当前的趋势是云化与开放,这个平台需要可以提供各类大数据相关PaaS服务,也需要使各类服务间可以简单灵活的组合来满足多变…

2020年10月27日 0条评论 77点热度 阅读全文