maven <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding> <java.version>1.8</java.version> <scala.binary.version…

2020年11月18日 0条评论 189点热度 阅读全文

spark的工作流程? 回答思路 所有spark程序都离不开程序初始化和执行任务这两部分,所以该问题可以从这两部分开始回答。 一、程序初始化的流程 用户通过sparksubmit提交程序以后,driver程序开始运行(driver程序就是运行起来的提交的程序,可以理解为spark的main程序)。 driver程序运行起来会首先初始化sparkContext。 在SparkContext对象中做的最重要的事情就是构造出一个DAGSchedule和一个TaskScheduler。 上述的TaskScheduler构建…

2020年11月15日 0条评论 212点热度 阅读全文

编程指南:http://spark.apache.org/docs/... ApiDoc: http://spark.apache.org/docs/... 0、例子 http://spark.apache.org/examp... 1、集群模式与如何部署? 集群模式:http://spark.apache.org/docs/... 提交部署应用:http://spark.apache.org/docs/... 1.1、如何监控?http://spark.apache.org/docs/... 2、RDD算子: A…

2020年11月14日 0条评论 145点热度 阅读全文

本人浅析传统IT系统层面的系统监控,不涉及k8s以及Service Mesh,抛砖引玉。 随着系统增多,我们需要一套能够立体化监控系统去监控你的应用及业务,出现问题能够及时告警,或通过大屏、短信和邮件。 我个人认为监控应该从三个方面进行入手,即:Metrics、Logging、Tracing。 Metrics (指标) 通常指标信息担负着数据可视化的物料信息,比如:计量器、直方图、计数器、TPS等等。 Logging(日志)日志信息通常记录了应用程序运行时的详细状态信息。通常会有INFO、WARN、ERROR等级别…

2020年11月10日 0条评论 153点热度 阅读全文

spark中梯度下降的实现在GradientDescent 中的方法runMiniBatchSGD 中 1.第一步是采样并计算梯度 采样用的是RDD.sample 方法 //sample 方法获取一个子集 //根据采样计算梯度 // RDD.aggregate方法介绍 https://www.jianshu.com/p/15739e95a46e //aggregate treeAggregate 区别https://www.cnblogs.com/drawwindows/p/5762392.html val (gr…

2020年11月4日 0条评论 163点热度 阅读全文

活动预告:基于云计算的大数据基础平台架构设计 本群嘉宾 —— 周小四 现任青云QingCloud大数据平台负责人,曾就职于美国FIU在线学习部门、IBM以及高德。在云计算、大数据领域有着丰富的经验。拥有美国FloridaInternationalUniversity(FIU)计算机硕士、MBA学位,上海交通大学模式识别及智能系统硕士学位,以及哈尔滨工程大学学士学位。 本期内容介绍 大数据平台基础建设当前的趋势是云化与开放,这个平台需要可以提供各类大数据相关PaaS服务,也需要使各类服务间可以简单灵活的组合来满足多变…

2020年10月27日 0条评论 131点热度 阅读全文

本文摘自《Spark 快速大数据分析》 概述 RDD 支持两种操作:转化操作(Transformation)和行动操作(Action)。 转化操作时返回一个新的 RDD 的操作,比如 map() 和 filter()。 行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作,会触发实际的计算,比如 count() 和first()。 Spark 对待转化操作和行动操作的方式很不一样,因此理解你正在进行的操作很重要的。 如果对于一个特定的函数是属于转化操作还是行动操作感到困惑,你可以看看它的返回值类型:转化操作返…

2020年10月26日 0条评论 122点热度 阅读全文

静态分配: OS(操作系统预留) 1 core 1Gcore 并发能力 <=5executor AM预留1个executor 余executor=总executor-1memory 预留每个executor0.07比例MemoryOverhead max(384M, 0.07 × spark.executor.memory)ExecutorMemory (总m-1G(OS))/nodes_num-MemoryOverhead 例子1 硬件资源: 6 节点,每个节点16 cores, 64 GB 内存 每个节点…

2020年10月22日 0条评论 175点热度 阅读全文

RPC配置类 TransportConf TransportConf给Spark的RPC框架提供配置信息,它有两个成员属性——配置提供者conf和配置的模块名称module。这两个属性的定义如下: //配置提供者 private final ConfigProvider conf; //模块名称 private final String module; ConfigProvider是一个抽象类,代码如下: /** * Provides a mechanism for constructing a {@link Tr…

2020年10月20日 0条评论 148点热度 阅读全文

1 Spark背景       Spark是一个加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法。 2 Spark工作原理 2.1 Spark专业术语定义 (1)Application:Spark应…

2020年10月18日 0条评论 42点热度 阅读全文
1345672000