编程指南:http://spark.apache.org/docs/... ApiDoc: http://spark.apache.org/docs/... 0、例子 http://spark.apache.org/examp... 1、集群模式与如何部署? 集群模式:http://spark.apache.org/docs/... 提交部署应用:http://spark.apache.org/docs/... 1.1、如何监控?http://spark.apache.org/docs/... 2、RDD算子: A…

2020年11月14日 0条评论 33点热度 阅读全文

本人浅析传统IT系统层面的系统监控,不涉及k8s以及Service Mesh,抛砖引玉。 随着系统增多,我们需要一套能够立体化监控系统去监控你的应用及业务,出现问题能够及时告警,或通过大屏、短信和邮件。 我个人认为监控应该从三个方面进行入手,即:Metrics、Logging、Tracing。 Metrics (指标) 通常指标信息担负着数据可视化的物料信息,比如:计量器、直方图、计数器、TPS等等。 Logging(日志)日志信息通常记录了应用程序运行时的详细状态信息。通常会有INFO、WARN、ERROR等级别…

2020年11月10日 0条评论 40点热度 阅读全文

spark中梯度下降的实现在GradientDescent 中的方法runMiniBatchSGD 中 1.第一步是采样并计算梯度 采样用的是RDD.sample 方法 //sample 方法获取一个子集 //根据采样计算梯度 // RDD.aggregate方法介绍 https://www.jianshu.com/p/15739e95a46e //aggregate treeAggregate 区别https://www.cnblogs.com/drawwindows/p/5762392.html val (gr…

2020年11月4日 0条评论 35点热度 阅读全文

活动预告:基于云计算的大数据基础平台架构设计 本群嘉宾 —— 周小四 现任青云QingCloud大数据平台负责人,曾就职于美国FIU在线学习部门、IBM以及高德。在云计算、大数据领域有着丰富的经验。拥有美国FloridaInternationalUniversity(FIU)计算机硕士、MBA学位,上海交通大学模式识别及智能系统硕士学位,以及哈尔滨工程大学学士学位。 本期内容介绍 大数据平台基础建设当前的趋势是云化与开放,这个平台需要可以提供各类大数据相关PaaS服务,也需要使各类服务间可以简单灵活的组合来满足多变…

2020年10月27日 0条评论 31点热度 阅读全文

本文摘自《Spark 快速大数据分析》 概述 RDD 支持两种操作:转化操作(Transformation)和行动操作(Action)。 转化操作时返回一个新的 RDD 的操作,比如 map() 和 filter()。 行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作,会触发实际的计算,比如 count() 和first()。 Spark 对待转化操作和行动操作的方式很不一样,因此理解你正在进行的操作很重要的。 如果对于一个特定的函数是属于转化操作还是行动操作感到困惑,你可以看看它的返回值类型:转化操作返…

2020年10月26日 0条评论 24点热度 阅读全文

静态分配: OS(操作系统预留) 1 core 1Gcore 并发能力 <=5executor AM预留1个executor 余executor=总executor-1memory 预留每个executor0.07比例MemoryOverhead max(384M, 0.07 × spark.executor.memory)ExecutorMemory (总m-1G(OS))/nodes_num-MemoryOverhead 例子1 硬件资源: 6 节点,每个节点16 cores, 64 GB 内存 每个节点…

2020年10月22日 0条评论 60点热度 阅读全文

RPC配置类 TransportConf TransportConf给Spark的RPC框架提供配置信息,它有两个成员属性——配置提供者conf和配置的模块名称module。这两个属性的定义如下: //配置提供者 private final ConfigProvider conf; //模块名称 private final String module; ConfigProvider是一个抽象类,代码如下: /** * Provides a mechanism for constructing a {@link Tr…

2020年10月20日 0条评论 42点热度 阅读全文

RDD是Spark对数据的抽象,本文将介绍它与MapReduce的区别以及它的优势 MapReduce存在的问题 MapReduce上的迭代操作 可以看到一个MapReduce作业处理的结果只能存放在硬盘当中,当另一个MapReduce作业去读取这个结果时又得从硬盘读取到内存中,这就产生了大量的数据复制,磁盘I/O,数据的序列化操作,这些多余的操作就使得整个计算系统变慢。 MapReduce上的交互操作 是同样每次查询数据都需要到磁盘里读取数据 使用RDD的操作模型及优势 RDD的迭代操作 可以看到它将一个MapR…

2020年10月16日 0条评论 13点热度 阅读全文

因为Segmentfault的文章发布审核对格式要求太严格了,我去简书了地址在这里https://www.jianshu.com/p/f50...

2020年10月10日 0条评论 24点热度 阅读全文

一、什么是内存溢出? 内存溢出(OOM:out of memory)通俗理解就是内存不够,通常在运行大型软件或游戏时,软件或游戏所需要的内存远远超出了你主机内安装的内存所承受大小,就叫内存溢出。 在Java中,将会产生java.lang.OutOfMemoryError。看下关于的官方说明: Thrown when the Java Virtual Machine cannot allocate an object because it is out of memory, and no more memory co…

2020年10月9日 0条评论 28点热度 阅读全文