摘要: 本文主要谈了一些分布式计算框架方面的心得。 如果问 mapreduce 和 spark 什么关系,或者说有什么共同属性,你可能会回答他们都是大数据处理引擎。如果问 spark 与 tensorflow 呢,就可能有点迷糊,这俩关注的领域不太一样啊。但是再问 spark 与 MPI 呢?这个就更远了。虽然这样问多少有些不严谨,但是它们都有共同的一部分,这就是我们今天谈论的一个话题,一个比较大的话题:分布式计算框架。 不管是 mapreduce,还是 spark 亦或 tensorflow,它们都是利…

2020年9月2日 0条评论 41点热度 阅读全文

1.本篇主要介绍实际的生产项目中,在消费者集群资源有限的前提下,通过哪些优化手段可以去提高 RabbitMQ 消费端的消费速度。 2.为了帮助大家能够更清晰的认识问题,文中特意将优化前和优化后的耗时进行了一个总结对比,文末提供有 demo 下载地址。 3.可以访问 这里 查看更多关于 大数据平台建设的原创文章。 一. 魔盒简介 魔盒是禧云数芯大数据开发平台中的一个开发协作平台; 数据开发人员通过魔盒可以很方便的完成离线任务和实时任务的打包、测试、发布上线; 支持离线任务的串行、并行工作流设置; 提供完善的任务运行监…

2020年9月2日 0条评论 62点热度 阅读全文

本教程基于Hadoop HA集群搭建。 版本介绍 software version OS CentOS-7-x86_64-DVD-1810.iso Hadoop hadoop-2.8.4 Zookeeper zookeeper-3.4.10 Spark spark-2.4.3 集群角色分配 node actor master1 NameNode、DFSZKFailoverController(zkfc)、ResourceManager、Master master2 NameNode、DFSZKFailoverCon…

2020年9月1日 0条评论 66点热度 阅读全文

SparkContext SparkContext 是Spark 应用的主入口,通过它可以连接Spark 集群,并在集群中创建RDD,累加器,广播变量等;==每一个启动 JVM 上只能有一个SparkContext,在启动一个新的SparkContext之前,必须停掉处于活动状态的SparkContext==。 /** * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark * c…

2020年8月31日 0条评论 53点热度 阅读全文

学习背景:学习 Spark 的过程中,必要的一定是读官方文档。这里对http://spark.apache.org/examp... 中的例子做些理解性质的总结。 Spark API Examples包含以下内容: RDD API:完成数据转换、操作两部分 DataFrame API:RDD转换成DataFrame、读数据库表转换成DataFrame,然后进行关系操作 机器学习 API:用 Logistic 做训练和预测 RDD处理:统计按空格分隔的词的个数,并保存成文件: JavaRDD<String>…

2020年8月31日 0条评论 39点热度 阅读全文

在《第二篇|Spark Core编程指南》一文中,对Spark的核心模块进行了讲解。本文将讨论Spark的另外一个重要模块--Spark SQL,Spark SQL是在Shark的基础之上构建的,于2014年5月发布。从名称上可以看出,该模块是Spark提供的关系型操作API,实现了SQL-on-Spark的功能。对于一些熟悉SQL的用户,可以直接使用SQL在Spark上进行复杂的数据处理。通过本文,你可以了解到: Spark SQL简介 DataFrame API&DataSet API Catalyst…

2020年8月31日 0条评论 60点热度 阅读全文

databricks 最近发布了 GraphFrames,这是一个用 DataFrames 封装图处理过程的Spark插件。 我评估了网络分析并且利用丰富的NBA.com的数据对金州勇士的传球网络进行可视化。 金州勇士的传球网络 传接球 联盟 MVP Stephen Curry 接到了大多数的传球,而团队中的 MVP Draymond Green则发动了最多的传球。 我们已经看到大多数的进攻是由 Curry 和 Green 的相互传球开始的。 图片来自 GIPHY 入度 inDegree id inDegree C…

2020年8月28日 0条评论 52点热度 阅读全文

特点: Spark Streaming能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。 Spark Streaming支持从多种数据源提取数据,如:Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字,并且可以提供一些高级API来表达复杂的处理算法,如:map、reduce、join和window等。 Spark Streaming支持将处理完的数据推送到文件系统、数据库或者实时仪表盘中展示。 可以将Spark的机器学习(machine learning) 和…

2020年8月25日 0条评论 40点热度 阅读全文

前言 本文对 spark 2.1.x 适用 executor 内存模型 堆内内存与堆外内存 堆内内存 堆外内存 动态资源分配 基本参数设置 # 配置 external shuffle service 服务(一定要配置启用) spark.shuffle.service.enabled = true spark.shuffle.service.por = 7337 # 启用动态资源调度 spark.dynamicAllocation.enabled = true # 每个应用中最少 executor 的个数 spark…

2020年8月24日 0条评论 74点热度 阅读全文

一、搬砖 vs. 分布式计算 一个人搬砖很累,几个人一起搬就会轻松很多,也会快很多: 分布并行计算和几个人一起搬砖的意思是一致的,一个资源密集型的任务(搬砖或计算),需要 一组资源(小伙伴或计算节点),并行地完成: 计算任务 => 搬砖 计算节点 => 小伙伴 当计算任务过重时,我们就把计算任务拆分,然后放到多个计算节点上同时执行,这就是分布并行计算。 二、求文件中包含"包租婆"的行数 从一个总计100行的文件中找出所有包含“包租婆”的行数,我们不用太动脑筋就有一个算法: 读一行,判断这一行有“包租婆”…

2020年8月15日 0条评论 58点热度 阅读全文
1345672000