Spark 是 UC Berkeley AMP lab 开源的类 Hadoop MapReduce 的通用的并行计算框架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的优点,并且 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算法。本文详细介绍了基于Mesos 进行集群资源调度的数人云,如何部署Spark集群。 Spark 支持三种分布式部署方式,分别是 Standalone、Spark on Yarn 以及 Spark on …

2020年9月23日 0条评论 53点热度 阅读全文

Python Programming Guide - Spark(Python) Spark应用基本概念 每一个运行在cluster上的spark应用程序,是由一个运行main函数的driver program和运行多种并行操作的executes组成 其中spark的核心是弹性分布式数据集(Resilient Distributed Dataset—RDD) Resilient(弹性):易变化、易计算 Distributed(分布式):可横跨多台机器,集群分布 Dataset(数据集):大批量数据的集合 <!…

2020年9月23日 0条评论 57点热度 阅读全文

在人工功能时代,企业既想通过大数据分析、挖掘技术提升效率,又被大数据量分析、机器学习挖掘等相关技术门槛阻扰,需要一款数据分析挖掘产品跨越这个鸿沟。Jarvis在这个背景下应运而生。Jarvis是支撑大数据分析挖掘应用开发的工具和平台,定位在企业开发者和大数据分析挖掘技术之间,提供可视化交互方面的支持,使得大数据分析、挖掘技术能快速转化为满足企业应用场景的具体产品。 据了解,Jarvis技术实施栈纵向分层、横向分级确保可全流程解决数据分析挖掘过程中的数据处理、计算资源、算子算法支持、环境部署等各环节问题,同时针对用户…

2020年9月18日 0条评论 70点热度 阅读全文

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台(Apache Hive 是 Facebook 在2009年贡献给社区的)和 Corona( Facebook 内部的 MapReduce 实现)进行的。Facebook 还针对包括 Hive 在内的多个内部数据存储,继续增加了其 Presto 的 ANSI-SQL 查询的覆盖范围。Facebook 内部还支持其他类型的分析,如图计…

2020年9月16日 0条评论 48点热度 阅读全文

本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1.1文本挖掘流程 文本分析是机器学习中的一个很宽泛的领域,并且在情感分析、聊天机器人、垃圾邮件检测、推荐系统以及自然语言处理等方面得到了广泛应用。 文本聚类是信息检索领域的一个重要概念,在文本挖掘领域有着广泛的应用。文本聚类…

2020年9月16日 0条评论 65点热度 阅读全文

0.前言 随着 Docker 技术的日渐火热,本就火爆的云计算行业进入了一个加速阶段。云计算最大的特点是弹性和灵活,帮助企业应对复杂的业务需求。由于云计算的IT构架和上一代的IT构架有很大不同,云原生应用(Cloud Native Application)概念应运而生。 云原生应用的优点体现在具有良好的可扩展性、伸缩性和容错性;不过想要享用云原生应用的种种良好特性并不是轻松的事,企业开发人员在开发业务应用的时候,还要考虑未来应用的可扩展性和容错性,不免增加了开发的复杂度。PaaS 的出现,正是要帮助开发人员降低云原…

2020年9月14日 0条评论 45点热度 阅读全文

回想起第一次接触Mesos, 当时有很多困惑: "这到底是用来做啥的?跟YARN比有什么优势?有哪些大公司在使用么?"。 然而现在技术日新月异地发展, Mesos这个生态圈也开始被越来越多的团队熟悉关注, 像k8s,Swarm之类的重量级竞品一个个地涌现。 在踩了或多或少的坑, 现在重新回到这个问题, 简而言之: Q1: 这到底是用来做啥的? 通俗地讲, 就是把N台机器当做1台机器使用 Q2: 跟YARN比有什么优势? 更加通用, 不局限在数据分析领域 Q3: 有哪些大公司在使用么? 做技术预研的时候因为看到苹果在…

2020年9月12日 0条评论 53点热度 阅读全文

本文来自OPPO互联网技术团队,是《剖析Spark数据分区》系列文章的第二篇,将重点分析Spark RDD的数据分区。该系列共分3篇文章,欢迎持续关注。 第一篇:主要分析Hadoop中的分片; 第二篇:主要分析Spark RDD的分区; 第三篇:主要分析Spark Streaming,TiSpark中的数据分区; 转载请注名作者,同时欢迎关注OPPO互联网技术团队的公众号:OPPO_tech,一同分享OPPO前沿互联网技术及活动。 Spark 我们以Spark on Yarn为例阐述Spark运行原理。 任务运行步…

2020年9月11日 0条评论 53点热度 阅读全文

传递第三方jars 当用spark-submit提交任务时,可以通过--jars选项传递第三方jars包,如果有多个jars,用逗号分开。 本地调试 用sbt打包好后,最好先在本地调试一下。可以把--master指定为local,然后把输入输出改为本地路径即可。 使用scala执行class 这个跟spark关系不大,但是有时可能也用得着。如果你依赖多个jar包,需要通过-cp指定: scala -cp "lib1.jar:lib2.jar:your_program.jar" -J-Xmx2g com.your.H…

2020年9月9日 0条评论 45点热度 阅读全文

Standalone伪分布式安装 实验环境 ·操作机:Windows XP ·目标机:1台CentOS 7虚拟机 配置:IP:192.168.129.100 主机名:hadoop1 内存:1GB 硬盘:20GB 实验工具 ·Xshell6:是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。 ·Xftp6:是一个功能强大的SFTP、FTP 文件传输软件。 实验内容 Standalone伪分布式,在单机启动多个线程来模拟集群下的分布式场景。 本…

2020年9月6日 0条评论 96点热度 阅读全文