在人工功能时代,企业既想通过大数据分析、挖掘技术提升效率,又被大数据量分析、机器学习挖掘等相关技术门槛阻扰,需要一款数据分析挖掘产品跨越这个鸿沟。Jarvis在这个背景下应运而生。Jarvis是支撑大数据分析挖掘应用开发的工具和平台,定位在企业开发者和大数据分析挖掘技术之间,提供可视化交互方面的支持,使得大数据分析、挖掘技术能快速转化为满足企业应用场景的具体产品。 据了解,Jarvis技术实施栈纵向分层、横向分级确保可全流程解决数据分析挖掘过程中的数据处理、计算资源、算子算法支持、环境部署等各环节问题,同时针对用户…

2020年9月18日 0条评论 46点热度 阅读全文

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台(Apache Hive 是 Facebook 在2009年贡献给社区的)和 Corona( Facebook 内部的 MapReduce 实现)进行的。Facebook 还针对包括 Hive 在内的多个内部数据存储,继续增加了其 Presto 的 ANSI-SQL 查询的覆盖范围。Facebook 内部还支持其他类型的分析,如图计…

2020年9月16日 0条评论 23点热度 阅读全文

本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计 1.1文本挖掘流程 文本分析是机器学习中的一个很宽泛的领域,并且在情感分析、聊天机器人、垃圾邮件检测、推荐系统以及自然语言处理等方面得到了广泛应用。 文本聚类是信息检索领域的一个重要概念,在文本挖掘领域有着广泛的应用。文本聚类…

2020年9月16日 0条评论 43点热度 阅读全文

0.前言 随着 Docker 技术的日渐火热,本就火爆的云计算行业进入了一个加速阶段。云计算最大的特点是弹性和灵活,帮助企业应对复杂的业务需求。由于云计算的IT构架和上一代的IT构架有很大不同,云原生应用(Cloud Native Application)概念应运而生。 云原生应用的优点体现在具有良好的可扩展性、伸缩性和容错性;不过想要享用云原生应用的种种良好特性并不是轻松的事,企业开发人员在开发业务应用的时候,还要考虑未来应用的可扩展性和容错性,不免增加了开发的复杂度。PaaS 的出现,正是要帮助开发人员降低云原…

2020年9月14日 0条评论 21点热度 阅读全文

回想起第一次接触Mesos, 当时有很多困惑: "这到底是用来做啥的?跟YARN比有什么优势?有哪些大公司在使用么?"。 然而现在技术日新月异地发展, Mesos这个生态圈也开始被越来越多的团队熟悉关注, 像k8s,Swarm之类的重量级竞品一个个地涌现。 在踩了或多或少的坑, 现在重新回到这个问题, 简而言之: Q1: 这到底是用来做啥的? 通俗地讲, 就是把N台机器当做1台机器使用 Q2: 跟YARN比有什么优势? 更加通用, 不局限在数据分析领域 Q3: 有哪些大公司在使用么? 做技术预研的时候因为看到苹果在…

2020年9月12日 0条评论 26点热度 阅读全文

本文来自OPPO互联网技术团队,是《剖析Spark数据分区》系列文章的第二篇,将重点分析Spark RDD的数据分区。该系列共分3篇文章,欢迎持续关注。 第一篇:主要分析Hadoop中的分片; 第二篇:主要分析Spark RDD的分区; 第三篇:主要分析Spark Streaming,TiSpark中的数据分区; 转载请注名作者,同时欢迎关注OPPO互联网技术团队的公众号:OPPO_tech,一同分享OPPO前沿互联网技术及活动。 Spark 我们以Spark on Yarn为例阐述Spark运行原理。 任务运行步…

2020年9月11日 0条评论 31点热度 阅读全文

传递第三方jars 当用spark-submit提交任务时,可以通过--jars选项传递第三方jars包,如果有多个jars,用逗号分开。 本地调试 用sbt打包好后,最好先在本地调试一下。可以把--master指定为local,然后把输入输出改为本地路径即可。 使用scala执行class 这个跟spark关系不大,但是有时可能也用得着。如果你依赖多个jar包,需要通过-cp指定: scala -cp "lib1.jar:lib2.jar:your_program.jar" -J-Xmx2g com.your.H…

2020年9月9日 0条评论 21点热度 阅读全文

Standalone伪分布式安装 实验环境 ·操作机:Windows XP ·目标机:1台CentOS 7虚拟机 配置:IP:192.168.129.100 主机名:hadoop1 内存:1GB 硬盘:20GB 实验工具 ·Xshell6:是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。 ·Xftp6:是一个功能强大的SFTP、FTP 文件传输软件。 实验内容 Standalone伪分布式,在单机启动多个线程来模拟集群下的分布式场景。 本…

2020年9月6日 0条评论 70点热度 阅读全文

摘要: 本文主要谈了一些分布式计算框架方面的心得。 如果问 mapreduce 和 spark 什么关系,或者说有什么共同属性,你可能会回答他们都是大数据处理引擎。如果问 spark 与 tensorflow 呢,就可能有点迷糊,这俩关注的领域不太一样啊。但是再问 spark 与 MPI 呢?这个就更远了。虽然这样问多少有些不严谨,但是它们都有共同的一部分,这就是我们今天谈论的一个话题,一个比较大的话题:分布式计算框架。 不管是 mapreduce,还是 spark 亦或 tensorflow,它们都是利…

2020年9月2日 0条评论 21点热度 阅读全文

1.本篇主要介绍实际的生产项目中,在消费者集群资源有限的前提下,通过哪些优化手段可以去提高 RabbitMQ 消费端的消费速度。 2.为了帮助大家能够更清晰的认识问题,文中特意将优化前和优化后的耗时进行了一个总结对比,文末提供有 demo 下载地址。 3.可以访问 这里 查看更多关于 大数据平台建设的原创文章。 一. 魔盒简介 魔盒是禧云数芯大数据开发平台中的一个开发协作平台; 数据开发人员通过魔盒可以很方便的完成离线任务和实时任务的打包、测试、发布上线; 支持离线任务的串行、并行工作流设置; 提供完善的任务运行监…

2020年9月2日 0条评论 36点热度 阅读全文