Spark入门

2021年3月26日 82点热度 0条评论 来源: 小码上线

简介Spark

1.Spark概述

1.1什么是Spark?

进入官网,看简介:http://spark.apache.org/

Apache Spark™ is a unified analytics engine for ==large-scale data processing. ==
Spark是一个处理大数据的分析引擎。

2.Spark的模块


四大模块:
SQL,流式数据处理(实时计算),机器学习,图计算。

3.Spark的特点

四个特点,一眼便知。

  1. 比Hadoop的MapReduce快110+。
  2. 易用,可以用Java, Python, R 和SQL
  3. 通用,处理不同类型的业务,几乎是一站式。处理四大模块。
  4. 兼容,可以独立运行,也可以运行在YARN,Mesos,Kubernetes。
    可以从HDFS, HBase, Hive,MySql等中读/写取数据

2.Spark运行模式

2.1 单机模式

单机模式略过不提

2.2 集群模式

集群模式官网给出三种:

  1. 独立运行
  2. 在Mesos(国内不多)
  3. 在YARN

练习Spark入门的话,就用Local模式,就可以了。

3.入门案例

3.1 Word Count


打开Spark-shell ,准备文件。并输入以上程序。

查看结果:
浏览器中输入地址:主机ip:4040(端口号4040)

3.2 集群角色

3.2.1 Master和Worker

Master资源调度中的Leader,类似YARN中的ResourceManager
Worker资源调度中的Fllower,类似YARN中的NodeManager

3.2.2 Driver和Worker

总结:Master和Worker是Spark的守护进程,即Spark在特定模式下正常运行所必须的进程。Driver和Executor是临时程序,当有具体任务提交到Spark集群才会开启的程序。

    原文作者:小码上线
    原文地址: https://blog.csdn.net/qq_38382925/article/details/115224660
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系管理员进行删除。