Spark Streaming入门 概述 应用场景 集成Spark生态系统的使用 Spark Streaming发展史 词频统计 使用spark-submit执行 使用spark-shell执行 工作原理 概述 Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。数据可以从像卡夫卡,室壁运动,或TCP套接字许多来源摄入,并且可以使用与像高级别功能表达复杂的算法来处理map,reduce,join和window。最后,可以将处理后的数据推送到文件系统,数据库和…

2021年3月8日 0条评论 60点热度 阅读全文

文章目录 元组 定义元组 访问元组 迭代元组 元组转为字符串 元组 元组是一个可以存放不同类型对象的集合,元组中的元素不可以修改 定义元组 共有三种方法: 其中第二种里面的Tuple4,4表示的是元组的长度 scala目前支持的元组长度最大到22,就意味着只能选择Tuple1~Tuple22 ==元组的实际类型取决于元素的数量和元素的类型【eg:(20,“青岛”)的类型是Tuple2(Int,String)】 == package scalaP object tuple { def main(args: Array…

2021年2月26日 0条评论 70点热度 阅读全文

** spark2.4.6报 java.io.FileNotFoundException ** 提示:WARN TaskSetManager: Lost task 1.0 in stage 0.0 (TID 1, 172.16.50.32, executor 1):java.io.FileNotFoundException: File file:/home/hadoop/input/wc.txt does not exist 在确认文件存在的情况下,出现这个问题的原因是:我们是在集群上运行wordcount程序,运…

2021年2月25日 0条评论 116点热度 阅读全文

使用mysql作为airflow的数据库,在airflow.cfg中设置字符编码为utf-8,在初始化airflow数据库时还是会碰到如下错误: UnicodeEncodeError: 'charmap' codec can't encode characters in position 0-3: character maps to <undefined> 这种还是在编码设置问题上,处理需要在airflow.cfg中设置编码  sql_engine_encoding = utf-8 还需要在&…

2021年2月20日 0条评论 90点热度 阅读全文

使用mysql作为airflow的数据库,在airflow.cfg中设置字符编码为utf-8,在初始化airflow数据库时还是会碰到如下错误: UnicodeEncodeError: 'charmap' codec can't encode characters in position 0-3: character maps to <undefined> 这种还是在编码设置问题上,处理需要在airflow.cfg中设置编码  sql_engine_encoding = utf-8 还需要在&…

2021年2月20日 0条评论 241点热度 阅读全文

  RDD,弹性分布式数据集,是spark的底层数据结构。RDD是一个容错的,可以被并行操作的数据集合。RDD的特点之一是分布式存储,它的好处就是数据存储在不同的节点上,当需要数据进行计算的时候可以在这些节点上并行操作。弹性表现在节点在存储RDD数据的时候,既可以存储在内存中,也可以存储在磁盘上,也可以两者结合使用。RDD还有个特点就是延迟计算,当是transformation算子的时候,并不执行操作,直到遇到action算子的时候才开始执行计算。   根据RDD源码里面的注释,我们来了解一下RDD的五大特性 * …

2021年1月24日 0条评论 49点热度 阅读全文

内容简介 作为计算框架,Spark 速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。 本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合 Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用 Apache Spark 进行大数据分析和处理的实战宝典。 第2版根据新版 Spark 杰出实践,对样例代码和所用资料做…

2021年1月18日 0条评论 45点热度 阅读全文

1.A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。 2.A function for computing each split RDD的每个partition上面都会有function,也就是函数应用,其作用是实现RDD之间partition的转换。 3.A list of dependencies on other RDDs…

2021年1月16日 0条评论 48点热度 阅读全文

  (2)pyspark建立RDD以及读取文件成dataframe 目录 别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark Top~~ 1、启动spark (1)SparkSession 是 Spark SQL 的入口。 (2)通过 SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。 Buil…

2021年1月5日 0条评论 56点热度 阅读全文

广播变量,很简单 其实就是SparkContext的broadcast()方法,传入你要广播的变量,即可 final Broadcast<Map<String, Map<String, IntList>>> broadcast = sc.broadcast(fastutilDateHourExtractMap); 使用广播变量的时候, 直接调用广播变量(Broadcast类型)的value() / getValue() , 可以获取到之前封装的广播变量 Map<String…

2021年1月3日 0条评论 38点热度 阅读全文