Spark Streaming 2.2.1 处理Kafka数据源的实战准备 Kafka是一种高吞吐量的分布式发布订阅消息系统,Spark Streaming读取Kafka数据支持二种方式:Receiver方式和No Receivers方式。 (1)Receiver方式:Spark Streaming kafkautil使用createStream方法。 (2)No Receivers方式:Spark Streaming kafkautil使用createDirectStream方法。 目前No Receivers方…

2018年2月24日 0条评论 2点热度 阅读全文

Spark 2.2.1 处理HDFS文件数据源的案例与解读 上一节讲解了从Sockets获取数据,Spark StreamingContext API还提供了从其他基础数据源创建DStream实例的方法,这里以文件数据源作为例子,对文件流进行处理。 在企业中可引入类似Flume的工具收集数据,企业从各种数据源获取数据,存入某个文件存储系统(一般使用HDFS)。例如将从Flume数据源收集来的日志文件,存入HDFS文件系统。Spark Streaming通过监控某一目录下的新建文件的方法,使用文件流的方式去处理。 本…

2018年2月23日 0条评论 3点热度 阅读全文

 SPARK 2.2.1 SQL 处理各种数据源的案例与解读 由于集团下的各个子公司在数据集成之前,使用数据有多种格式,因此需要支持多种数据来源的处理,将各个子公司的不同数据源集成到集团统一的大数据平台下。Spark SQL支持从各种数据源加载文件构建DataFrame/DataSet,以及将DataFrame/DataSet 保存到各种数据源中。 在给出数据源实战案例之前,先对Spark SQL的数据源进行分析,下面是从源码角度,对内置的数据源、数据源的查找两个方面进行分析。 1)  …

2018年2月17日 0条评论 2点热度 阅读全文