我们在HDP 2.4.2上,用Spark 1.6编译Scala 2.10.5。 Hbase版本是1.1.2.2.4.2.0-258spark hbase connector - 异常“java.lang.UnsupportedOperationException:empty.tai​​l” 环境是一个基本的dev群集(< 10个节点),hbase & spark在群集模式下运行。 尝试使用火花HBase的连接器,用于从HBase的获取SOEM数据到火花的数据帧与以下错误失败 - Exception i…

2020年12月1日 0条评论 61点热度 阅读全文

我是scala和spark的新手,我有以下案例类Acase class A(uniqueId : String, attributes: HashMap[String, List[String]])现在我有了一个类型为A的dataFrame。我需要在该DF的每一行上调用一个Java函数。我需要将Hashmap转换为Java HashMap,并将List转换为Java list。我怎样才能做到这一点。 我正在尝试以下 val rddCaseClass = RDD[A] val a = rddCaseClass.toD…

2020年12月1日 0条评论 62点热度 阅读全文

在我的“外部库”目录中,可以找到我的jar,例如hppc-0.8.1.jar(任意选择)。 External Library jars我想引用此jar以便将其提供给配置中的SparkSession。但是,我只能使用绝对路径来引用它,这是一个问题,因为我的队友和我共享一个回购协议(protocol)。我如何引用这个jar,这样就不必每次使用时都使用绝对路径并避免合并冲突?带注释的行是我的队友路径,而包含的路径是我的路径。 .appName(appName) .master("spark://" + sparkHost…

2020年11月30日 0条评论 63点热度 阅读全文

我正在尝试执行Spark作业,并且在尝试启动驱动程序时遇到此错误: 16/05/17 14:21:42 ERROR SparkContext: Error initializing SparkContext. java.io.FileNotFoundException: Added file file:/var/lib/mesos/slave/slaves/0c080f97-9ef5-48a6-9e11-cf556dfab9e3-S1/frameworks/5c37bb33-20a8-4c64-8371-41631…

2020年11月30日 0条评论 58点热度 阅读全文

我正在使用ElasticSearch-Hadoop库从ElsticSearch提取数据。 JavaPairRDD<String, Map<String, Object>> esRDD = JavaEsSpark.esRDD(sc); 现在我有JavaPairRDD。我想在此RDD上使用来自MLLib的随机森林。 所以我将其转换为JavaPairRDD.toRDD(esRDD)这将给我RDD。 使用RDD,我再次转换为JavaRDD JavaRDD<LabeledPoint>[] …

2020年11月28日 0条评论 64点热度 阅读全文

我将一个分区列添加到Spark Dataframe。新列包含年份的月份和日期。我的数据框中有一个时间戳列。 DataFrame dfPartition = df.withColumn("year", df.col("date").substr(0, 4)); dfPartition = dfPartition.withColumn("month", dfPartition.col("date").substr(6, 2)); dfPartition = dfPartition.withColumn("day", d…

2020年11月28日 0条评论 62点热度 阅读全文

我正在尝试在Spark作业中读取na Avro文件。我的Spark版本是1.6.0(spark-core_2.10-1.6.0-cdh5.7.1)。 这是我的Java代码: JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("ReadAvro")); JavaPairRDD <NullWritable, Text> lines = sc.newAPIHadoopFile(args[0],AvroKeyValueIn…

2020年11月28日 0条评论 59点热度 阅读全文

请帮助我理解我的理解或配置中的错误。 我在YARN上运行Spark,并在yarn-site.xml中将最小容器内存分配设置为8GB: <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>8192</value> </property> 我可以在Resource Manager UI中看到此设置: 但是,当我在服务器上ps容器的Java进程时,最大堆大小设置为10…

2020年11月27日 0条评论 54点热度 阅读全文

我有以下Java Spark Hive Example,可以在官方apache / spark Github上找到。我花了很多时间来理解如何在Hortonworks Hadoop沙盒中运行示例,但没有成功。 目前,我正在执行以下操作: 在我的Maven项目中导入apache/spark examples,这工作正常,并且我没有遇到任何问题,所以我猜这里没有问题。 下一步是准备要在我的Hadoop沙箱中运行的代码-问题从这里开始,我可能设置了一些错误。这就是我正在做的: 将SparkSession设置为掌握本地,将s…

2020年11月26日 0条评论 63点热度 阅读全文

我正在尝试通过Apache Livy将spark作业提交给hadoop-yarn集群。使用指定的here步骤设置集群。 Java代码正在Windows本地计算机上通过IntelliJ运行。 spark and hadoop群集位于linux服务器上。其他应用程序(不带Livy)通过hdfs上的操作和spark计算可以完美运行。 我正在尝试运行在群集的应用程序的stderr中看到的错误日志: INFO yarn.ApplicationMaster: Waiting for spark context initiali…

2020年11月26日 0条评论 64点热度 阅读全文