我正在使用ElasticSearch-Hadoop库从ElsticSearch提取数据。 JavaPairRDD<String, Map<String, Object>> esRDD = JavaEsSpark.esRDD(sc); 现在我有JavaPairRDD。我想在此RDD上使用来自MLLib的随机森林。 所以我将其转换为JavaPairRDD.toRDD(esRDD)这将给我RDD。 使用RDD,我再次转换为JavaRDD JavaRDD<LabeledPoint>[] …

2020年11月28日 0条评论 64点热度 阅读全文

什么可能导致此错误。我有点迷路了。我发现的所有内容都无济于事。 堆栈跟踪: Exception in thread "main" java.lang.IllegalArgumentException: requirement failed: Column features must be of type struct<type:tinyint,size:int,indices:array<int>,values:array<double>> but was actually st…

2020年8月3日 0条评论 27点热度 阅读全文

问题是每个作业都会失败,并带有以下异常: Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)[Ljava/lang/Object; at ps.sparkapp.Classification$.main(Classification.scala:35) at ps.sparkapp.Classification.main(Classification.scala)…

2020年6月26日 0条评论 38点热度 阅读全文

我正在使用ElasticSearch-Hadoop库从ElsticSearch提取数据。 JavaPairRDD<String, Map<String, Object>> esRDD = JavaEsSpark.esRDD(sc); 现在我有JavaPairRDD。我想在此RDD上使用来自MLLib的随机森林。 所以我将其转换为JavaPairRDD.toRDD(esRDD)这将给我RDD。 使用RDD,我再次转换为JavaRDD JavaRDD<LabeledPoint>[] …

2020年2月25日 0条评论 37点热度 阅读全文

我想在Java应用程序 LogisticRegressionModel sameModel = LogisticRegressionModel.load(sc,"/home/storm/Desktotp/LogisticRegressionModel"); Vector meu = Vectors.dense(1.0, 26.0, 0.4872, 2.0, 3.0, 1.0, 0.4925, 0.6182, 0.2762, 0.5468, 0.12, 9.0, 1.0, 2.0, 0.12, 1.0, 2.0, 3…

2020年2月24日 0条评论 22点热度 阅读全文

我在大数据分析应用程序之一中将Spark Mllib与Hadoop一起使用。我有41个功能和一个标签的功能集。现在,在培训期间,我想混合使用我的功能以与功能工程师配合使用,并找到最适合我的场景的最小功能集。 为此,我想在训练时选择在训练和测试模型准确性时要使用的功能。 我正在做这个 JavaRDD<LabeledPoint>[] splits = data.randomSplit(new double[] { 0.5, 0.5 }); JavaRDD<LabeledPoint> traini…

2020年1月8日 0条评论 28点热度 阅读全文

我正在尝试在Web项目中使用spark mllib.jar。我下载了spark-1.1.0-bin-hadoop2.4并解压缩。有一些 jar 如下: datanucleus-api-jdi-3.2.1.jar datanucleus-core-3.2.2.jar datanucleus-rdbms-3.2.1.jar spark-assembly-1.1.0-hadoop2.4.0.jar spark-examples-1.1.0-hadoop2.4.0.jar 然后,我使用 spark-assembly-1.1…

2019年12月16日 0条评论 25点热度 阅读全文

我有一个数据框,我想在映射中获取最大值的键。 数据框创建: Dataset<Row> data = spark.read() .option("header", "true") .option("inferSchema", "true") .csv("/home/path/to/file/verify.csv"); //loading Spark ML model PipelineModel gloveModel = PipelineModel.load("models/gloveModel"); Da…

2019年10月3日 0条评论 30点热度 阅读全文

我正在使用ParamGridBuilder构造参数网格以进行搜索,并使用TrainValidationSplit来确定Java中的最佳模型(RandomForestClassifier)。现在,我想知道产生最佳模型的ParamGridBuilder的参数(maxDepth,numTrees)是什么。 Pipeline pipeline = new Pipeline().setStages(new PipelineStage[]{ new VectorAssembler() .setInputCols(new Str…

2019年8月23日 0条评论 37点热度 阅读全文

我是Spark的新手,正在使用spark-2.1.0-bin-hadoop2.7。 我已经检查了它的WordsCount示例,并且工作正常,但是JavaLDAExample却没有。 我检查了他们的源代码here。 WordsCount需要一个url作为其数据的参数,并且我已经在hadoop上通过hdfs创建了数据,因此我发送了类似hdfs://master:9000/input/data/test.txt的路径。 但是JavaLDAExample使用静态路径Dataset<Row> dataset = …

2019年5月19日 0条评论 42点热度 阅读全文