我将一个分区列添加到Spark Dataframe。新列包含年份的月份和日期。我的数据框中有一个时间戳列。 DataFrame dfPartition = df.withColumn("year", df.col("date").substr(0, 4)); dfPartition = dfPartition.withColumn("month", dfPartition.col("date").substr(6, 2)); dfPartition = dfPartition.withColumn("day", d…

2020年11月28日 0条评论 49点热度 阅读全文

我有一个formattedDataInputDateTime字符串,我想作为第二个字段的时间戳类型插入到表中。 // Returns 2019-10-30T13:00Z val localDateTimeZoned = OffsetDateTime.of(java.time.LocalDate.parse(currentDate), java.time.LocalTime.now, ZoneOffset.UTC).truncatedTo(ChronoUnit.HOURS) // Returns 2019-10-30…

2020年11月17日 0条评论 30点热度 阅读全文

我尝试使用以下代码在数据集上调用groupByKey: SparkSession SPARK_SESSION = new SparkSession(new SparkContext("local", "app")); JavaSparkContext JAVA_SPARK_CONTEXT = new JavaSparkContext(SPARK_SESSION.sparkContext()); @Data @NoArgsConstructor @AllArgsConstructor class Chunk impl…

2020年11月13日 0条评论 33点热度 阅读全文

我正在使用非常基本的Spark代码,以便将输入值“Qty”转换为将插入到RDBMS中的输出变量,但是对于输入值“0”,spark cast(“decimal(32,9)”)正在将其转换为0E-9。这是我的代码: dfFinal = dfInput.withColumn("QtyOut",dfInput.col("Qty").cast("decimal(32,9)"); dfFinal.show(); 当“数量”的值为“0”时,输出为“0E-9”。然后,我尝试使用“format_number”解决了问题,但随后将Qt…

2020年11月12日 0条评论 27点热度 阅读全文

我正在尝试从Dataset<Row>对象创建JavaRDD<Tuple2<Row, Row>>对象。我正在执行以下步骤, 将Java<Tuple2<Row,Row>>转换为JavaRDD<Row> 将toDataset()的sqlContext函数与架构一起使用以转换为数据集。 但是,在第一步中,我无法在代码中使用scala之类的 Row.fromTuple()函数。 第二步,我无法使用rowTag进行转换。 它向我显示以下运行时错误。 Err…

2020年11月11日 0条评论 71点热度 阅读全文

ApplicationMaster: User class threw exception: org.apache.spark.sql.AnalysisException: Table or view not found: "DB_X"."table_Y" Spark session : SparkSession .builder() .appName(appName) .config("spark.sql.warehouse.dir", "/apps/hive/warehouse") .enableHiveSup…

2020年11月6日 0条评论 38点热度 阅读全文

嗨,我是Apache Spark的新手,我在Java中使用Apache Spark sql查询配置单元表。 这是我的代码 SparkConf sparkConf = new SparkConf().setAppName("Hive").setMaster("local"); JavaSparkContext ctx = new JavaSparkContext(sparkConf); HiveContext sqlContext = new org.apache.spark.sql.hive.HiveContext…

2020年10月27日 0条评论 21点热度 阅读全文

嗨,我正在使用Spark Java API从Hive获取数据。该代码在hadoop单节点集群中运行。但是当我尝试在hadoop多节点集群中使用它时,会抛出错误 org.apache.spark.SparkException: Detected yarn-cluster mode, but isn't running on a cluster. Deployment to YARN is not supported directly by SparkContext. Please use spark-submit. …

2020年10月25日 0条评论 37点热度 阅读全文

我正在尝试读取一个文件夹中多个.gz文件中存在的具有特定名称的文件。例如D:/sample_datasets/gzfiles |-my_file_1.tar.gz |-my_file_1.tar |-file1.csv |-file2.csv |-file3.csv |-my_file_2.tar.gz |-my_file_2.tar |-file1.csv |-file2.csv |-file3.csv 我只对读取file1.csv的内容感兴趣,该内容在所有.gz文件中具有相同的架构。我正在将路径D:/sampl…

2020年10月17日 0条评论 31点热度 阅读全文

请帮忙,就Spark和Haddop而言,我绝对是个菜鸟。我的代码如下所示: public static void main(String[] args) throws IOException { String[] jars = {"D:\\customJars\\sparky.jar","D:\\customJars\\guava-19.0.jar"}; System.setProperty("hadoop.home.dir", "D:\\hadoop-common-2.2.0-bin-master"); Spar…

2020年10月6日 0条评论 41点热度 阅读全文