我将一个分区列添加到Spark Dataframe。新列包含年份的月份和日期。我的数据框中有一个时间戳列。 DataFrame dfPartition = df.withColumn("year", df.col("date").substr(0, 4)); dfPartition = dfPartition.withColumn("month", dfPartition.col("date").substr(6, 2)); dfPartition = dfPartition.withColumn("day", d…

2020年11月28日 0条评论 82点热度 阅读全文

以下是我的示例数据。我需要通过给定的viewid与可用的productid合并。是否有可能使用coalesce?配置单元:通过单列合并 date viewid productid 5/1/17 100e9b59e70deb1493677845193 null 5/1/17 100e9b59e70deb1493677845193 12345 5/1/17 100e9b59e70deb1493677845193 null 结果: date viewid productid 5/1/17 100e9b59e70deb14…

2020年11月27日 0条评论 67点热度 阅读全文

我有以下Java Spark Hive Example,可以在官方apache / spark Github上找到。我花了很多时间来理解如何在Hortonworks Hadoop沙盒中运行示例,但没有成功。 目前,我正在执行以下操作: 在我的Maven项目中导入apache/spark examples,这工作正常,并且我没有遇到任何问题,所以我猜这里没有问题。 下一步是准备要在我的Hadoop沙箱中运行的代码-问题从这里开始,我可能设置了一些错误。这就是我正在做的: 将SparkSession设置为掌握本地,将s…

2020年11月26日 0条评论 79点热度 阅读全文

我在NiFi中建立了一个管道,在那里我得到JSON记录,然后用它向API发出请求。我得到的回应将包含数字和文本数据。然后我必须将这些数据写入Hive。我使用InferAvroSchema来推断模式。某些数字值是有符号值,如-2.46,-0.1虽然推断该类型,但处理器将它们视为string而不是double或float或decimal类型。Apache NiFi:InferAvroSchema推断字符串的有符号值 我知道我们可以在处理器中对我们的AVRO架构进行硬编码,但我认为通过使用InferAvroSchema使…

2020年11月25日 0条评论 60点热度 阅读全文

据我所知像一个从多选择蜂巢支持SQL处理,我这样的SQL:蜂巢SQL错误:在编译声明:失败:SemanticException异常而在蜂巢 FROM (SELECT DISTINCT a.td_id,a.brd,a.crt_at, b.imei FROM table_main as a LEFT JOIN (SELECT DISTINCT imei, td_id FROM table_device WHERE crt_at < '2016-12-01')b ON a.td_id=b.td_id)bb SELE…

2020年11月25日 0条评论 52点热度 阅读全文

我正在使用配置单元v.0.13。我真的需要hiveserver2吗? 我很迷惑hiveserver2的功能。如果我的数据是在hdfs中,我试图简单地使用“配置单元”CLI来创建外部表,而不需要启动hiveserver2,因此问题是否正确?还是我错过了什么?如果是,那么什么,如果不是,那么我什么时候需要hiveserver2? ===========解决方案如下: 从Hive 0.13开始,HiveServer2支持通过HTTP传输(HIVE-4752)发送Thrift RPC消息。这对于支持客户端和服务器之间的代理…

2020年11月25日 0条评论 59点热度 阅读全文

我为名为Zodiac的配置单元创建了一个UDF,然后添加了JAR文件并在配置单元中创建为临时函数。 我在Hive数据库中有一个名为Student的表,其中有50行 当我在 hive 命令提示符下给出以下命令时, Select Zodiac(Dateofbirth) from Student; 它返回正确的输出。我的问题是,当我发出上述命令时, 它会同时传递50条记录作为参数,还是会针对表的每一行执行上述SELECT语句。 提前致谢。 解决方案如下: 在您的情况下,Hive会精确地调用Zodiac UDF的evalu…

2020年11月25日 0条评论 39点热度 阅读全文

在配置单元中是否存在会改变现有表的serde属性的命令。那么使用com.bizo.hive.serde.csv.CSVSerde这需要改变,以org.apache.hadoop.hive.serde2.OpenCSVSerde创建表,我要找的东西,如:HIVE ALTER SERDE命令 alter table table_X change serde 感谢, ===========解决方案如下: 这将帮助: ALTER TABLE TABLE_NAME SET SERDE org.apache.hadoop.hi…

2020年11月24日 0条评论 61点热度 阅读全文

您能否帮我写一个配置单元查询来查找当月的总天数,星期几和星期数目。配置单元查询查找当月的天数 在此先感谢。 ===========解决方案如下: 有了这个是这样的,你获得当月的天数: SELECT datediff(CONCAT(y, '-', (m + 1), '-', '01'), CONCAT(y, '-', m, '-', '01')) FROM (SELECT month(current_date) as m, year(current_date) as y, day(current_date)) t

2020年11月24日 0条评论 61点热度 阅读全文

蜂巢我在蜂房插入覆盖查询,查询执行的数据转储到垃圾文件夹后。SkipTrash在插入覆盖查询 是否有通过它可以避开任何购股权或财产? ===========解决方案如下: 在蜂巢1.2.0有供DROP操作的清除选项:https://issues.apache.org/jira/browse/HIVE-9118 和 https://issues.apache.org/jira/browse/HIVE-7100 不幸的是,这并不对外部表和insert overwrite语句工作。 但你仍然可以插入覆写前放文件,我知道这…

2020年11月24日 0条评论 73点热度 阅读全文