我试图查询与Hue字段st_date和end_date表的表。这些字段采用字符串类型值,例如'2014-04-04','2009-10-10'等。假设我想查找包含日期的st_date = 2014-04-04' and end_date = '2014-10-10'之间的记录:Hive查询获取字符串类型的两个日期之间的记录 如何编写查询以检索记录WHERE st_date > 2014-04-03 and end_date < 2014-10-09? 更具体地说,我遇到了与此查询中的日期转换相关的问题。…

2020年11月24日 0条评论 27点热度 阅读全文

在Pig中,您可以通过UDFContext将配置从Pig脚本传递到Pig UDF。例如, // in pig script SET my.conf dummy-conf // in UDF java code Configuration conf = UDFContext.getUDFContext().getJobConf(); String myConf = conf.get("my.conf"); 因此,是否存在类似的方法将配置从配置单元脚本传递到配置单元UDF?例如,如果我在 hive 脚本中有 set M…

2020年11月24日 0条评论 28点热度 阅读全文

我们需要增量运行HiveQL并将结果导出到avro fromat中的文件,并且我们需要导出记录。导出配置单元数据增量 以下是我看到的两种方式以及我在使用它们时看到的挑战。 选项1:使用猪和客户装载机: a。编写运行配置单元查询incemental的自定义pig loader。 b。编写一个pig flow并创建一个与配置单元加载器结果的关系。 c。将结果保存在avro文件中。 选项2. SQOOP导出 - 我无法找到为什么以增量方式导出配置单元查询结果。 到目前为止,我认为使用选项1会更好地满足我的要求。 有人能解…

2020年11月23日 0条评论 46点热度 阅读全文

在 hive 中使用它时,我编写了一个 hive UDAF。抛出NullPointException代码和整个任务日志都粘贴在github gist-> https://gist.github.com/hellojinjie/6750572上 知道为什么会抛出NullPointException吗? 还是为什么这样说: stderr logs java.lang.reflect.InvocationTargetException Continuing ... java.lang.IllegalArgument…

2020年11月23日 0条评论 45点热度 阅读全文

我一直在使用像这样的sqoop-import命令: sqoop import --connect jdbc:oracle:thin:@${machine}:${port}/${schema} --username ${user} --password ${pw} --table "${table}" --columns "${cols}" --where "${machine}" --m 1 --fields-terminated-by ';' --target-dir ${dir} --hive-table "$…

2020年11月23日 0条评论 36点热度 阅读全文

我试着通过命令行方式将数据加载到配置单元中。用这种方式可以正常工作。 现在,我想通过Java加载数据。因此,为此目的,我编写了代码,并且可以创建表,数据库,向其中插入值,但是在使用load命令时却无法正常工作。 private static String driverName = "org.apache.hive.jdbc.HiveDriver"; private static String databaseURL = "jdbc:hive2://server_name:10001/test"; private s…

2020年11月22日 0条评论 35点热度 阅读全文

数仓开发经常需要与数据表打交道,那么数仓表开发完成之后就万事大吉了吗?显然不是,还需要思考一下如何分析数据以及如何呈现数据,因为这是发挥数据价值很重要的一个方面。通过数据的分析与可视化呈现可以更加直观的提供数据背后的秘密,从而辅助业务决策,实现真正的数据赋能业务。通过本文你可以了解到: 帕累托分析方法与数据可视化 RFM分析与数据可视化 波士顿矩阵与数据可视化 帕累托分析与数据可视化 基本概念 帕累托(Pareto)分析法,又称ABC分析法,即我们平时所提到的80/20法则。关于帕累托(Pareto)分析法,在不同…

2020年11月21日 0条评论 70点热度 阅读全文

我有两列看起来像这样在一个蜂巢表:如何总结BIGINT到时间戳蜂巢 Seconds_col Timestamp_col 87 2017-09-25 08:06:00.0 59 2017-09-25 08:10:00.0 我试图创建另一个时间戳列是seconds_col + timestamp_col的总和,但我有问题搞清楚如何将类型为BIGInt的seconds_col加入Timestamp_col(它是一个时间戳列)。有没有人有任何关于我如何在蜂巢中实现这一点的建议?我一直在检查日期和时间函数,但到目前为止,我所…

2020年11月21日 0条评论 36点热度 阅读全文

我使用TRANSFORM USING与蜂巢0.8.1,并注意到这是无效的语法:如何选择列并在Hive中执行TRANSFORM? SELECT a, TRANSFORM(b, c) USING 'fake.py' AS d, FROM test_table; 删除“一”,使得此语句的工作。什么是使用这个的正确方法? ===========解决方案如下: 显然这是不可能的。该fake.py有来处理为好,即一个必须做 SELECT TRANSFORM(a, b, c) USING 'fake.py' AS a, d FR…

2020年11月21日 0条评论 39点热度 阅读全文

我正在尝试使用HiveServer2包通过JDBC通过R驱动程序连接到RJDBC。我已经看到了针对各种dbConnect(What arguments can I pass to dbConnect?)将附加参数传递给drivers包装器的广泛解释,但是看来JDBCDriver的情况比其他驱动程序要复杂得多。我可以使用此特定的URL地址HiveServer2连接到url = paste0("jdbc:hive2://", host = 'tools-1.hadoop.srv', ":", port = 10000,…

2020年11月21日 0条评论 46点热度 阅读全文
1345672000