我对这个配置单元存储数据的位置有点困惑。Hive数据存储在哪里? 它将数据存储在HDFS中还是存储在RDBMS中? Hive Meta商店是否使用RDBMS来存储配置单元表元数据? 在此先感谢! ===========解决方案如下: Hive数据存储在Hadoop支持的文件系统之一:S3或HDFS。 Hive元数据存储在像MySQL这样的RDBMS中。 Hive表数据在S3或HDFS中的位置可以为托管表和HDFS指定。 托管表和外部表之间的差异是DROP TABLE语句将删除表并删除托管表的表数据。对于外部表DRO…

2020年11月24日 0条评论 64点热度 阅读全文

当我执行的蜂巢,我得到HIVE输入大小的单位 从输入数据大小的估计:1000。 但是,我不知道它的单位。 是B,KB还是GB? ===========解决方案如下: 你要来回看下面property hive.exec.reducers.bytes.per.reducer您的蜂巢结构。顾名思义,它是字节。

2020年11月24日 0条评论 57点热度 阅读全文

我试图查询与Hue字段st_date和end_date表的表。这些字段采用字符串类型值,例如'2014-04-04','2009-10-10'等。假设我想查找包含日期的st_date = 2014-04-04' and end_date = '2014-10-10'之间的记录:Hive查询获取字符串类型的两个日期之间的记录 如何编写查询以检索记录WHERE st_date > 2014-04-03 and end_date < 2014-10-09? 更具体地说,我遇到了与此查询中的日期转换相关的问题。…

2020年11月24日 0条评论 51点热度 阅读全文

在Pig中,您可以通过UDFContext将配置从Pig脚本传递到Pig UDF。例如, // in pig script SET my.conf dummy-conf // in UDF java code Configuration conf = UDFContext.getUDFContext().getJobConf(); String myConf = conf.get("my.conf"); 因此,是否存在类似的方法将配置从配置单元脚本传递到配置单元UDF?例如,如果我在 hive 脚本中有 set M…

2020年11月24日 0条评论 59点热度 阅读全文

我们需要增量运行HiveQL并将结果导出到avro fromat中的文件,并且我们需要导出记录。导出配置单元数据增量 以下是我看到的两种方式以及我在使用它们时看到的挑战。 选项1:使用猪和客户装载机: a。编写运行配置单元查询incemental的自定义pig loader。 b。编写一个pig flow并创建一个与配置单元加载器结果的关系。 c。将结果保存在avro文件中。 选项2. SQOOP导出 - 我无法找到为什么以增量方式导出配置单元查询结果。 到目前为止,我认为使用选项1会更好地满足我的要求。 有人能解…

2020年11月23日 0条评论 76点热度 阅读全文

在 hive 中使用它时,我编写了一个 hive UDAF。抛出NullPointException代码和整个任务日志都粘贴在github gist-> https://gist.github.com/hellojinjie/6750572上 知道为什么会抛出NullPointException吗? 还是为什么这样说: stderr logs java.lang.reflect.InvocationTargetException Continuing ... java.lang.IllegalArgument…

2020年11月23日 0条评论 78点热度 阅读全文

我一直在使用像这样的sqoop-import命令: sqoop import --connect jdbc:oracle:thin:@${machine}:${port}/${schema} --username ${user} --password ${pw} --table "${table}" --columns "${cols}" --where "${machine}" --m 1 --fields-terminated-by ';' --target-dir ${dir} --hive-table "$…

2020年11月23日 0条评论 67点热度 阅读全文

我试着通过命令行方式将数据加载到配置单元中。用这种方式可以正常工作。 现在,我想通过Java加载数据。因此,为此目的,我编写了代码,并且可以创建表,数据库,向其中插入值,但是在使用load命令时却无法正常工作。 private static String driverName = "org.apache.hive.jdbc.HiveDriver"; private static String databaseURL = "jdbc:hive2://server_name:10001/test"; private s…

2020年11月22日 0条评论 61点热度 阅读全文

数仓开发经常需要与数据表打交道,那么数仓表开发完成之后就万事大吉了吗?显然不是,还需要思考一下如何分析数据以及如何呈现数据,因为这是发挥数据价值很重要的一个方面。通过数据的分析与可视化呈现可以更加直观的提供数据背后的秘密,从而辅助业务决策,实现真正的数据赋能业务。通过本文你可以了解到: 帕累托分析方法与数据可视化 RFM分析与数据可视化 波士顿矩阵与数据可视化 帕累托分析与数据可视化 基本概念 帕累托(Pareto)分析法,又称ABC分析法,即我们平时所提到的80/20法则。关于帕累托(Pareto)分析法,在不同…

2020年11月21日 0条评论 106点热度 阅读全文

我有两列看起来像这样在一个蜂巢表:如何总结BIGINT到时间戳蜂巢 Seconds_col Timestamp_col 87 2017-09-25 08:06:00.0 59 2017-09-25 08:10:00.0 我试图创建另一个时间戳列是seconds_col + timestamp_col的总和,但我有问题搞清楚如何将类型为BIGInt的seconds_col加入Timestamp_col(它是一个时间戳列)。有没有人有任何关于我如何在蜂巢中实现这一点的建议?我一直在检查日期和时间函数,但到目前为止,我所…

2020年11月21日 0条评论 65点热度 阅读全文