我运行下面的查询:得到错误而执行蜂巢合并 MERGE INTO college_for_mrg AS T USING college AS S ON clg_name = clg_name WHEN MATCHED AND clg_id > 5 THEN UPDATE SET clg_loc = "ind" WHEN NOT MATCHED THEN INSERT VALUES(2,"sd","dsd","dsfs"); 两个表支持ACID属性。 我也试过表名为database_name.table_name…

2020年12月1日 0条评论 82点热度 阅读全文

我正在使用CDH 5.11.1版本。如果我直接去蜂巢外壳并键入HiveHbase集成如何在Hive shell中添加Jar文件 hive> add jar /path/protobuf-java-2.4.1 我得到的查询返回: 非零代码:1,原因:路径不存在。 在Hive shell中安装所有jar文件的正确过程是什么? 如何识别与CDH版本兼容的jar扩展名? ===========解决方案如下: 你的罐子在哪里?如果在HDFS中,这应该起作用。 hive> add jar hdfs:///path/…

2020年11月30日 0条评论 85点热度 阅读全文

配置单元 - 从现有表创建外部表,如果无法完成...是否有解决方法。配置单元 - 从现有表创建外部表 我使用的蜂巢版本是:Hive 1.2.1000.2.4.2.0-258 ,我想跑的东西如下查询... create external table table_1 stored as orc location'wasb://[email protected]/output/table_1/' tblproperties ("orc.compress"="SNAPPY") as select * from t…

2020年11月30日 0条评论 75点热度 阅读全文

如果我们有一个由col,col2,col3分区的HIVE表,那么在对此表执行SELECT时,如果我想在WHERE子句中指定这些列,是否必须显示按照相同的顺序来利用分区?我的意思是,逻辑上是,但HIVE编译器不理解他们的实际顺序,不管我指定他们的顺序如何。它应该能够在内部应用正确的顺序,因为HIVE已经知道正确的顺序是col2,col2,col3它以这种方式使用它。 HIVE在我们定义的查询上做了很多优化,所以在这个我猜它应该做同样的事情。WHERE子句中分区列的顺序是否重要 ===========解决方案如下: 不…

2020年11月30日 0条评论 75点热度 阅读全文

我在mysql中有一张桌子。我想在 hive 中复制它。我正在使用的编程语言是java。我必须在webapp中执行此操作。因此,我通过JDBC成功连接到两个数据库。现在的问题是如何导出-导入表? 手动加载-将MySQL表导出为csv数据并将该csv数据导入到Hive表。对于我来说,现在看起来可行。但不是理想的解决方案。 Sqoop:不能找到它的可行实现,因此我可以在webapp中执行。 钨极复制器:我发现并了解了它。看起来挺好的。但是仍然通过webapp搜索实现。 解决方案如下: Sqoop带有Java api,可…

2020年11月29日 0条评论 81点热度 阅读全文

我正在运行Hadoop 2.8.1和Hive 2.3.0我正试图从在Hive中创建的表中读取值目前的异常(exception)是 java.lang.ClassNotFoundException: org.apache.hadoop.tracing.SpanReceiverHost at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424)…

2020年11月29日 0条评论 74点热度 阅读全文

我有一个Hive表,其中为用户ID我有一个ts列,这是一个时间序列,存储为数组。我想把时间序列保持为最近的窗口。 (a)如何在由ID连接的另一个表中的每个列的末尾附加一个新的数字? (b)如何删除前导号码?如何追加到Hive数组? ===========解决方案如下: Hive中的数据通常存储在HDFS中。 HDFS具有有限的附加功能。如果数据的不断修改是分析系统的核心,那么您可能应该考虑使用HBase或Cassandra等替代方案。但是,如果数据更新只是您工作流程的一小部分,我会鼓励您继续使用Hive(为了使用S…

2020年11月28日 0条评论 80点热度 阅读全文

我有一个HiveQL查询,看起来像:数据类型转换错误 SELECT ID, CASE WHEN col_a = 0 THEN 0 ELSE (col_b/col_a) END AS math_is_fun FROM (/* derived query*/) AS x ; 当我在蜂巢执行此,我最近开始得到错误FAILED: Error in semantic analysis: Line X:Y ArgumentTypeMismatch 'col_a': The expression after ELSE shoul…

2020年11月28日 0条评论 44点热度 阅读全文

我将一个分区列添加到Spark Dataframe。新列包含年份的月份和日期。我的数据框中有一个时间戳列。 DataFrame dfPartition = df.withColumn("year", df.col("date").substr(0, 4)); dfPartition = dfPartition.withColumn("month", dfPartition.col("date").substr(6, 2)); dfPartition = dfPartition.withColumn("day", d…

2020年11月28日 0条评论 43点热度 阅读全文

以下是我的示例数据。我需要通过给定的viewid与可用的productid合并。是否有可能使用coalesce?配置单元:通过单列合并 date viewid productid 5/1/17 100e9b59e70deb1493677845193 null 5/1/17 100e9b59e70deb1493677845193 12345 5/1/17 100e9b59e70deb1493677845193 null 结果: date viewid productid 5/1/17 100e9b59e70deb14…

2020年11月27日 0条评论 34点热度 阅读全文