我想用hiveql UDF来检查字符串是否包含任何特定的字符?HiveQL - String在hiveql UDF中包含等价物吗? 我遇到了下面的一个。 find_in_set(str, strlist) 这是正确的UDF使用? 例如: 下面列包含 “1” 的值。 column1 = "test1String" 我需要编写一个HiveQL其中条件与列1值返回行包含1 ===========解决方案如下: int instr(string str, string substr) 返回SUBSTR的str中第一次出现的…

2020年12月2日 0条评论 62点热度 阅读全文

我对Pentaho很新。 我想要做的是将Hive查询提交给Hadoop集群,并通过创建关联或计算趋势来分析结果。我设法通过Pentaho数据集成提交Hive查询allready。但我不知道如何分析它。我已经看到,许多其他Pentaho组件都是Weka。如何将数据集成与Weka和可视化工具集成?有没有包含所有这些组件的东西?Pentaho组件集成 ===========解决方案如下: Weka与Pentaho套件的集成可在企业版中找到。 如果您使用Pentaho的社区版,并正在寻找的可视化和其他BI工具,我建议Web…

2020年12月2日 0条评论 59点热度 阅读全文

我已经从Hortonworks升级到了最新的Hadoop: Hadoop 2.4.0.2.1.2.1-471 Subversion git@github.com:hortonworks/hadoop.git -r 9e5db004df1a751e93aa89b42956c5325f3a4482 Compiled by jenkins on 2014-05-27T18:57Z Compiled with protoc 2.5.0 From source with checksum 9e788148daa5dd7934…

2020年12月2日 0条评论 62点热度 阅读全文

我运行下面的查询:得到错误而执行蜂巢合并 MERGE INTO college_for_mrg AS T USING college AS S ON clg_name = clg_name WHEN MATCHED AND clg_id > 5 THEN UPDATE SET clg_loc = "ind" WHEN NOT MATCHED THEN INSERT VALUES(2,"sd","dsd","dsfs"); 两个表支持ACID属性。 我也试过表名为database_name.table_name…

2020年12月1日 0条评论 66点热度 阅读全文

我正在使用CDH 5.11.1版本。如果我直接去蜂巢外壳并键入HiveHbase集成如何在Hive shell中添加Jar文件 hive> add jar /path/protobuf-java-2.4.1 我得到的查询返回: 非零代码:1,原因:路径不存在。 在Hive shell中安装所有jar文件的正确过程是什么? 如何识别与CDH版本兼容的jar扩展名? ===========解决方案如下: 你的罐子在哪里?如果在HDFS中,这应该起作用。 hive> add jar hdfs:///path/…

2020年11月30日 0条评论 66点热度 阅读全文

配置单元 - 从现有表创建外部表,如果无法完成...是否有解决方法。配置单元 - 从现有表创建外部表 我使用的蜂巢版本是:Hive 1.2.1000.2.4.2.0-258 ,我想跑的东西如下查询... create external table table_1 stored as orc location'wasb://[email protected]/output/table_1/' tblproperties ("orc.compress"="SNAPPY") as select * from t…

2020年11月30日 0条评论 53点热度 阅读全文

如果我们有一个由col,col2,col3分区的HIVE表,那么在对此表执行SELECT时,如果我想在WHERE子句中指定这些列,是否必须显示按照相同的顺序来利用分区?我的意思是,逻辑上是,但HIVE编译器不理解他们的实际顺序,不管我指定他们的顺序如何。它应该能够在内部应用正确的顺序,因为HIVE已经知道正确的顺序是col2,col2,col3它以这种方式使用它。 HIVE在我们定义的查询上做了很多优化,所以在这个我猜它应该做同样的事情。WHERE子句中分区列的顺序是否重要 ===========解决方案如下: 不…

2020年11月30日 0条评论 60点热度 阅读全文

我在mysql中有一张桌子。我想在 hive 中复制它。我正在使用的编程语言是java。我必须在webapp中执行此操作。因此,我通过JDBC成功连接到两个数据库。现在的问题是如何导出-导入表? 手动加载-将MySQL表导出为csv数据并将该csv数据导入到Hive表。对于我来说,现在看起来可行。但不是理想的解决方案。 Sqoop:不能找到它的可行实现,因此我可以在webapp中执行。 钨极复制器:我发现并了解了它。看起来挺好的。但是仍然通过webapp搜索实现。 解决方案如下: Sqoop带有Java api,可…

2020年11月29日 0条评论 62点热度 阅读全文

我正在运行Hadoop 2.8.1和Hive 2.3.0我正试图从在Hive中创建的表中读取值目前的异常(exception)是 java.lang.ClassNotFoundException: org.apache.hadoop.tracing.SpanReceiverHost at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424)…

2020年11月29日 0条评论 56点热度 阅读全文

我有一个Hive表,其中为用户ID我有一个ts列,这是一个时间序列,存储为数组。我想把时间序列保持为最近的窗口。 (a)如何在由ID连接的另一个表中的每个列的末尾附加一个新的数字? (b)如何删除前导号码?如何追加到Hive数组? ===========解决方案如下: Hive中的数据通常存储在HDFS中。 HDFS具有有限的附加功能。如果数据的不断修改是分析系统的核心,那么您可能应该考虑使用HBase或Cassandra等替代方案。但是,如果数据更新只是您工作流程的一小部分,我会鼓励您继续使用Hive(为了使用S…

2020年11月28日 0条评论 63点热度 阅读全文