我正在处理一个有一些表的数据库(2.5 GB)只有40行到一些有900万行的数据。 当我正在做大型表的任何查询时,需要更多时间。 我要上表具有90行不仅导致更少的时间配置单元性能增加 小查询 - > hive> select count(*) from cidade; Time taken: 50.172 seconds HDFS-site.xml中 <configuration> <property> <name>dfs.replication</name&g…

2020年11月19日 0条评论 14点热度 阅读全文

尝试运行一个简单的mapreduce代码,该代码从RCFile中读取数据。 我正在使用hadoop命令运行代码: hadoop jar MRJobRCFile.jar MRJobRCFile <inputRCfile> <outputfile> 尽管将hive-exec jar添加到hadoop类路径中,但出现此错误。 export HADOOP_CLASSPATH=/opt/cmr/hadoopinstall/hive-0.10.0-cdh4.4.0/lib/hive-exec-0.10.…

2020年11月19日 0条评论 13点热度 阅读全文

我有一个表结构如下。如何选择和组织日期从水平到垂直蜂巢 Materialno | Rate | Month s1 | 20 | jan s1 | 30 | feb s1 | 40 | mar s2 | 20 | jan s2 | 30 | feb 我需要查询和转换表结构到下面的格式 Materialno | jan_rate |feb_rate |mar_rate s1 | 20 | 30 | 40 s2 | 20 | 30 | 这可能在蜂巢? ===========解决方案如下: 是: select Materi…

2020年11月18日 0条评论 14点热度 阅读全文

减法查询似乎不适用于HIVE。在HIVE中减法查询 尝试前: select x from abc minus select x from bcd ; 我这样做不对或减去查询没有为HIVE定义?如果是这样,是否有任何其他方式来得到这个结果? ===========解决方案如下: HQL不支持MINUS运营商。看到这个相关的,虽然有点老,资源: http://www.quora.com/Apache-Hive/What-are-the-biggest-feature-gaps-between-HiveQL-and-SQ…

2020年11月17日 0条评论 19点热度 阅读全文

这个问题与Hive JDBC getConnection does not return类似但不相同。但这是关于远程连接的。 Metastore也存在于启动hiveserver2的目录中。 我们在远程计算机上有一个正在运行的mapr集群。我想使用Java JDBC在此群集上连接到Hive。 因此,我们启动了配置单元服务器: /opt/mapr/hive/hive-0.11/bin/hiveserver2 服务器进程的输出不包含任何错误消息。根据netstat报告,它在端口10000上侦听。 我尝试按照https:/…

2020年11月16日 0条评论 25点热度 阅读全文

我有一个ID列表和一个配置单元表。我想在ID列表中选择所有带有ID的记录。目前,我通过迭代id列表来选择记录。但是,它非常缓慢。我想知道Hive是否支持批处理,它可以用一批ID选择记录?Can Hive能够实现批量选择吗? ===========解决方案如下: 你可以构造一个查询,并使用in: select t.* from t where id in (id1, id2, . . .); 或者,IDS加载到一个表,并使用连接: select t.* from t join ids on t.id = ids.id…

2020年11月15日 0条评论 13点热度 阅读全文

我们使用Hive(v.1.2.1)在accumulo(v。1.7.1)表上使用“sql like”进行读取。Hive对Accumulo推荐的设置 是否有任何特殊设置,我们可以在配置单元或某处获得我们的性能或稳定性? 如果我们以这种方式使用配置单元,有没有任何一点例如尝试一些配置单元索引或诸如“hive.auto.convert.join”之类的设置,或者它的工作方式不同并且在这些情况下不会影响? 谢谢! ===========解决方案如下: 强制性:我写了(大部分)AccumuloStorageHandler,但我…

2020年11月14日 0条评论 12点热度 阅读全文

我通过端口10000从我的SQL工具(即Squirrel SQL,Oracle SQL Developer)到HiveServer2(在远程服务器上运行)建立了JDBC连接。 我能够成功运行一些查询。然后,我在1-2分钟内做了其他事情(不在SQL工具中),然后返回我的SQL工具并尝试运行查询,但出现此错误:org.apache.thrift.transport.TTransportException: java.net.SocketException: Software caused connection abor…

2020年11月14日 0条评论 18点热度 阅读全文

hive3.1.2安装 1.下载 wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz 2.解压 tar -zxvf apache-hive-3.1.2-bin.tar.gz 3.重命名 mv apache-hive-3.1.2-bin hive 配置hive 1.编辑hive-site.xml #新建一个hive-site.xml文件 vim /usr/share/hive/con…

2020年11月13日 0条评论 183点热度 阅读全文

我有一个int列main_region和一个int数组列regions。如何在没有UDF的情况下将int值附加到Hive中的int数组? 有没有办法做到像 SELECT append(main_region, regions) ...没有UDF? ===========解决方案如下: 对于数组操作,Hive在UDF方面非常有限。 如果它是一个字符串数组,您可以使用concat_ws和split。 对于一般情况下,我认为explode,可用于collect_list,但它会很低效。 最好的办法是实施一个单线UDF .…

2020年11月13日 0条评论 15点热度 阅读全文
1345672000