一、引言 我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数. 二、over() 开窗函数 over() 用于指定分析函数工作的数据窗口大小。 假设有如下数据: -- 字段名为name,odate,cost, 导入以下数据 jack,2015-01-01,10 jack,2015-01-01,10 tony,20…

2021年2月28日 0条评论 41点热度 阅读全文

HIVE-SQL经典面试题 需求: 我们有如下的用户访问数据 userId visitDate visitCount u01 2017/1/21 5 u02 2017/1/23 6 u03 2017/1/22 8 u04 2017/1/20 3 u01 2017/1/23 6 u01 2017/2/21 8 U02 2017/1/23 6 U01 2017/2/22 4 要求使用SQL统计出每个用户每个月的累积访问次数以及总的累计次数,如下表所示: 用户id 月份 小计 累积 u01 2017-01 11 11 u…

2021年2月26日 0条评论 18点热度 阅读全文

HIVE-SQL经典面试题 需求: 我们有如下的用户访问数据 userId visitDate visitCount u01 2017/1/21 5 u02 2017/1/23 6 u03 2017/1/22 8 u04 2017/1/20 3 u01 2017/1/23 6 u01 2017/2/21 8 U02 2017/1/23 6 U01 2017/2/22 4 要求使用SQL统计出每个用户每个月的累积访问次数以及总的累计次数,如下表所示: 用户id 月份 小计 累积 u01 2017-01 11 11 u…

2021年2月26日 0条评论 30点热度 阅读全文

1.用一条SQL语句查询出每门课都大于80分的学生姓名 name kecheng fenshu 张三 语文 81 张三 数学 75 李四 语文 76 李四 数学 90 王五 语文 81 王五 数学 100 王五 英语 90 select name from student group by name having min(fenshu) > 80; 2. 学生表 如下: 自动编号 学号 姓名 课程编号 课程名称 分数 1 2005001 张三 0001 数学 69 2 2005002 李四 0001 数学 8…

2021年2月25日 0条评论 25点热度 阅读全文

1.用一条SQL语句查询出每门课都大于80分的学生姓名 name kecheng fenshu 张三 语文 81 张三 数学 75 李四 语文 76 李四 数学 90 王五 语文 81 王五 数学 100 王五 英语 90 select name from student group by name having min(fenshu) > 80; 2. 学生表 如下: 自动编号 学号 姓名 课程编号 课程名称 分数 1 2005001 张三 0001 数学 69 2 2005002 李四 0001 数学 8…

2021年2月25日 0条评论 20点热度 阅读全文

项目场景: 项目任务调度 dwd层事件明细表-->dws层流量聚合表脚本开发 初期使用时一切正常 *脚本测试代码如下:* export HIVE_HOME=/opt/apps/apache-hive-3.1.2-bin/ datestr=`date -d'-1 day' +%Y-%m-%d` if [ $1 ] then datestr=$1 fi ${ HIVE_HOME}/bin/hive -e " INSERT INTO TABLE dws.app_pv_agg_session PARTITION(dt…

2021年2月7日 0条评论 124点热度 阅读全文

Java代码通过JDBC连接Hiveserver2 转载  2016年04月26日 16:33:35 344 用Java代码通过JDBC连接Hiveserver2        我们可以通过CLI、Client、Web UI等Hive提供的用户接口来和Hive通信,但这三种方式最常用的是CLI;Client 是Hive的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出Hive Server所在节点,并且在该节点启动 Hive S…

2021年1月15日 0条评论 81点热度 阅读全文

我想用hiveql UDF来检查字符串是否包含任何特定的字符?HiveQL - String在hiveql UDF中包含等价物吗? 我遇到了下面的一个。 find_in_set(str, strlist) 这是正确的UDF使用? 例如: 下面列包含 “1” 的值。 column1 = "test1String" 我需要编写一个HiveQL其中条件与列1值返回行包含1 ===========解决方案如下: int instr(string str, string substr) 返回SUBSTR的str中第一次出现的…

2020年12月2日 0条评论 79点热度 阅读全文

我对Pentaho很新。 我想要做的是将Hive查询提交给Hadoop集群,并通过创建关联或计算趋势来分析结果。我设法通过Pentaho数据集成提交Hive查询allready。但我不知道如何分析它。我已经看到,许多其他Pentaho组件都是Weka。如何将数据集成与Weka和可视化工具集成?有没有包含所有这些组件的东西?Pentaho组件集成 ===========解决方案如下: Weka与Pentaho套件的集成可在企业版中找到。 如果您使用Pentaho的社区版,并正在寻找的可视化和其他BI工具,我建议Web…

2020年12月2日 0条评论 78点热度 阅读全文

我已经从Hortonworks升级到了最新的Hadoop: Hadoop 2.4.0.2.1.2.1-471 Subversion git@github.com:hortonworks/hadoop.git -r 9e5db004df1a751e93aa89b42956c5325f3a4482 Compiled by jenkins on 2014-05-27T18:57Z Compiled with protoc 2.5.0 From source with checksum 9e788148daa5dd7934…

2020年12月2日 0条评论 81点热度 阅读全文