Idea中hive的 org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde 包导入问题及解决 idea导入hive依赖命令: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.3</version> </depen…

2021年4月19日 0条评论 4点热度 阅读全文

Yarn container 资源分配 与task和Executor关系 问题: spark on yarn 或者 mapreduce on yarn 中 container 的资源 与 maptask/reducetask 或 Executor的资源分配关系? Yarn container 的个数, 内存与CPU控制 一. YARN 机器 – 预留内存 总共保留的内存=系统内存+HBASE内存。 每台机子内存 系统需要的内存 HBase需要的内存 4GB 1GB 1GB 8GB 2GB 1GB 16GB 2GB …

2021年3月26日 0条评论 19点热度 阅读全文

hive架构 1.用户接口 Client CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive) 2.元数据 Metastore 用来存储hive的元数据 使用关系型数据库来存储元数据,默认存储在自带的derby数据库中,推荐使用mysql存储Metastore hive的元数据包括:表名, 表所属数据库, 表的拥有者, 表的列, 表的分区, 表的属性(表是内部表还是外部表), 以及表数据所在的目录 3.Hadoop 使用hdfs进行存储,使用mapreduce…

2021年3月25日 0条评论 9点热度 阅读全文

Hive的基本概念 什么是Hive Hive的优缺点 优点 缺点 Hive的构架原理 Hive机制及与数据库的比较 机制 比较 什么是Hive hive 简介 Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。 Hive 本质:将 HQL 转化成 MapReduce 程序 (1)Hive 处理的数据存储在 HDFS (2)Hive 分析数据底层的实现是 MapReduce …

2021年3月21日 0条评论 11点热度 阅读全文

文章目录 前言 一、Hive基本概念 1.1 什么是Hive 1.2 Hive的优缺点 1.3 Hive架构原理 1.4 Hive运行机制 二、Hive的操作 2.1 Hive表——内部表、外部表、分区表的创建 2.2 将数据文件加载(导入)到Hive表中 三、Hive函数 3.1 系统内置函数: 3.2 系统内置常用函数: 3.3 自定义函数 3.4 自定义UDF函数 3.5分析函数 3.6 转列函数 四、综合案例 4.1 利用HQL去做统计 总结 前言 Hive数据仓库在Hadoop的生态家族中占有及其重要的地…

2021年3月11日 0条评论 12点热度 阅读全文

T-SQL逻辑查询的各个阶段(编号代表顺序) (5)SELECT DISTINCT TOP(<top_specification>) <select_list> (1)FROM <left_table> <join_type> JOIN <right_table> ON <on_predicate> (2)WHERE <where_predicate> (3)GROUP BY <group_by_specification&g…

2021年3月6日 0条评论 19点热度 阅读全文

T-SQL逻辑查询的各个阶段(编号代表顺序) (5)SELECT DISTINCT TOP(<top_specification>) <select_list> (1)FROM <left_table> <join_type> JOIN <right_table> ON <on_predicate> (2)WHERE <where_predicate> (3)GROUP BY <group_by_specification&g…

2021年3月5日 0条评论 19点热度 阅读全文

简述: 官网:http://www.hplsql.org 网上的安装教程很多,本博客就并不包含安装了。本博客主要是用一个完整的例子来展现如何写hplsql,执行和调试。 背景:由于数据量越来越大,mysql存储过程执行缓慢。想要把数据应用大数据存储框架进行存储,并尽量不要进行大量代码重构。所以最后采用hive。 demo: CREATE PROCEDURE P_ETL_F_DFNSBQ_TOP1000(IN v_month1 STRING, OUT v_retcode STRING,OUT v_retinfo ST…

2021年3月3日 0条评论 26点热度 阅读全文

简述: 官网:http://www.hplsql.org 网上的安装教程很多,本博客就并不包含安装了。本博客主要是用一个完整的例子来展现如何写hplsql,执行和调试。 背景:由于数据量越来越大,mysql存储过程执行缓慢。想要把数据应用大数据存储框架进行存储,并尽量不要进行大量代码重构。所以最后采用hive。 demo: CREATE PROCEDURE P_ETL_F_DFNSBQ_TOP1000(IN v_month1 STRING, OUT v_retcode STRING,OUT v_retinfo ST…

2021年3月3日 0条评论 17点热度 阅读全文

一、引言 我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数. 二、over() 开窗函数 over() 用于指定分析函数工作的数据窗口大小。 假设有如下数据: -- 字段名为name,odate,cost, 导入以下数据 jack,2015-01-01,10 jack,2015-01-01,10 tony,20…

2021年2月28日 0条评论 14点热度 阅读全文