目录 1.首先利用python中的datetime模块获取到我们想要的日期 2.接着将获取到的日期加载到hdfs中 1)建立存放日期的预处理表 2)将数据导入预处理表中 3.通过sql处理获得我们想要的维表 1)新建时间维表 2)sql处理并写入时间维表 3)检验数据结果 1.首先利用python中的datetime模块获取到我们想要的日期 import datetime # 现在的时间 now=datetime.datetime.strptime('2019-01-01','%Y-%m-%d') # 递增的时间 …

2021年9月30日 0条评论 45点热度 阅读全文

Hive框架的搭建和使用_第三节_hive建表_分区_函数 hive 的相关 操作 分区 建表 函数 系列化 1. hive 的 内部外部表 2. hive下的 分区建表 2.1单分区 内部表 2.2双分区 内部表 2.3 外部表 双分区 2.4 分区操作 2.5 建表 修改表 2.5.1 创建表 2.5.2 重命名表 2.5.3 增加列 替换列 2.5.4修改表的属性 2.6 3. beeline 和 hiveserver2 有关 4. 自定义 函数 (两种饭是钢后) hive 的相关 操作 分区 建表 函数 系…

2021年9月20日 0条评论 40点热度 阅读全文

数据仓库介绍:什么是数据仓库、数据仓库功能、数据仓库价值、数仓领域职业发展方向规划 大家好,本次分享的主题是数据仓库,通过本次分享的目的,一个是帮助到初次接触大数据行业、或者想要了解大数据体系的伙伴,能够对数据仓库的概念有一个清晰的认知。再一个是在了解数据仓库的功能跟作用的基础上,深度剖析数据仓库的价值,方便后续大家在系统学习大数据,或者从事大数据相关岗位时,应该要注重哪些方面的总结提升。 首先,我们先看一下数据仓库的概念,何为数据仓库呢,我们先把数据跟仓库拆开来看,那数据的含义简单理解就是针对一类实体信息的描述,…

2021年8月8日 0条评论 42点热度 阅读全文

 一、数仓建模的目标 访问性能:能够快速查询所需的数据,减少数据I/O。 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。 使用效率:改善用户应用体验,提高使用数据的效率。 数据质量:改善数据统计口径的不一致性,减少数据计算错误的可能性,提供高质量的、一致的数据访问平台。 所以,大数据的数仓建模需要通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。 二、关系模式范式 关系型数据库设计时,遵照一定的规范要求,目的在于降低数据的…

2021年4月22日 0条评论 40点热度 阅读全文

Idea中hive的 org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde 包导入问题及解决 idea导入hive依赖命令: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.3</version> </depen…

2021年4月19日 0条评论 91点热度 阅读全文

Yarn container 资源分配 与task和Executor关系 问题: spark on yarn 或者 mapreduce on yarn 中 container 的资源 与 maptask/reducetask 或 Executor的资源分配关系? Yarn container 的个数, 内存与CPU控制 一. YARN 机器 – 预留内存 总共保留的内存=系统内存+HBASE内存。 每台机子内存 系统需要的内存 HBase需要的内存 4GB 1GB 1GB 8GB 2GB 1GB 16GB 2GB …

2021年3月26日 0条评论 71点热度 阅读全文

hive架构 1.用户接口 Client CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive) 2.元数据 Metastore 用来存储hive的元数据 使用关系型数据库来存储元数据,默认存储在自带的derby数据库中,推荐使用mysql存储Metastore hive的元数据包括:表名, 表所属数据库, 表的拥有者, 表的列, 表的分区, 表的属性(表是内部表还是外部表), 以及表数据所在的目录 3.Hadoop 使用hdfs进行存储,使用mapreduce…

2021年3月25日 0条评论 60点热度 阅读全文

Hive的基本概念 什么是Hive Hive的优缺点 优点 缺点 Hive的构架原理 Hive机制及与数据库的比较 机制 比较 什么是Hive hive 简介 Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。 Hive 本质:将 HQL 转化成 MapReduce 程序 (1)Hive 处理的数据存储在 HDFS (2)Hive 分析数据底层的实现是 MapReduce …

2021年3月21日 0条评论 65点热度 阅读全文

文章目录 前言 一、Hive基本概念 1.1 什么是Hive 1.2 Hive的优缺点 1.3 Hive架构原理 1.4 Hive运行机制 二、Hive的操作 2.1 Hive表——内部表、外部表、分区表的创建 2.2 将数据文件加载(导入)到Hive表中 三、Hive函数 3.1 系统内置函数: 3.2 系统内置常用函数: 3.3 自定义函数 3.4 自定义UDF函数 3.5分析函数 3.6 转列函数 四、综合案例 4.1 利用HQL去做统计 总结 前言 Hive数据仓库在Hadoop的生态家族中占有及其重要的地…

2021年3月11日 0条评论 62点热度 阅读全文

T-SQL逻辑查询的各个阶段(编号代表顺序) (5)SELECT DISTINCT TOP(<top_specification>) <select_list> (1)FROM <left_table> <join_type> JOIN <right_table> ON <on_predicate> (2)WHERE <where_predicate> (3)GROUP BY <group_by_specification&g…

2021年3月6日 0条评论 76点热度 阅读全文