目录 1.首先利用python中的datetime模块获取到我们想要的日期 2.接着将获取到的日期加载到hdfs中 1)建立存放日期的预处理表 2)将数据导入预处理表中 3.通过sql处理获得我们想要的维表 1)新建时间维表 2)sql处理并写入时间维表 3)检验数据结果 1.首先利用python中的datetime模块获取到我们想要的日期 import datetime # 现在的时间 now=datetime.datetime.strptime('2019-01-01','%Y-%m-%d') # 递增的时间 …

2021年9月30日 0条评论 50点热度 阅读全文

Hive框架的搭建和使用_第三节_hive建表_分区_函数 hive 的相关 操作 分区 建表 函数 系列化 1. hive 的 内部外部表 2. hive下的 分区建表 2.1单分区 内部表 2.2双分区 内部表 2.3 外部表 双分区 2.4 分区操作 2.5 建表 修改表 2.5.1 创建表 2.5.2 重命名表 2.5.3 增加列 替换列 2.5.4修改表的属性 2.6 3. beeline 和 hiveserver2 有关 4. 自定义 函数 (两种饭是钢后) hive 的相关 操作 分区 建表 函数 系…

2021年9月20日 0条评论 46点热度 阅读全文

数据仓库介绍:什么是数据仓库、数据仓库功能、数据仓库价值、数仓领域职业发展方向规划 大家好,本次分享的主题是数据仓库,通过本次分享的目的,一个是帮助到初次接触大数据行业、或者想要了解大数据体系的伙伴,能够对数据仓库的概念有一个清晰的认知。再一个是在了解数据仓库的功能跟作用的基础上,深度剖析数据仓库的价值,方便后续大家在系统学习大数据,或者从事大数据相关岗位时,应该要注重哪些方面的总结提升。 首先,我们先看一下数据仓库的概念,何为数据仓库呢,我们先把数据跟仓库拆开来看,那数据的含义简单理解就是针对一类实体信息的描述,…

2021年8月8日 0条评论 48点热度 阅读全文

 一、数仓建模的目标 访问性能:能够快速查询所需的数据,减少数据I/O。 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。 使用效率:改善用户应用体验,提高使用数据的效率。 数据质量:改善数据统计口径的不一致性,减少数据计算错误的可能性,提供高质量的、一致的数据访问平台。 所以,大数据的数仓建模需要通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。 二、关系模式范式 关系型数据库设计时,遵照一定的规范要求,目的在于降低数据的…

2021年4月22日 0条评论 45点热度 阅读全文

Idea中hive的 org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde 包导入问题及解决 idea导入hive依赖命令: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.3</version> </depen…

2021年4月19日 0条评论 97点热度 阅读全文

转载:http://itindex.net/detail/47472-%E5%AD%A6%E4%B9%A0-programing-hive Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,SEQUENCEFILE等。           在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件, 可以将文件压缩40%或…

2021年2月21日 0条评论 37点热度 阅读全文

数据库 创建一个数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)]; hive (default)> create database ylj_db; OK Time taken: 1.036 seconds 数据库在HDFS上的默认存储路径…

2021年1月28日 0条评论 31点热度 阅读全文

常见的有 范式建模法、维度建模法、实体建模法等,每种方法从本质上将是从不同的角度看待业务中的问题,不管是从技术层面还是从业务层面,都代表了哲学上的一种世界观。 1 范式建模法(Third Normal Form,3NF) 范式建模法其实是我们在构建数据模型常用的一个方法,该方法的主要由 Inmon 所提倡,主要解决关系型数据库得数据存储,利用的一种技术层面上的方法。目前,我们在关系型数据库中的建模方法,大部分采用的是三范式建模法。 范式 是符合某一种级别的关系模式的集合。构造数据库必须遵循一定的规则,而在关系型数据…

2021年1月23日 0条评论 46点热度 阅读全文

数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表的垂直划分来减少目标表的宽度,常用的是水平分区. 1. hive建立分区表 create external table if not exists tablename( a string, b string) partitioned by (year string,month string) row format delimite…

2021年1月12日 0条评论 44点热度 阅读全文

我想用hiveql UDF来检查字符串是否包含任何特定的字符?HiveQL - String在hiveql UDF中包含等价物吗? 我遇到了下面的一个。 find_in_set(str, strlist) 这是正确的UDF使用? 例如: 下面列包含 “1” 的值。 column1 = "test1String" 我需要编写一个HiveQL其中条件与列1值返回行包含1 ===========解决方案如下: int instr(string str, string substr) 返回SUBSTR的str中第一次出现的…

2020年12月2日 0条评论 152点热度 阅读全文