SerDe SerDe 是 Serialize/Deserilize 的简称,目的是用于序列化和反序列化。序列化的格式包括: 分隔符(tab、逗号、CTRL-A) Thrift 协议 反序列化(内存内): Java Integer/String/ArrayList/HashMap Hadoop Writable 类 用户自定义类 查看表结构方法有两种: desc tableName desc formatted tableName 修改表中的序列化分隔符: hive> alter table store se…

2021年10月27日 0条评论 40点热度 阅读全文

运行流程 当你在MapReduce程序中调用了Job实例的Submit()或者waitForCompletion()方法,该程序将会被提交到Yarn中运行 其中的过程大部分被Hadoop隐藏起来了,对开发者来说是透明的 程序运行的过程涉及到个概念: 1.Client:提交程序的客户端 2.ResourceManager:集群中的资源分配管理 3.NodeManager:启动和监管各自节点上的计算资源 4.ApplicationMaster:每个程序对应一个AM,负责程序的任务调度,本身也是运行在NM的Contain…

2021年9月20日 0条评论 62点热度 阅读全文

马上要开始第二阶段优化了,赶快把第一阶段优化内容及结果贴下。 • 背景 – 繁忙时段 98%~100% 的 handler 线程被 BLOCK – RPC 请求堆积 • Profiling 工具 (定位瓶颈) – jstack 线上环境使用 – yjp 测试环境使用 优化一:避免频繁调用加锁方法 • 500 次连续 jstack 结果分析 – jt.getTasksToKill:15631.2% --  tip.shouldClose  155 99.3%    &…

2021年9月7日 0条评论 56点热度 阅读全文

一、Hadoop几种版本之间的区别: 目前,hadoop社区有几个不同的分支版本,各个版本之前又相互联系。以下是几个主要版本的一些介绍。 (1)、0.20.2是一个stable的版本,他有几个子版本,0.20.203 具有security特性,但是不具有append和raid功能。 0.20-append具有append功能没有security。0.20.205是0.20-append和0.20.203merge,具有append和security,没有raid,symlink等。 (2)、1.0及之后的版本都是从…

2021年8月23日 0条评论 66点热度 阅读全文

文章目录 一. 实验目的 二. 实验内容 三. 实验步骤及结果分析  1. 基于ubuntukylin14.04(5)版本,安装eclipse  1.1 下载并解压安装  1.2 创建eclipse桌面图标  2. 基于ubuntukylin14.04(5.5)版本,完成shell HDFS练习  2.1 目录相关操作  2.2 文件相关操作  3. 基于ubuntukylin14.04(5.5)版本,通过Eclipse完成HDFS程序开发  3.1 创建mcf14HDFSExample项目  3.2 导入项目所需…

2021年6月14日 0条评论 49点热度 阅读全文

一、前言 近年来,随着信息技术的快速发展和互联网应用的普及,越来越多的组织大量收集、使用个人信息。给人们生活带来便利的同时,也出现了对个人信息的 非法收集、滥用、泄露 等问题,个人信息安全面临严重威胁。 为了保护公民个人隐私数据不被肆意收集、滥用、泄漏甚至非法售卖,各国政府纷纷出台相关法律政策文件,对公民个人隐私数据做出法律上的保护与行为规范。 2018年5月25日起,欧盟正式施行新版数据安全保护条例《General Data Protection Regulation》,即《一般数据保护条例》,人们认为史上最严的…

2021年6月1日 0条评论 44点热度 阅读全文

Hadoop是一种分析和处理大数据的平台。HDFS是Hadoop分布式文件系统的简称。HDFS是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。 随着数据量越来越大,一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是管理和维护极不方便,于是迫切需要一种系统来管理多台机器上的文件,这就是分布式文件系统。HDFS具有高容错性,数据自动保存多个副本,通过增加副本的方式,提高容错性,若某一个副本丢失后,它可以自动分配到其它节点作为新的副本。能够处理的数据规模可以达到GB,TB,甚至PB级…

2021年5月6日 0条评论 51点热度 阅读全文

原理内容来之https://developer.aliyun.com/article/25491 Sentry简介: Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBase。 安全授权:Sentry可以控制数据访问,并对已通过验证的…

2021年4月25日 0条评论 91点热度 阅读全文

刚刚使用Cloudera Manager安装了HDFS。我可以访问ameNode WebUI,所有节点都活着。但我得到各种各样的HDFS:金丝雀测试失败 金丝雀测试无法在/tmp/.cloudera_health_monitoring_canary_files目录中创建文件。 我想: 1)hadoop dfsadmin -safemode get:可以确认的NameNode是不是在安全模式。因此写操作不应有任何限制。 2)hadoop fs -ls /:它显示/tmp目录具有完全权限777,这意味着任何人都应该将数…

2021年4月13日 0条评论 82点热度 阅读全文

                            hive入门学习:explain执行计划的理解                    我们都知道,hive在执行的时候会把所对应的SQL语句都会转换成mapreduce代码执行,但是具体的MR执行信息我们怎样才能看出来呢?这…

2021年4月7日 0条评论 44点热度 阅读全文