原理内容来之https://developer.aliyun.com/article/25491 Sentry简介: Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBase。 安全授权:Sentry可以控制数据访问,并对已通过验证的…

2021年4月25日 0条评论 5点热度 阅读全文

刚刚使用Cloudera Manager安装了HDFS。我可以访问ameNode WebUI,所有节点都活着。但我得到各种各样的HDFS:金丝雀测试失败 金丝雀测试无法在/tmp/.cloudera_health_monitoring_canary_files目录中创建文件。 我想: 1)hadoop dfsadmin -safemode get:可以确认的NameNode是不是在安全模式。因此写操作不应有任何限制。 2)hadoop fs -ls /:它显示/tmp目录具有完全权限777,这意味着任何人都应该将数…

2021年4月13日 0条评论 4点热度 阅读全文

HDFS简介 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS为分布式文件管理系统中的一种。 HDFS是hadoop实现的一个分布式文件系统(Hadoop Distributed File System),用于存储文件,通过目录树来定位文件;由多个服务器联合起来,集群中的服务器各有各的功能,以便于采取分而治之的方式对海量数据进行运算分析; HDFS是设计成适应一次写入,多次读出…

2021年3月23日 0条评论 8点热度 阅读全文

大数据辅助工具--Flume 数据采集组件 1、数据收集工具系统产生背景 2、专业的数据收集工具 2.1、Chukwa 2.2、Scribe 2.3、Fluentd 2.4、Logstash 2.5、Apache Flume 3、Flume 概述 3.1、Flume 概念 3.2、Flume 版本介绍 4、Flume 体系结构/核心组件 4.1、概述 4.2、Flume 核心组件 4.2.1、Event 4.2.2、Client 4.2.3、Agent 4.2.4、Source 4.2.5、Agent 之 Chan…

2021年3月22日 0条评论 10点热度 阅读全文

高可用集群搭建 配置文件 初始化 yarn配置 在完全分布式集群基础上修改,共三台结点 配置文件 需要修改两个配置文件 core-site.xml <configuration> <property> #这里的hadoopHA是自定义的集群名称 <name>fs.defaultFS</name> <value>hdfs://hadoopHA</value> </property> #下面两个配置还是保留完全分布式架构的配置 <…

2021年3月22日 0条评论 13点热度 阅读全文

HDFS特点 适合一次读入 多次写出 优点 高容错性: 数据自动保存多个副本,通过增加副本的形式,提高容错性 某个副本丢失以后,可以自动恢复 适合处理大数据 数据规模 文件规模 可以构建在廉价机器上,多副本机制,提高可行性 缺点 不适合低延时的数据访问 无法高效的对大量小文件进行存储 存储大量小文件会占用NameNode大量内存来存储文件目录和块信息,NameNode内存是有限的 小文件存储寻址时间会超过读取时间 不支持并发写入、文件随机修改 一个文件只能有一个 写,不允许多个线程同时写 仅支持数据append(追…

2021年3月22日 0条评论 10点热度 阅读全文

控制台监听打印flume-exec.log文件写入数据 # Define a memory channel called ch1 on agent1 agent1.channels.ch1.type = memory agent1.channels.ch1.capacity = 1000 agent1.channels.ch1.transactionCapacity = 100 # Define an Avro source called avro-source1 on agent1 and tell it # t…

2021年3月20日 0条评论 8点热度 阅读全文

基本概念 hive简介 Hive:由facebook开源用于解决海量结构化日志的数据统计工具. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能. Hive本质:将HQL转化为MapReduce程序 (1)Hive处理的数据存储在HDFS (2)Hive分析数据底层的实现是MapReduce (3)执行程序运行在Yarn上 Hive的优缺点 优点 (1)操作接口采用类SQL语法,提供快速开发的能力(简单,容易上手). (2)避免了去写MapReduce,减少了…

2021年3月20日 0条评论 10点热度 阅读全文

Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构 主要解决海量数据的存储和海量数据的分析计算问题 通常Hadoop是指一个更广泛的概念–Hadoop生态圈 Hadoop的优势 高可靠性:Hadoop底层维护了多个数据副本,所以即使Hadoop某个计算元素存储出现故障,也不会导致数据的丢失 高扩展性:在集群运行间动态增加服务器,可方便地扩展数以千计的节点 高效性:在MapReduce思想下,Hadoop是并行工作的,以加快任务处理速度。 高容错性:能够自动将失败的任务重新分配 Ha…

2021年3月20日 0条评论 11点热度 阅读全文

一、风哥大数据运维架构师实战培训专题2.0介绍 课程背景: 为满足想学习和掌握大数据运维与体系架构的学员,风哥特别设计的一套比较系统的大数据库运维培训课程。 课程目标: 本套风哥大数据运维架构师实战培训课程,分5个阶段:大数据Hadoop核心架构运维实战、大数据存储管理与查询分析实战、大数据计算框架与消息搜索实战、大数据安全调度与数据采集实战、大数据集群管理平台运维实战。学完本套风哥大数据课程可以熟悉Hadoop大数据生态技术框架,包括Cloudera CM/CDH/CDP、HDFS、Yarn、HBase、Hive…

2021年3月19日 0条评论 16点热度 阅读全文