我已经阅读了许多类似的问题,并尝试解决但尚未成功。我有一个hadoop 2.6.0集群(x.x.x.55上有一个namenode,x.x.x.54,56,57上有3个datanode)。然后我在群集上安装了hbase-0.98.12-hadoop2。在hbase-env.sh中,我取消注释HBASE_MANAGES_ZK = true,并设置Java主路径。这里是HBase的-site.xml中:HMaster在启动后立即停止 <property> <name>hbase.master<…

2020年12月2日 0条评论 26点热度 阅读全文

我想从我的Java客户端代码调用hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /user/myuser/map_data/hfiles mytable方法。从Java客户端运行LoadIncrementalHFiles 当我跑我得到下面的异常应用程序: org.apache.hadoop.hbase.io.hfile.CorruptHFileException: Problem reading HFile Trailer from fil…

2020年12月2日 0条评论 25点热度 阅读全文

Sailfish是比普通Hadoop更高效的Hadoop版本。我很困惑我如何从下面的Github回购中实现这个版本的Hadoop:https://github.com/sriramsrao/sailfish。如何在我的电脑上实现Sailfish版本的Hadoop? ===========解决方案如下: Doe,我看到您提到的存储库太旧了。即使是最后一次提交也是6年前。因为那里的世界已经走得很远。我建议你看看Hortonworks,Cloudera或MapR的最新版Hadoop。我相信他们会比你提到的更快,维护得更好…

2020年12月2日 0条评论 25点热度 阅读全文

我已经在我的本地机器上使用python进行分析。火花集群是什么意思? 最近我听到“spark cluster”这个词,我想知道它到底是什么吗? 它只是Spark在某些机器集群上运行? 如何在没有Hadoop系统的情况下使用群集?可能吗?你能描述一下吗? ===========解决方案如下: Apache spark是一个分布式计算系统。虽然它可以在单台机器上运行,但它可以运行在群集上,并利用群集可能的并行性。 Spark利用了很多Hadoop堆栈,例如HDFS文件系统。但是,Spark与Hadoop分布式计算链显着…

2020年12月2日 0条评论 29点热度 阅读全文

当我们发出hdfs put或copyfromlocal命令时,它是否调用mapreduce作业? 如果是,有多少映射器运行? 如果没有,传输如何完成?从本地目录复制到HDFS是否运行mapreduce作业? 我已阅读解析文件Hadoop-The权威指南但想获得更多见解。 ===========解决方案如下: 当我们使用put和copyFromLocal命令时,使用mapreduce作业将本地文件复制到HDFS。在哪里它实际上使用Streaming由hadoop客户端二进制文件本身使用客户端库和队列。 将内容复制到H…

2020年12月2日 0条评论 26点热度 阅读全文

我是MapReduce的新手。我看到许多在MapReduce中编写的代码并声明了静态变量。在mapreduce中使用static关键字在Mapper类中 例子: public class Map extends Mapper<Object, Text, Text, IntWritable>{ private static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(Object…

2020年12月2日 0条评论 23点热度 阅读全文

我正尝试在我的笔记本电脑中配置一个主从设备的多节点集群。当我从主节点运行start-all.sh所有在主节点上运行的守护进程时,Datanode和tasktracker没有在从节点上启动。密码较少的ssh被启用,我可以在没有pwd的情况下从我的masternode执行ssh,但是如果我尝试从slave节点执行ssh master,它会询问pwd。这是在从节点中不启动守护进程的问题吗?我们是否需要在主机和从机上使用密码较少的ssh?start-all.sh不能在从节点上运行进程 从节点的ssh slave并不要求pw…

2020年12月2日 0条评论 21点热度 阅读全文

我正在尝试连接到在远程计算机上运行的HDFS实例。 我在Windows机器上运行Eclipse,而HDFS在Unix机器上运行。这是我尝试过的 Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://remoteHostName:portNumber"); DFSClient client = null; System.out.println("try"); try { System.out.println("trying…

2020年12月2日 0条评论 24点热度 阅读全文

我是hadoop的新手,正尝试从书中运行一个示例程序。我面临错误错误:java.io.IOException:映射中的键键入不匹配:预期的org.apache.hadoop.io.Text,收到org.apache.hadoop.io.LongWritable下面是我的代码 package com.hadoop.employee.salary; import java.io.IOException; import org.apache.hadoop.io.FloatWritable; import org.apac…

2020年12月2日 0条评论 48点热度 阅读全文

我有一个项目,要求以分布式方式从外部源下载文件。我们已经在Hadoop上进行了巨额投资,并希望利用MapReduce,但更多的是作为分布式任务而不是ETL。 1)有人做过吗? 2)是否应该只有Mapper而没有Reducer? 3)将FTP / HTTP连接的抽象实现传递给Mapper的最佳方法是什么? -明确一点,我的意思是我希望有一个好的方法来进行单元测试而不进行集成测试,因此需要一种模拟FTP / HTTP的方法。 4)MapReduce是此类事情的最佳方法吗? -我们在滥用MapReduce吗? 谢谢。 解…

2020年12月2日 0条评论 58点热度 阅读全文