我正在尝试在AWS EMR Hadoop集群上运行具有Apache Nutch依赖关系的jar。问题是Nutch找不到插件类(我用-Dplugin.folders指定插件位置)。我在本地测试了此选项,它工作正常:java -cp app.jar -Dplugin.folders=./nutch-plugins。 我收到此错误: 19/07/24 15:42:26 INFO mapreduce.Job: Task Id : attempt_1563980669003_0005_m_000000_2, Status :…

2020年11月9日 0条评论 41点热度 阅读全文

异常(exception): 2017-06-21 22:47:49,993 FATAL ExecMapper (main): org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing writable org.apache.hadoop.dynamodb.DynamoDBItemWritable@2e17578f at org.apache.hadoop.hive.ql.exec.MapOperato…

2020年10月6日 0条评论 57点热度 阅读全文

我开发了一个代码,可以从FTP读取非常大的文件,然后使用Java将其写入本地计算机。执行它的代码如下。这是next(Text key, Text value)的RecordReader中的CustomInputFormat的一部分 if(!processed) { System.out.println("in processed"); in = fs.open(file); processed=true; } while(bytesRead <= fileSize) { byte buf[] = new by…

2020年8月25日 0条评论 47点热度 阅读全文

我在本地计算机上检查并尝试在EMR(Amazon)上运行我的 map 缩减作业后,遇到此错误: Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class Main$MapClass not found at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1720) at org.apache.hadoop.mapreduce.task.Job…

2020年8月22日 0条评论 27点热度 阅读全文

从hadoop 1.0.3-> hadoop 2.8.5迁移后,Hadoop Map降低了作业性能(执行作业的时间)降级了(5min-> 15min) 详情如下: 我有Hadoop Mapreduce在AWS EMR环境中执行作业。 Hadoop 1.0.3环境详细信息:AMI版本:2.4.11Hadoop版本:1.0.3 EMR作业的第1步(仅1步)需要 5分钟才能运行由1个主节点和1个核心(aws术语)组成的测试实例。在hadoop仪表板中,我的应用程序包含一个作业。 Job中的Mapper任务的编…

2020年8月11日 0条评论 43点热度 阅读全文

我是Spark的新手。任何帮助将不胜感激。 Spark SQL中是否可以替代sql的FORMAT()。我的核心逻辑是用SQL编写的,并使用spark.sql("query")运行。我需要将ID转换为4位数字。例如,如果为1,则应将其转换为0001;如果为12,则应将其转换为0012。在SQL中,我知道可以像FORMAT("%04d", id)一样将其转换为id。但这给了我Spark SQL错误FORMAT is not a function registered。在Spark的文档中找到了format_number…

2020年8月9日 0条评论 46点热度 阅读全文

我应该更改什么来解决以下错误: 我正在尝试在Elastic Mapreduce上开始工作,并且每次出现以下消息都会崩溃: java.lang.RuntimeException: java.lang.ClassNotFoundException: iataho.mapreduce.NewMaxTemperatureMapper at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:831) at org.apache.hadoop.ma…

2020年7月1日 0条评论 36点热度 阅读全文

我有从服务中获取的JSON字符串。我需要将该数据转换为Parquet格式。我有用于JSON字符串的Spark模式,但是我不知道从哪里开始,因为这是我第一次处理AWS EMR和大数据: 我可以将服务从我的服务提交到EMR spark cluster,还是必须在将JSON文件上传到S3之后使用脚本创建的JAR文件创建一个步骤来进行转换?我应该使用AWS开发工具包在服务中创建EMR集群,还是先通过控制台创建EMR集群?我尝试使用默认设置从控制台创建EMR集群,但是一旦创建集群并显示消息“用户终止”,该集群就会终止。没有任…

2020年6月25日 0条评论 38点热度 阅读全文

我想从Hadoop文件系统中读取文件。 为了获得文件的正确路径,我需要hdfs的主机名和端口地址。 所以最后我的文件路径看起来像 Path path = new Path("hdfs://123.23.12.4344:9000/user/filename.txt") 现在我想知道要提取HostName =“123.23.12.4344”和端口:9000? 基本上,我想访问Amazon EMR上的文件系统,但是当我使用文件系统时,fs = FileSystem.get(getConf());我懂了 您本应该调用Fil…

2020年6月7日 0条评论 41点热度 阅读全文

在仅精简版的Hadoop作业中,输入文件由身份映射器处理并直接发送至精简器。在我的某些工作中,我非常惊讶地看到该工作在映射阶段失败,并显示“内存不足错误”和“超出了GC开销限制”。 以我的理解,身份映射器上的内存泄漏是不可能的。造成这种错误的原因是什么? 解决方案如下: 经过数小时的研究和反复试验后,我意识到为TASK组配置的机器是没有足够内存的小型实例,更有趣的是,内存不足的原因是改组而不是映射。

2020年6月7日 0条评论 34点热度 阅读全文