我正在尝试按照本教程使用Pig来分析Apache访问日志文件: http://venkatarun-n.blogspot.com/2013/01/analyzing-apache-logs-with-pig.html 我被这个Pig脚本卡住了: grpd = GROUP logs BY DayExtractor(dt) as day; 当我在grunt终端中执行该命令时,出现以下错误: ERROR 1200: mismatched input 'as' expecting SEMI_COLON Failed to …

2020年11月28日 0条评论 49点热度 阅读全文

我正在尝试构建Twitter的大象鸟包,以便可以与Pig一起使用,但出现错误: [INFO] Elephant Bird ..................................... SUCCESS [0.638s] [INFO] Elephant Bird Hadoop Compatibility ................ SUCCESS [1.213s] [INFO] Elephant Bird Core ................................ FAILURE […

2020年11月26日 0条评论 42点热度 阅读全文

在Pig中,您可以通过UDFContext将配置从Pig脚本传递到Pig UDF。例如, // in pig script SET my.conf dummy-conf // in UDF java code Configuration conf = UDFContext.getUDFContext().getJobConf(); String myConf = conf.get("my.conf"); 因此,是否存在类似的方法将配置从配置单元脚本传递到配置单元UDF?例如,如果我在 hive 脚本中有 set M…

2020年11月24日 0条评论 32点热度 阅读全文

我正在尝试将数据加载到Pig中并将相同的数据转储到控制台上。我使用以下命令在Cloudera沙箱中没有任何错误。 raw_data = LOAD 'hdfs:/user/cloudera/sampledata' USING PigStorage(',') AS ( custno:chararray, firstname:chararray, lastname:chararray, age:int, profession:chararray ); dump raw_data; 它将所有数据转储到sampledata文…

2020年11月22日 0条评论 44点热度 阅读全文

我正在尝试在CentOS 6.5上设置hadoop伪分布式cluser。我正在使用的Hadoop版本是0.20。我也在使用Apache Pig版本0.12.1。 我修改了以下conf文件: core-site.xml <property> <name>fs.default.name</name> <value>hdfs://localhost:8020</value> </property> hdfs-site.xml <configur…

2020年11月19日 0条评论 36点热度 阅读全文

我有以下数据包: ({{key1,value1),(key1,value2)})({{key2,value1),(key2,value1)}) 上面的数据存储在文件/关系中,它具有两行数据,其中每一行都是一个包。 有没有一种读取每个袋子中每个元组的方法? 例如:在这里我想发出(key1,value1)(key1,value2)(key2,value1)(key2,value2) 请帮忙。 pig 让我发疯:( :( 解决方案如下: FLATTEN()应该可以解决问题:) http://pig.apache.org/…

2020年11月15日 0条评论 37点热度 阅读全文

我想通过Pig UDF读取完整的文件,然后使用Java中的PrintWriter库准备输出文件并将其存储在HDFS上。 这可能吗, 遵循的步骤 1)我能够在UDF中读取输入文件。从该文件准备一个HashMap。[已实现] 2)通过过滤输入文件将数据写入输出文件。使用HashMap进行过滤[尚待实现] 谁能帮我第二步。 目的是在Pig UDF中创建一个文件并写入该文件。 谢谢, 问候,Dheeraj Rampally。 解决方案如下: 没问题...我已经找到了另一种选择。.现在,不是从文件中写入文件,而是从Pig U…

2020年11月7日 0条评论 39点热度 阅读全文

我有一个Pig UDF,可以在管道分隔的数据文件中将Ebcidic字符转换为ASCII。我有数百列,并且我希望将UDF应用于第70列。如何在特定列上应用UDF,并在数据集中将列数据替换为ASCII。 REGISTER pigudf-0.0.1.jar; DEFINE Ebc2Asc com.z.pig.udf.Ebc2Asc; A = LOAD '/user/T4/cobDump.txt' USING PigStorage('|'); B = FOREACH A GENERATE Ebc2Asc($71) as t…

2020年11月6日 0条评论 40点热度 阅读全文

我的项目有一个ASCII输入文件,并且使用Pig脚本进行mapreducing。在此脚本中,我使用子字符串获取指定的char间隔。我想问一下我是否使用Java来获取char间隔,然后将jar文件嵌入到另一个减少数据的Pig脚本中,我的程序运行得更快还是没有? 解决方案如下: 这完全取决于您如何在map方法中实现char间隔拆分。如果您知道数据,则可以优化子字符串。检查此线程: charAt() or substring? Which is faster? 同样,通常,将jar添加到hadoop集群中会增加一些文件传…

2020年10月30日 0条评论 40点热度 阅读全文

我正在编写一个 pig 脚本来处理来自sophos代理的访问日志。 每行就像: 2015:01:13-00:00:01 AR-BADC-FAST-01 httpproxy[27983]: id="0001" severity="info" sys="SecureWeb" sub="http" name="http access" action="pass" method="GET" srcip="10.20.7.210" dstip="10.24.2.7" user="" ad_domain="" statusco…

2020年10月27日 0条评论 70点热度 阅读全文