不使用文件的Hadoop自定义输入格式

2019年2月23日 37点热度 0条评论

我刚刚开始使用Hadoop,正在努力弄清楚如何使用不是文件的其他输入源,即从AWS SimpleDB读取所有行或从另一个系统上的REST API读取所有记录。在线所有内容仅显示如何处理文件或一些选定的数据库。

InputFormat的API看起来很复杂,因此我试图找出从任何非文件数据源中读取数据的最快方法,然后可以使用亚马逊的Elastic MapReduce(基于Hadoop)对MapReduced进行处理。我正在使用JAVA编写代码。

谢谢!

解决方案如下:

“最快”的方法是使用某些数据聚合工具,例如FlumeChukwa
您可以找到一个很好的示例,说明如何使用Twitter API here通过Flume收集Twitter数据。它显示了如何使用Flume将Twitter数据读入Hadoop集群,然后使用Hive处理它。如果需要,您可以编写自己的MR作业。尝试为这些事情设计一个自定义的InputFormat确实需要一些工作,而且我认为您不会在这方面找到很多帮助(除非有人这样​​做并愿意与您共享)。

高温超导