如何使用Boilerpipe从网页中提取新闻内容?

2020年1月20日 13点热度 0条评论

我需要从网页中提取主要新闻内容。我在互联网上搜索并找到了一个免费的名为Boilerpipe的api用于http://boilerpipe-web.appspot.com/,但我无法在Java中找到任何使用Boilerpipe的实现。告诉我如何使用Java中的Boilerpipe提取新闻内容,或者给我一些使用Boilerpipe从新闻网页中提取内容的Java实现的链接?

解决方案如下:

可能是我的答案为时已晚。但这很简单。

 URL url = new URL("http://www.nydailynews.com/sports/baseball"); 
 ArticleExtractor ae = new ArticleExtractor();
 String content = ae.getText(url);  // this contains the final text