我已经进行了网络爬网,并收集了很多html和xml页面。我的目的是从中提取所有Rss / Atom提要。我注意到许多网站只是在标题上使用“ text / xml”作为内容类型,因此我无法从任何其他类型的xml识别提要。所以我写了这段代码: public boolean isFeed(String content){ Document doc = Jsoup.parse(content); Elements feed = doc.getElementsByTag("feed"); Elements channel =…

2020年7月22日 0条评论 85点热度 阅读全文

我的联系人在解析RSS和Atom文件时遇到SAX问题。根据他的说法,好像来自Item元素的文本被截断为撇号或有时是带重音的字符。编码似乎也有问题。 我尝试了SAX,但也进行了一些删节操作,但无法进一步挖掘。如果有人在那里解决过这个问题,我将不胜感激。 这是ContentHandler中使用的代码: public void characters( char[], int start, int end ) throws SAXException { // link = new String(ch, start, end…

2019年10月4日 0条评论 47点热度 阅读全文

全部都在标题中。我是Jaxb和XML的新手。我可以访问其他名称空间,例如 或 等。但是我不能使用 或 的名称空间。 你能帮助我吗?我有点迷路了。 我所拥有的只是空数据,我找不到路。 这是代码: 提要类别: @XmlRootElement(name = "feed") @XmlAccessorType(XmlAccessType.FIELD) public class Feed { @XmlElement(name = "entry") private List<Entry> entries; publi…

2019年5月9日 0条评论 28点热度 阅读全文

Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想改善这个问题吗?更新问题,以便将其作为 on-topic用于堆栈溢出。 3年前关闭。 Improve this question 有谁知道一个很好的库/ jar 来解析RSS / Atom Feed? 我想在其中塞满一个URL,并希望以一种均匀的方式获取新闻项。 (意味着:Source是否包含Atom或RSS feed都没关系。我只想返回“Items”。) 在浏览了SO之…

2019年3月15日 0条评论 27点热度 阅读全文