VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法] http://www.vipcn.com/chengxukaifa/qitayuyan/212673.html   这篇论文很好,对于如何确定正文区域,排除广告具有很好的指导作用。 但是,对于如何合并、如何查找正文区域,还要另外思考。 同时,是否有必要处理css和style,对于效率有什么影响,也要考虑。 其实,对此我有一些经验,但是出于保密,无法提供。   可以参考我后面写的一篇博文   《基于Web开发模式的信息抽…

2010年6月10日 0条评论 1点热度 阅读全文