使用网页标签聚类提取新闻网页内容的方法和系统技术方案

技术编号：7011547 阅读：512 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了一种使用网页标签聚类提取新闻网页内容的方法和系统。所述方法包括：对网页内容进行预处理，包括将所述网页内容解析成DOM树和统计所述DOM树的各节点的信息；启发式删除所述DOM树的节点；规则式删除所述DOM树的节点；以及基于标签结构聚类删除所述DOM树的节点，从而生成最终的DOM树以输出。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术总体地涉及新闻网页内容提取领域，更具体地说，本专利技术涉及一种使用网页标签聚类提取新闻网页内容的方法和系统。
技术介绍
在新闻(或者资讯)搜索领域，新闻正文提取是必不可少的环节，其正文提取的质量高低决定了新闻搜索的质量和用户体验。目前新闻正文提取方法各式各样，按是否使用模板的方式分为两大类基于模板 (或包装器)方式提取和基于非模板方式提取。在基于模板方式提取中，首先定义模板，然后编写程序解析执行模板得到数据。根据模板生成方式又可分为人工模板提取和自动模板提取。在人工模板提取中，针对提取的目标站点，人工手工编写模板，模板可以是正则匹配方式，也可以是简单的字符串匹配首位匹配方式。在自动模板提取中，利用机器学习算法，先从目标网站获取一部分网页数据进行学习训练，获取模板，然后程序利用模板提取数据。非模板方式提取大多基于统计和学习方式来实现。目前主要的算法有基于规则的、基于分块的、基于视觉的等。比较有代表性的是微软的基于视觉的页面分割算法，经过页面块提取，分隔条提取以及语义块重构3步，确定网页的主要语义块。人工编写模板方式的缺点是需要耗费巨大人力资源来撰写模板，并且随着目标网站的变化，维护模板的成本也非常大。自动模板方式的缺点是算法复杂，同时也需要对目标网站周期监控，以维护模板的变化。无论是人工还是自动产生模板，其假设网站的数据是通过模板产生，一些大型的网站基本问题不大，也就是不同的入口可能模板不同，但对众多的中小网站而言，其模板化不是很好，利用模板提取只能提取大部分的信息，有较多的机会包含垃圾信息。基于视觉的页面分割算法由于规则复杂，性能不高，不太适合...

【技术保护点】
１．一种使用网页标签聚类提取新闻网页内容的方法，包括：对网页内容进行预处理，包括将所述网页内容解析成ＤＯＭ树和统计所述ＤＯＭ树的各节点的信息；启发式删除所述ＤＯＭ树的节点；规则式删除所述ＤＯＭ树的节点；以及基于标签结构聚类删除所述ＤＯＭ树的节点，从而生成最终的ＤＯＭ树以输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：高勇，王放，许欢庆，郭永福，陈沛，
申请(专利权)人：北京中搜网络技术股份有限公司，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人