基于视觉的web页面萃取方法技术

技术编号：6869930 阅读：247 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于视觉分析的web页面萃取方法，包括如下步骤：(1)确认web页面中给定的网页地址已经下载完成，并且经完整展示后生成文档对象模型树；(2)基于文档对象模型树将web页面拆分成在视觉上无法进一步拆分的块元素；(3)从主体块在文档对象模型树中对应的根节点出发，遍历各个视觉块在文档对象模型树中对应的块节点，从而获得web网页中的有价值数据。本方法能够充分使用web页面本身的视觉提示，并结合文档对象模型树进行页面语义分块，显著提高了web页面萃取的效率和质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种web页面萃取方法，尤其涉及一种基于视觉分析对web页面进行分解，从中提取有价值数据的web页面内容萃取方法，属于网页信息采集

技术介绍
目前，随着互联网的高速发展，web网络已经成为世界上最大的信息来源。web网络的发展给人类生活带来了巨大的方便，人们可以跨越时间和空间界限来共享大量信息。但是，整个web网络是由无数的web页面构成的。web页面的海量性、多样性、动态性和半结构化等特性增加了对其内容进行自动处理的难度。如何有效获取这些web页面中的内容为我们所用仍然是大家面临的共同问题。在专利号为ZL 200410057064. 1的中国专利技术专利中，富士通株式会社提出了一种网页信息块提取装置和方法。在该专利技术中，首先生成网页的结构信息块树，并对结构信息块进行分类归并和合并，对结果块的语义进行标记，从而根据内容和功能把网页分割为信息块。根据该技术方案，网页处理的粒度从整个页面扩展为页面内的信息块，使网页更容易由机器处理。在申请号为200910139745. 5的中国专利技术专利申请中，富士通株式会社进一步提出了一种网页内容提取...

【技术保护点】
１．一种基于视觉分析的ｗｅｂ页面萃取方法，其特征在于包括如下步骤：（１）确认ｗｅｂ页面中给定的网页地址已经下载完成，并且经完整展示后生成文档对象模型树；（２）基于所述文档对象模型树将ｗｅｂ页面拆分成在视觉上无法进一步拆分的块元素；（３）从主体块在所述文档对象模型树中对应的根节点出发，遍历各个视觉块在所述文档对象模型树中对应的块节点，从而获得所述ｗｅｂ网页中的有价值数据。

【技术特征摘要】

【专利技术属性】
技术研发人员：王东胜，
申请(专利权)人：天津海量信息技术有限公司，
类型：发明
国别省市：12

全部详细技术资料下载我是这个专利的主人