基于视觉的web页面萃取方法技术

技术编号:6869930 阅读:247 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于视觉分析的web页面萃取方法,包括如下步骤:(1)确认web页面中给定的网页地址已经下载完成,并且经完整展示后生成文档对象模型树;(2)基于文档对象模型树将web页面拆分成在视觉上无法进一步拆分的块元素;(3)从主体块在文档对象模型树中对应的根节点出发,遍历各个视觉块在文档对象模型树中对应的块节点,从而获得web网页中的有价值数据。本方法能够充分使用web页面本身的视觉提示,并结合文档对象模型树进行页面语义分块,显著提高了web页面萃取的效率和质量。

【技术实现步骤摘要】

本专利技术涉及一种web页面萃取方法,尤其涉及一种基于视觉分析对web页面进行分解,从中提取有价值数据的web页面内容萃取方法,属于网页信息采集

技术介绍
目前,随着互联网的高速发展,web网络已经成为世界上最大的信息来源。web网络的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。 但是,整个web网络是由无数的web页面构成的。web页面的海量性、多样性、动态性和半结构化等特性增加了对其内容进行自动处理的难度。如何有效获取这些web页面中的内容为我们所用仍然是大家面临的共同问题。在专利号为ZL 200410057064. 1的中国专利技术专利中,富士通株式会社提出了一种网页信息块提取装置和方法。在该专利技术中,首先生成网页的结构信息块树,并对结构信息块进行分类归并和合并,对结果块的语义进行标记,从而根据内容和功能把网页分割为信息块。根据该技术方案,网页处理的粒度从整个页面扩展为页面内的信息块,使网页更容易由机器处理。在申请号为200910139745. 5的中国专利技术专利申请中,富士通株式会社进一步提出了一种网页内容提取方法和装置,其中该网本文档来自技高网...

【技术保护点】
1.一种基于视觉分析的web页面萃取方法,其特征在于包括如下步骤:(1)确认web页面中给定的网页地址已经下载完成,并且经完整展示后生成文档对象模型树;(2)基于所述文档对象模型树将web页面拆分成在视觉上无法进一步拆分的块元素;(3)从主体块在所述文档对象模型树中对应的根节点出发,遍历各个视觉块在所述文档对象模型树中对应的块节点,从而获得所述web网页中的有价值数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:王东胜
申请(专利权)人:天津海量信息技术有限公司
类型:发明
国别省市:12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1