一种基于不完全子树匹配的Web数据记录提取方法技术

技术编号:8347907 阅读:226 留言:0更新日期:2013-02-21 01:19
本发明专利技术公开了一种基于不完全子树匹配的Web数据记录提取方法,包括如下步骤:根据HTTP协议下载网页的HTML源代码,并将下载的字符以统一的UNICODE进行编码;过滤噪声标记信息;利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析,构造网页的Document树;候选子树集抽取;不完全子树匹配;数据记录集确定。本发明专利技术具基于子树的匹配,不依赖于网页的模板结构所以方法具有很高的通用性;通过标签过滤和候选子树集的确定,可以有效提高数据抽取过程的性能;基于截取的不完全子树匹配方法判断子树结构之间的相似性,可以有效地消除数据对模板进行填充后导致的结构性差异,提高数据记录提取的精度的优点。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
随着互联网的高速发展,Web技术的不断改进,越来越多的机构和个人将信息发放到互联网。每天,互联网上都有成千上万的网页被生成,互联网已经成为了一个巨大的信息共享的“图书库”。如何从海量的Web信息中寻找、提取有效的数据信息成为了一个重要的课题。HTML网页是互联网的一种最重要的数据格式,它是一个标签语言,在结合脚本、样式后,由浏览器进行显示。HTML本质是一种半结构化的语言,它适合被渲染后由人类进行浏览,但是却不利于由计算机程序对数据进行识别和抽取。在HTML标签的定义中,是没有语义方面的定义的,内容的展现组合很多,导致程序无法根据标签来判断某个标签的区域是数据区域、广告区域、还是版权声明区域等其他区域。如果过滤HTML网页中的噪声信息,获取所需的数据区域记录已经形成了一门研究课程。Web信息的自动抽取,已有不少研究I.基于统计的方法这种方法是针对新闻、博客等网页的正文提取类任务,有通过DOM树中的特定节点(Table、Div,P)等进行处理来得到网页有用信息,如《基于统计的网页正文信息抽取方法的研究》中认为网页的正文信息一般存在于一个Table节点中,通本文档来自技高网...

【技术保护点】
一种基于不完全子树匹配的Web数据记录提取方法,其特征在于:包括如下步骤:?a.根据HTTP协议下载网页的HTML源代码,并将下载的字符以统一的UNICODE进行编码;b.过滤噪声标记信息;c.利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析,构造网页的Document树;d.候选子树集抽取;e.不完全子树匹配;f.数据记录集确定。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡海斌王慧昌
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1