一种基于不完全子树匹配的Web数据记录提取方法技术

技术编号：8347907 阅读：226 留言：0更新日期：2013-02-21 01:19

本发明专利技术公开了一种基于不完全子树匹配的Web数据记录提取方法，包括如下步骤：根据HTTP协议下载网页的HTML源代码，并将下载的字符以统一的UNICODE进行编码；过滤噪声标记信息；利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析，构造网页的Document树；候选子树集抽取；不完全子树匹配；数据记录集确定。本发明专利技术具基于子树的匹配，不依赖于网页的模板结构所以方法具有很高的通用性；通过标签过滤和候选子树集的确定，可以有效提高数据抽取过程的性能；基于截取的不完全子树匹配方法判断子树结构之间的相似性，可以有效地消除数据对模板进行填充后导致的结构性差异，提高数据记录提取的精度的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
随着互联网的高速发展，Web技术的不断改进，越来越多的机构和个人将信息发放到互联网。每天，互联网上都有成千上万的网页被生成，互联网已经成为了一个巨大的信息共享的“图书库”。如何从海量的Web信息中寻找、提取有效的数据信息成为了一个重要的课题。HTML网页是互联网的一种最重要的数据格式，它是一个标签语言，在结合脚本、样式后，由浏览器进行显示。HTML本质是一种半结构化的语言，它适合被渲染后由人类进行浏览，但是却不利于由计算机程序对数据进行识别和抽取。在HTML标签的定义中，是没有语义方面的定义的，内容的展现组合很多，导致程序无法根据标签来判断某个标签的区域是数据区域、广告区域、还是版权声明区域等其他区域。如果过滤HTML网页中的噪声信息，获取所需的数据区域记录已经形成了一门研究课程。Web信息的自动抽取，已有不少研究I.基于统计的方法这种方法是针对新闻、博客等网页的正文提取类任务，有通过DOM树中的特定节点(Table、Div，P)等进行处理来得到网页有用信息，如《基于统计的网页正文信息抽取方法的研究》中认为网页的正文信息一般存在于一个...

【技术保护点】
一种基于不完全子树匹配的Web数据记录提取方法，其特征在于：包括如下步骤：？a．根据HTTP协议下载网页的HTML源代码，并将下载的字符以统一的UNICODE进行编码；b．过滤噪声标记信息；c．利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析，构造网页的Document树；d．候选子树集抽取；e．不完全子树匹配；f．数据记录集确定。

【技术特征摘要】

【专利技术属性】
技术研发人员：胡海斌，王慧昌，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人