当前位置: 首页 > 专利查询>南京大学专利>正文

一种全程化Web信息抽取集成方法技术

技术编号:11133010 阅读:82 留言:0更新日期:2015-03-12 03:18
本发明专利技术涉及一种Web信息抽取集成方法,属于计算机技术领域。该方法包括网页浏览导航、网页数据抽取、数据集成处理步骤,能够应用于各种不同的Web信息采集和挖掘分析应用,具有网页自动浏览导航能力和抽取数据的集成处理能力,因此采用本发明专利技术后,可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。

【技术实现步骤摘要】

本专利技术涉及一种信息抽取集成方法,尤其是一种Web信息抽取集成方法,属于计算机
 
技术介绍
Web是目前最大的信息发布和共享平台,其中包含了大量有价值的数据信息。越来越多的应用希望能从Web上获得这些有价值的数据信息,进一步完成深度的数据信息分析,提供各种数据分析增值服务。 然而,如何能从Web网页上精确地获取所感兴趣的数据信息是一个较大的技术难题。Web信息抽取(Web Inform全程化Web信息抽取集成方法tion Extr全程化Web信息抽取集成方法ction)是研究解决相关技术和工具的新兴研究领域。所谓Web信息抽取是指从结构化或半结构化的网页上抽取出用户或应用所感兴趣的数据,将其以结构化的格式导入数据库中供进一步分析处理的过程。 据申请人了解,在过去的十多年中,Web信息抽取技术已出现了一些系统,例如DEPT全程化WEB信息抽取集成方法、ViDE、MDR,ST全程化WEB信息抽取集成方法LKER,Lixto,DEByE等。但现有的Web信息抽取研究和系统基本上都仅仅集中对已获取网页的数据抽取处理,而忽略了实际的Web信息抽取处理过程首先需要考虑的网页自动浏览导航和访问问题,而且对抽取出的原始网页数据的转换和集成处理也缺少充分的考虑。这些仅仅关注了中间的网页数据抽取处理阶段的现有技术离实际的Web信息抽取应用需求还有很大的距离。 
技术实现思路
本专利技术的目的在于:针对上述现有技术(研究和系统)存在的不足,提出一种包含Web网页自动浏览、网页数据抽取、以及数据集成全程化Web信息抽取集成方法,进而基于相应的模型研究设计网页自动浏览导航、网页数据抽取与集成、以及Web信息抽取流程控制技术和相应的规则语言。 研究表明,完整的Web信息抽取处理过程包含三个阶段:1)网页浏览导航, 即系统需要能在Web信息抽取处理过程中模拟用户浏览网页的行为自动导航和访问到所感兴趣的网页;2)网页数据抽取,对于所访问获取的网页,定制一定的抽取规则完成网页数据元素的抽取处理;3)数据集成,即对于抽取出的原始网页数据元素进行转换、过滤和集成后处理。在实际的Web信息抽取处理过程中,一个重要问题是如何能让系统模仿人的浏览导航行为,自动浏览并访问到所感兴趣的网页。获得所需网页后,主要技术问题则是如何有效地在网页上指定和描述所要抽取的具体数据元素或数据记录。为此,需要引入网页数据抽取规则。另外,网页上所抽取出来的原始数据元素和记录通常是没有结构语义的,至多反应的是一种网页展现结构语义,这种网页展现结构语义与Web抽取应用所需要的目标结构语义之间存在一个差异和鸿沟;为了消除这种差异和鸿沟,Web信息抽取处理必须提供数据转换、过滤、映射和集成处理的能力。更为复杂的情形是,一个复杂数据记录可能会显示在多个关联网页上。因此,进行Web信息抽取时需要自动完成这些关联网页的链接跳转,并且能依据这些数据网页的链接关系保持正确的数据关系,以便最终完成完整数据记录的抽取和集成处理。 为了达到以上目的,本专利技术的全程化Web信息抽取集成方法包括以下基本步骤: 第一步、网页浏览导航——构建自动记录用户访问网页导航链接一系列交互操作的导航链接模型,同时编制实现回放该一系列交互操作的规则语言,从而实现自动重复对用户访问网页的导航链接,为数据抽取奠定基础; 第二步、网页数据抽取——重复对用户访问网页的导航链接后,根据预定的抽取规则,抽取展示在Web页面上的数据源对象; 第三步、数据集成处理——将抽取出的数据源对象中的数据元素或数据按预定的目标数据结构进行转换、过滤和集成,形成目标数据对象。 本专利技术技术方案的进一步限定为,第二步中,网页数据抽取时,抽取的数 据源对象为非规整数据和/或规整数据。 进一步地,第二步中,执行网页数据抽取包括如下步骤:首先,抽取展示在Web页面上的数据源对象;然后,将包含在数据源对象中的数据集成到预先定义好的目标数据结构中从而形成目标数据对象。 进一步地,抽取展示在Web页面上的数据源对象时,建立数据源对象模型,包含三种类型的数据源对象:数据区对象、数据记录对象和数据项对象,每个数据区对象包含一个或多个数据记录对象,每个数据记录对象包含一个或多个数据项对象。 进一步地,第二步中,抽取展示在Web页面上的数据源对象时,记录对应页面上用以抽取数据记录的Web数据区和数据源对象、以及用于数据抽取、浏览导航、以及流程控制的HTML控件和各种外部数据源控件;数据源对象采用XML语言进行定义和描述。该数据源对象实际上封装了用以抽取出指定的数据区域中的数据记录的规则,包括各种抽取属性(Attributes)和模式(Patterns)。 进一步地,第三步中,数据集成处理中包含对页面数据源对象中抽取出的原始数据进行转换集成的逻辑和规则,数据集成规则将采用某种脚本语言来描述 本专利技术设计完成的全过程化Web信息抽取集成方法能够应用于各种不同的Web信息采集和挖掘分析应用,具有网页自动浏览导航能力和抽取数据的集成处理能力,因此采用本专利技术后,可以满足人们从Web中挖掘有价值的数据信息、完成深度价值发现的愿望。 附图说明下面结合附图对本专利技术作进一步的说明。 图1为本专利技术一个实施例的全程化Web信息抽取集成方法的流程图; 图2为实施例1中的Web数据记录模型; 图3为实施例1中的Web信息抽取集成ETI模型; 图4为实施例1中的页面模型与Web信息抽取集成规则体系模型; 图5为实施例1中包含基于网格的数据记录的Web页面; 图6为实施例1中基于跨页面链接关系的数据记录网页示例; 图7为实施例1中浏览导航规则模型; 图8为实施例1中跨页面嵌套记录的集成规则和集成后的目标数据记录的XML结构; 图9为实施例1中数据抽取和“一对多”集成转换规则示例。 具体实施方式实施例一 本实施例的全程化Web信息抽取集成方法,包括以下基本步骤: 第一步、网页浏览导航——构建自动记录用户访问网页导航链接一系列交互操作的导航链接模型,同时编制实现回放该一系列交互操作的规则语言,从而实现自动重复对用户访问网页的导航链接,为数据抽取奠定基础; 第二步、网页数据抽取——重复对用户访问网页的导航链接后,根据预定的抽取规则,抽取展示在Web页面上的数据源对象; 第三步、数据集成处理——将抽取出的数据源对象中的数据元素或数据按预定的目标数据结构进行转换、过滤和集成,形成目标数据对象。 下面对三个基本步骤做详细的介绍。 1、全过程Web信息抽取模型 三阶段Web信息抽取集成模型 从信息处理的抽象层面看,如图1所示,一个完整的Web信息抽取过程应当包括网页获取(即自动浏览导航)、网页数据抽取处理(包括自动或半自动分析方法以及手工交互生成抽取规则)、以及集成后处理三个主要阶段。 (1)网页浏览导航阶段:一个完整的Web信息抽取系统首先需要提供这种网页自动浏览导航能力,本文档来自技高网...
一种全程化Web信息抽取集成方法

【技术保护点】
一种全程化Web信息抽取集成方法,其特征在于包括以下基本步骤: 第一步、网页浏览导航——构建自动记录用户访问网页导航链接一系列交互操作的导航链接模型,同时编制实现回放该一系列交互操作的规则语言,从而实现自动重复对用户访问网页的导航链接,为数据抽取奠定基础; 第二步、网页数据抽取——重复对用户访问网页的导航链接后,根据预定的抽取规则,抽取展示在Web页面上的数据源对象; 第三步、数据集成处理——将抽取出的数据源对象中的数据元素或数据按预定的目标数据结构进行转换、过滤和集成,形成目标数据对象。

【技术特征摘要】
1.一种全程化Web信息抽取集成方法,其特征在于包括以下基本步骤: 
第一步、网页浏览导航——构建自动记录用户访问网页导航链接一系列交互操作的导航链接模型,同时编制实现回放该一系列交互操作的规则语言,从而实现自动重复对用户访问网页的导航链接,为数据抽取奠定基础; 
第二步、网页数据抽取——重复对用户访问网页的导航链接后,根据预定的抽取规则,抽取展示在Web页面上的数据源对象; 
第三步、数据集成处理——将抽取出的数据源对象中的数据元素或数据按预定的目标数据结构进行转换、过滤和集成,形成目标数据对象。
2.根据权利要求1所述的全程化Web信息抽取集成方法,其特征在于:第二步中,网页数据抽取时,抽取的数据源对象为非规整数据和/或规整数据。
3.根据权利要求1所述的全程化Web信息抽取集成方法,其特征在于:第二步中,执行网页数据抽取包括如下步骤:首先,抽取展示在Web页面上的数据源对象;然后,将包含在数据源对象中的数据集成到预先定义好的目标数据结构中从而形成目标数据对象。
4...

【专利技术属性】
技术研发人员:黄宜华施生生王海涛魏武罗雷袁春风
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1