一种用于复杂页面的包装器自动生成方法技术

技术编号:3792382 阅读:460 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种用于复杂页面的包装器自动生成方法,包括下列步骤:(1)获取基于同一模板的两个HTML页面文档,生成HTML标记树;(2)获得包含数据记录集合的最小区域DS;(3)从最小区域中获取初始数据记录;(4)根据初始的数据记录DR的布局组合关系,依据特征项的相似度,确定抽取项的聚集关系,并结合领域本体的知识,对同一聚集块中实体进行语义标注,根据实体间语义关系重新组合成新的数据记录;(5)根据步骤(4)中生成的数据记录在HTML标记树中的位置关系,生成每个聚集块的抽取规则,然后构建包装器。本发明专利技术能够通过对HTML Tag树的结构关系的分析,从复杂页面中抽取出真正的数据记录规则,从而可以自动构建抽取准确率高的包装器。

【技术实现步骤摘要】

本专利技术涉及一种Web页面的信息识别的方法,具体涉及一种应用于复杂 页面的用于抽取深层网页数据信息的包装器的自动生成方法。
技术介绍
Internet上Web网页大都以HTML的形式加以呈现,而HTML的特点使 得任何组织和个人都可以按照自己的想法,在Web上发布内容多样,形式丰 富的信息。Web数据的这种半结构化乃至无结构化的状态,使得Web页面只 合适人类的浏览,而不利于应用程序直接解析并利用Web上的海量有价值的 信息。另一方面,随着Internet以及电子商务的快速发展,"信息爆炸"已经 成为人们有效获取信息的一个阻碍。因此,利用计算机对Web信息进行自动 化的抽取,变得更加具有现实性和急迫性。当前,Web上的很多网页是动态生成的,网站根据用户请求从后台数据库 中选取数据并嵌入到通用的模板中,这类称之为深层网络页面(Deep Web)的网 站是Internet上的重要组成部分。研究表明,Deep Web信息是表层网页 (Surface Web)信息的500倍,有近450, 000个Deep Web站点。由于此类网 站的Web数据是根据请求动态生成的,因此,传统的搜索引擎不能很好地对 此类数据加以索引。通过观察,我们可以发现,此类网站往往通过分类列表页 和详细页面向用户展示其保存在数据库中的信息。而对此类Web页面的数据 抽取则是进行深层网页数据集成的前提。近年来,对于普通数据导向(data-intensive)类型的站点,有研究学者提出 了一些包装器的生成方法,有效地解决了一般网站的数据抽取问题。包装器的 任务就是采用一系列规则,将用户所关心的有用信息,从Web网页抽取出来。 由于HTML文档的格式表现各异,不同数据源的HTML文档往往需要不同的 抽取规则,因此,包装器往往和特定数据源的网页格式密切相关。目前的包装 器主要存在以下一些缺点(l)开发和使用包装器需要较高的技巧,需要人工参与,要花费大量的时间去研究要抽取网页的结构。这种方式不利用大规模的 网页数据集成。(2)由于包装器是跟特定数据源密切相关的,因此,如果网页 的设计者更改了原有的网页的布局,那么现有的包装器就可能失效。(3)研究 大多数局限在简单结果页面的数据抽取问题。
技术实现思路
本专利技术目的是提供一种基于HTML Tag树的自动化包装器生成方法,从 而提髙数据抽取的自动化程度以及抽取准确率和效率。为达到上述目的,本专利技术采用的技术方案是 一种用于复杂页面的包装器 自动生成方法,包括下列步骤(1) 获取基于同一模板生成的两个HTML页面文档,利用XML解析器分别 解析成具有树形结构的文档对象模型,即HTML标记树;(2) 比较步骤(1)获得的两个HTML标记树,去除噪声区,获得包含数据记 录集合的最小区域DS;(3) 从所述最小区域中获取初始数据记录,其方法是,从HTML标记树中 得到DS区的最长公共子串,通过发现DS区中的重复区域来识别出初始的数 据记录DR,所述数据记录用一个二元组(D, G)表示,D代表记录属性的集 合,G代表属性在Html页面的布局组合关系;(4) 根据初始的数据记录DR的布局组合关系,依据特征项的相似度,确定 抽取项(实例属性)的聚集关系,并结合领域本体的知识,对同一聚集块中实 体进行语义标注,根据实体间语义关系重新组合成新的数据记录DR2;(5) 根据步骤(4)中生成的数据记录DR2在HTML标记树中的位置关系,生 成每个聚集块的抽取规则,然后构建包装器。上文中,所述步骤(4)中,根据实体间语义关系重新组合成新的数据记录 DR2可以准确反应数据间关系,符合用户需求。上述技术方案中,所述步骤(4)中的特征项包括样式特征、特征词。 为便于对上述技术方案的理解,请一步说明如下 在Web页面中, 一个复杂列表页面具有如下的基本特征 ①从产生方式上看,复杂页面是由网页模板T所生成。② 从内容上看,复杂页面中的数据记录(DR)中不仅包括图像、也包括 文本。③ 从网页布局结构上看,复杂页面中的DR中的内容可以被组织成多列或 多个区域,或者同一模板下的DR布局可以根据条件不同而不同。下面对基于模板产生的Web页面进行合理的形式化描述。列表网页模板T:列表网页模板T-HUN。 H代表用户所关心的抽取数 据区域Data-rich; N代表噪声区。我们用一个二元组(S, P)来表示H,其 中,S代表数据记录集(DRs), P代表DR之间的分割关系。数据记录DR:数据记录DR可以用一个二元组(D, G)表示。D代表记 录属性的集合,G代表属性之间的聚合关系。HTML Tag树HTML文档可以通过XML解析器解析成具有树形结构的 DOM(Document Object Model,文档对象模型)模型,DOM模型具有树形结构 特征,而在HTML文档中每一对标记(Tag)映射为DOM树中一个节点,其中 标记(Tag)主要用于标题,段落和分行等。通过标记Tag映射成的DOM树称 为HTML Tag树。领域本体 一个特定领域相关的术语或词汇的集合,如医学,教育等。一 般某领域的本体知识库中所有概念都可以通过其包含的不同属性加以区分。如 果存在两种不同的概念,则两个概念所对应的属性集合, 一定存在不同之处。 领域本体知识库生成的方法可以通过网站的査询接口模式和领域的集成査询接口模式中获取,可采用文献(Yoo Jung An,James Geller,Yi-Ta Wu and Soon Ae Chun. Automatic Generation of Ontology from the Deep Web.In Proc.l8th Intel. Workshop on DESA,IEEE 2007.)中自动生成本体的方法。从数据的组成上来看,因为复杂列表页面的数据充足(Data-rich)区域,是 由数据记录(Data Record)以迭代方式产生的。我们可以定义一个局部领域 本体文件用来描述该列表页的数据实例对象和相互关系。复杂列表页面的数据 记录皆是该本体文件描述的对象实例。本专利技术基于所研究的复杂页面均由同一模板根据数据库内容自动生成,且 噪声区的内容保持不变,其复杂性主要体现在DR布局的复杂性以及DR记录 同时包含文字和图像。在此假定下,对于复杂页面的包装器自动化生成方法,主要存在以下一些关键问题包装器生成器子模块是其中的核心模块,其主要任务就是从DR集块中找 到用户需要抽取的记录字段。包装器生成器借助标注分析器模块来帮助我们定 位聚集块中的属性。标注分析器模块主要依赖基于领域本体的属性规则配置文 件。在标注出语义信息之后,根据其在Html Tag树中的结构特征以及属性的 模式特征,输出其提取的正则表达式规则,用XML的形式存储在XML库文 件中。(1) Data-rich区(DS)发现。从数据上看,Data-rich区就是Web上数据记 录的集合。分类列表页面不仅包含数据记录集区域,也包含广告条、导航条等 区域。这里我们采用比较基于同一模板生成的两个列表页,经过一些预处理步 骤,去除掉广告和导航信息栏等噪声区,找到包含数据记录集合的最小区域, 即为Data-rich区。(2) 数据记录(DR)的识别。从Data-rich区域本文档来自技高网
...

【技术保护点】
一种用于复杂页面的包装器自动生成方法,其特征在于:包括下列步骤: (1)获取基于同一模板生成的两个HTML页面文档,利用XML解析器分别解析成具有树形结构的文档对象模型,即HTML标记树; (2)比较步骤(1)获得的两个HTML标记树,去除噪声区,获得包含数据记录集合的最小区域DS; (3)从所述最小区域中获取初始数据记录,其方法是,从HTML标记树中得到DS区的最长公共子串,通过发现DS区中的重复区域来识别出初始的数据记录DR,所述数据记录用一个二元组(D,G)表示,D代表记录属性的集合,G代表属性在Html页面的布局组合关系; (4)根据初始的数据记录DR的布局组合关系,依据特征项的相似度,确定抽取项的聚集关系,并结合领域本体的知识,对同一聚集块中实体进行语义标注,根据实体间语义关系重新组合成新的数据记录DR2; (5)根据步骤(4)中生成的数据记录DR2在HTML标记树中的位置关系,生成每个聚集块的抽取规则,然后构建包装器。

【技术特征摘要】

【专利技术属性】
技术研发人员:崔志明方巍赵朋朋
申请(专利权)人:苏州普达新信息技术有限公司
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1