一种基于结构识别的Web表格信息抽取方法技术

技术编号:12308463 阅读:119 留言:0更新日期:2015-11-11 17:34
本发明专利技术涉及一种基于结构识别的Web表格信息抽取方法。在该方法过程中,表格结构的识别采用了两种渐进式的方法进行。首先采用了一组启发式的规则对常见的几种类型的表格进行结构的判断,从而确定了Web中较大一部分表格的结构类型;对通过启发式规则未能识别的表格,采用字符串匹配的方式进行,被匹配的单元格被限定在ULC(upper-left-cell)所在的行或列中,这样就可以大大减少需要进行字符串匹配的内容,提高了匹配和识别的效率。最后,从总的两个维度的表格出发,分别提出了在信息抽取过程中合成单元格的处理策略问题,可以在保证抽取结果中数据间的关系不被破坏的基础上,尽可能的降低冗余数据的产生。

【技术实现步骤摘要】

本专利技术属于Web信息抽取
,可用于对Web文档中表格信息的抽取和存储, 特别是对数据间关系难以理解的复杂Web表格的信息抽取问题具有较好的处理能力。
技术介绍
信息抽取是数据挖掘领域的一个重要研究方向,海量存在的Web资源又使得面向 Web的信息抽取成为当前该领域的研究热点。在形式各异的Web信息中,表格(Tables)是 Web文档中一种重要的数据表现形式,通常用于组织所描述对象的基本信息、统计数据等。 由于这些结构化的数据具有的较高的使用价值,因此进行表格数据抽取的研究具有重要的 意义。然而,HTML标记语言主要用于对数据进行展示,不具有对数据进行描述的能力。Web 表格结构往往体现着数据间的关系,这种结构的解读依赖于用户的理解,而应用程序则无 法直接读懂这些信息。在将复杂结构的Web表格转化成面向存储的逻辑模型时,需要考虑 单元格的类型、数据间的关联约束等问题。因此,如何解决这些问题来正确理解表格结构就 成为对表格信息进行准确抽取的关键。 早在 1996 年,《Graphics Recognition Methods and Applications》中的一篇 文章《Model-based analysis of printed tables》就曾对表头单元格、属性单元格和数 据单元格进行了层次上的划分,并通过label标记的方法对不同逻辑层次的单元格进行了 表示。但是该研究的对象仅限于出版物中的表格,这类规范化程度较高的表格和格式约束 较少的Web表格存在较大差异。此外,文中提出的单元格层次的划分方法在实际的处理过 程中难度较大,并不适合通过编程语言进行操作。在2001年Pacific Association for Computational Linguistics 的论文集中,《Extraction ontologies from World Wide Web via HTML tables》一文提出了一种基于字符串比对的表格结构识别方法,但是该方法没有 充分利用表格自身的特点,并且进行结构识别时需要比对的字符串较多,这就对表格结构 识别的效率造成了影响。第八届《Information and knowledge management》国际会议中 的一篇文章 《An automated approach for retrieving hierarchical data from HTML tables》介绍了两种类型的数据层次的概念,并提出了一种基于表格中数据层次关系的内 容树(content tree,CT)的构建方法。国内在Web表格信息抽取领域的研究也取得了一 定的进展,合肥工业大学2012年度的一篇硕士学位论文《基于Web结构的表格信息抽取研 究》提出了一种基于路径模式挖掘的Web表格信息抽取方法;而燕山大学2008年度的硕士 学位论文《基于表格结构的Web信息提取技术研究》则提出了一种基于HTML结构树的列 表信息提取方法。但是表格结构识别方面的研究大多集中在通过本体的方法进行,和国 外的研究相比思路较为单一、方法的可操作性不强。表格的结构模型直接决定着信息的抽 取策略,不仅要能体现原表格中数据间的关系,又要尽可能减少冗余数据的产生。其中涉 及到的一个主要问题就是如何使表格更加规整化,即如何处理存在rowspan和colspan情 况的单元格。目前采用的最主要的方法就是如Proceedings of the 18th conference on Computational linguistics-volume I. Association for Computational Linguistics 中的一篇文章 《Mining tables from large scale HTML texts》所介绍的"将单元格按照 rowspan和colspan的值划分成相应数量的基本单元格,并将原单元格中的内容复制到这 些单元格中"的方法。这种方法虽然能在一定程度上保留原数据间的关系,但是不可避免的 会造成大量重复数据(冗余数据)的出现。 本专利技术从表格自身所隐含的规则出发,探寻一种简单、有效的表格结构识别方法, 以便于对Web表格信息进行准确抽取;并通过对两种维度表格特征的分析提出新的、面向 存储的值单元格处理方法,可以在一定程度上减少冗余数据的产生。
技术实现思路
本专利技术的目的是为了解决Web中表格信息的抽取问题,尤其是复杂表格的信息抽 取策略。通常在对后者进行信息抽取时,数据间关系的难以理解会对抽取结果的准确性造 成影响。 本专利技术的技术方案如下: 对于一个给定的Web表格,首先经过启发式规则对其结构特征进行判断。如果该 Web表格的结构类型经过启发式规则未能被判断出,再通过字符串匹配的方法来区分属性 单元格区域和值单元格区域,从而确定表格的结构类型。根据表格结构类型的判断结果,一 维表格中的值单元格按照所对应的属性单元格的rowspan或colspan的值(属性单元格位 于属性行中,则根据属性单元格的colspan. value ();属性单元格位于属性列中,则根据属 性单元格的:rowspan. value ())进行处理;二维表格中的值单元格按照其所对应的两个属 性单元格的rowspan和colspan的值进行处理,两个属性单元格所需考虑的情况同一维表 格的处理方式。表1和表2分别展不了一维表格和二维表格的实例。 表1 一维表格实例 表2 ULC为空的二维表格的实例 本专利技术的核心是:提出了一种快速判断Web表格结构的方法,并针对两种结构类 型的表格制定了相应的抽取策略,该策略使得抽取结果在保证原有的数据间关系的基础上 尽可能地减少存储时冗余数据的产生。 本专利技术的关键之一是:归纳出了快速识别Web表格结构的启发式规则。即当表格 的左上角的单元格为空时,表格为二维表格。首先通过这一规则对Web表格的结构类型进 行判断;在该规则未能适用的情况下,可根据<th>标签进行表格结构的识别。基于的规则 为:如果表格中存在<th>标签构造的属性单元格,则该表格中所有的属性单元格均由<th> 标签构造而成。 本专利技术的关键之二是:采用字符串编辑距离(Edit Distance,也称为Levenshtein Distance)对单元格中内容字符串间的相似度进行计算。给出了通过多次实验得出的 区分属性字符串和值字符串间相似度的阈值;需要进行相似度计算的单元格被限定在 ULC(upper-left_cell,左上角的单元格)所在的行和列中。 本专利技术关键之三是:对一维表格(包括横向展开和纵向展开两种情况),按照属性 单元格的cell, rowspan. value()或cell, colspan. value()对所在列或行中的值单元格进 行切分。基于的考虑是,合成的值单元格的处理方式依赖于其所对应的属性单元格。即尽 管一个值单元格可以同时对应多个属性单元格,但是用户在阅读表格的时候通常还是按照 一个"属性"对应一个"值"的方式去理解。如果该属性单元格位于属性行中,则只考虑其 rowspan的值。而如果该属性单元格位于属性列中,则只需考虑本文档来自技高网
...

【技术保护点】
一种基于结构识别的Web表格信息抽取方法,其特征是该方法步骤如下:首先通过启发式规则对表格的结构进行识别,启发式规则为:①表格左上角的单元格的英文名称为upper‑left‑cell,缩写为ULC,当该单元格中的内容为空时,表格为二维表格,当该单元格中的内容不为空且表格中的内容存在属性‑值关系时,ULC为属性单元格;②当表格中由<th>标签构造的单元格的个数大于2且这些单元格位于表格中的同一行或同一列时,这些单元格是表格的属性单元格;对于符合启发式规则的表格,当识别出的属性区域仅按行展开,则表格为一维表格,当属性区域同时按行和按列展开,则表格为二维表格;一维表格二维表格对于通过步骤1不能进行结构识别的表格,再根据表格中同一属性下的值在内容上具有相似性这一特点,采用字符串编辑距离的方法对单元格中内容字符串间的相似度进行计算,进而区分出表格中的属性单元格区域和值单元格区域;通过对50组不同属性下的属性值组进行内容相似度的计算,得出同一属性下属性值间相似度的阈值为0.3;为了减少进行表格结构识别时相似度计算的次数,根据步骤1中的启发式规则①和表格右下角单元格为值单元格这一特点,仅对ULC和右下角单元格所在的行和列中的单元格进行内容相似度计算,当相似度的值大于0.3,两个单元格中的值同属一个属性,反之则不属于;在进行相似度计算后,当识别出的属性区域仅按行展开,则表格为一维表格,当属性区域同时按行和按列展开,则表格为二维表格;通过上述两步骤之后即可判定表格的结构类型,对于一维表格中横向展开的类型,当值单元格C2的属性colspan的值大于其所在行中属性单元格C1的属性colspan的值,则将该值单元格进行分割,得到的两个新的单元格的rowspan的值不变,colspan的值分别为C1.colspan.value、C2.colspan.value‑C1.colspan.value,否则不对该值单元格进行处理;对于一维表格中纵向展开的类型,当值单元格C2的属性rowspan的值大于其所在列中属性单元格C1的属性rowspan的值,则将该值单元格进行分割,得到的两个新的单元格colspan的值不变,rowspan的值分别为C1.rowspan.value、C2.rowspan.value‑C1.rowspan.value,否则不对该值单元格进行处理;对于二维表格,包括ULC为空或不为空的两种情况,分别根据值单元格所在行中的属性单元格的colspan的值和所在列中的单元格的rowspan的值对该值单元格进行分割,分割的方法同一维表格的处理过程。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘东朱鸿乔李新明邢维艳李艺李亢王寿彪饶磊闫雪飞于少波李强
申请(专利权)人:中国人民解放军装备学院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1