一种基于结构识别的Web表格信息抽取方法技术

技术编号：12308463 阅读：119 留言：0更新日期：2015-11-11 17:34

本发明专利技术涉及一种基于结构识别的Web表格信息抽取方法。在该方法过程中，表格结构的识别采用了两种渐进式的方法进行。首先采用了一组启发式的规则对常见的几种类型的表格进行结构的判断，从而确定了Web中较大一部分表格的结构类型；对通过启发式规则未能识别的表格，采用字符串匹配的方式进行，被匹配的单元格被限定在ULC(upper-left-cell)所在的行或列中，这样就可以大大减少需要进行字符串匹配的内容，提高了匹配和识别的效率。最后，从总的两个维度的表格出发，分别提出了在信息抽取过程中合成单元格的处理策略问题，可以在保证抽取结果中数据间的关系不被破坏的基础上，尽可能的降低冗余数据的产生。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于Web信息抽取
，可用于对Web文档中表格信息的抽取和存储，特别是对数据间关系难以理解的复杂Web表格的信息抽取问题具有较好的处理能力。
技术介绍
信息抽取是数据挖掘领域的一个重要研究方向，海量存在的Web资源又使得面向 Web的信息抽取成为当前该领域的研究热点。在形式各异的Web信息中，表格（Tables)是 Web文档中一种重要的数据表现形式，通常用于组织所描述对象的基本信息、统计数据等。由于这些结构化的数据具有的较高的使用价值，因此进行表格数据抽取的研究具有重要的意义。然而，HTML标记语言主要用于对数据进行展示，不具有对数据进行描述的能力。Web 表格结构往往体现着数据间的关系，这种结构的解读依赖于用户的理解，而应用程序则无法直接读懂这些信息。在将复杂结构的Web表格转化成面向存储的逻辑模型时，需要考虑单元格的类型、数据间的关联约束等问题。因此，如何解决这些问题来正确理解表格结构就成为对表格信息进行准确抽取的关键。早在 1996 年，《Graphics Recognition Methods and Applications》中的一篇文章《Model-based analysis of printed tables》就曾对表头单元格、属性单元格和数据单元格进行了层次上的划分，并通过label标记的方法对不同逻辑层次的单元格进行了表示。但是该研究的对象仅限于出版物中的表格，这类规范化程度较高的表格和格式约束较少的Web表格存在较大差异。此外，文中提出的单元格层次的划分方法在实际的处理过程中难度...

【技术保护点】
一种基于结构识别的Web表格信息抽取方法，其特征是该方法步骤如下：首先通过启发式规则对表格的结构进行识别，启发式规则为：①表格左上角的单元格的英文名称为upper‑left‑cell，缩写为ULC，当该单元格中的内容为空时，表格为二维表格，当该单元格中的内容不为空且表格中的内容存在属性‑值关系时，ULC为属性单元格；②当表格中由<th>标签构造的单元格的个数大于2且这些单元格位于表格中的同一行或同一列时，这些单元格是表格的属性单元格；对于符合启发式规则的表格，当识别出的属性区域仅按行展开，则表格为一维表格，当属性区域同时按行和按列展开，则表格为二维表格；一维表格二维表格对于通过步骤1不能进行结构识别的表格，再根据表格中同一属性下的值在内容上具有相似性这一特点，采用字符串编辑距离的方法对单元格中内容字符串间的相似度进行计算，进而区分出表格中的属性单元格区域和值单元格区域；通过对50组不同属性下的属性值组进行内容相似度的计算，得出同一属性下属性值间相似度的阈值为0.3；为了减少进行表格结构识别时相似度计算的次数，根据步骤1中的启发式规则①和表格右下角单元格为值单元格这一特点，仅...

【技术特征摘要】

【专利技术属性】
技术研发人员：刘东，朱鸿乔，李新明，邢维艳，李艺，李亢，王寿彪，饶磊，闫雪飞，于少波，李强，
申请(专利权)人：中国人民解放军装备学院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人