一种表格结构识别方法技术

技术编号:30764877 阅读:36 留言:0更新日期:2021-11-10 12:21
本发明专利技术涉及一种表格结构识别方法,属于模式识别技术领域。包括两个过程:初始行列生成阶段和行列生成阶段。在初始行列生成阶段,通过启发式的算法将有重叠区域的单元格组织成初始行与初始列;由于没有重叠关系的单元格也可能存在同行/列关系,因此在行列生成阶段,利用图神经网络来主要预测没有重叠区域的单元格之间的行列关系,作为遗漏关系的补充;为了降低预测的计算复杂度,单元格之间的关系实际上通过预测单元格与初始行/初始列之间的关系得到。对比现有技术,本发明专利技术减少了模型需要判断关系的单元格数,并基于初始行与初始列给后续图模型的构建以及特征提取提供了先验知识;最后能够生成表格的行与列,其能完全还原表格的结构。的结构。的结构。

【技术实现步骤摘要】
一种表格结构识别方法


[0001]本专利技术涉及表格识别技术,特别涉及一种表格结构识别方法,属于计算机技术、模式识别、人工智能


技术介绍

[0002]表格含有丰富的结构化数据,因而对数据挖掘应用而言是一种重要的数据源。然而,在广泛使用的文档格式例如PDF或者图像中,表格的结构化信息是不能够直接利用的。为了能够从这些格式的文档中提取出表格的结构,一般的做法是人为设定规则,例如检测表格的框线,之后根据文档与规则是否匹配进行后续处理。然而,由于表格的样式多变,例如表格中的框线不存在,导致人为设定的规则无法适用于各式各样的表格。为了处理不同样式的表格,一种较好的方式是通过数据驱动的方式,使机器自动地学习与样式无关的特征,并将学习到的特征用于表格结构的提取。
[0003]目前,一种基于图注意力网络的表格结构识别方法已经被提出,该方法通过工具获得单元格的空间位置,之后根据单元格的空间分布,设定了一系列的初始特征,初始特征通过图注意力网络得到深度特征,深度特征最后被用于判断表格中每个单元格与其k个最近单元格是否存在行、列关系。这种方法具备本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种表格结构识别方法,其特征在于,包括初始行列生成阶段和行列生成阶段;在初始行列生成阶段,将有重叠区域的单元格组织成初始行与初始列;在行列生成阶段,利用图神经网络预测没有重叠区域的单元格之间的行列关系,作为所述初始行列生成阶段遗漏关系的补充。2.根据权利要求1所述的方法,其特征在于,在所述初始行列生成阶段,利用文档特征,从文档中提取单元格的位置信息,利用单元格的位置信息判断不同单元格之间垂直/水平方向上是否存在重叠区域,从而初步判断不同单元格之间是否存在同行/列关系,之后根据单元格的高度/宽度信息将有同行/列关系的单元格组织为初始行/初始列。3.根据权利要求1或2所述的方法,其特征在于,在所述行列生成阶段,基于所述初始行和所述初始列,构造两个分别用于将单元格匹配到所述初始行与所述初始列中的图,利用所述图判断单元格与所述初始行或所述初始列之间的关系,最终生成的行为所述初始行以及所有与所述初始行匹配的单元格的并集,最终生成的列为所述初始列以及所有与所述初始列匹配的单元格的并集。4.根据权利要求3所述的方法,其特征在于,在所述初始行列生成阶段:

从输入文档中提取表格对应的单元格信息,其中,单元格的位置由单元格中实际包含的文字界定;

根据所述单元格信息获取不同单元格之间在水平/垂直方向上的重叠区域,从而得到不同单元格之间的同列/行关系,将同行关系记录在D
r
中,将同列关系记录在D
c
中;

初始化初始行集合PR={}和初始列集合PC={};

向集合PR中添加元素:若存在尚未标记的单元格,则从所有单元格中,选择未被标记的单元格,并从D
r
中找出所有与其存在同行关系的单元格,将被选择的单元格以及所有与其存在同行关系的单元格合并为初始行pr
i
,将产生的pr
i
添加至PR中,并标记所有存在于pr
i
中的单元格,返回

;否则,保存PR,退出



向集合PC中添加元素:若存在尚未标记的单元格,则从所有单元格中,选择未被标记的单元格,并从D
c
中找出所有与其存在同列关系的单元格,将被选择的单元格以及所有与其存在同列关系的单元格合并为初始列pc
i
,将产生的pc
i
添加至PC中,并标记所有存在于pc
i
中的单元格,返回

;否则,保存PC,退出

。5.根据权利要求4所述的方法,其特征在于,

中所述选择未被标记的单元格为选择高度最小且水平方向左边界最小、垂直方向上边界最小的未被标记的单元格。6.根据权利要求4所述的方法,其特征在于,

中所述选择未被标记的单元格为选择宽度最小且垂直方向上边界最小、水平方向左边界最小的未被标记的单元格。7.根据权利要求4

6任一所述的方法,其特征在于,在所述行列生成阶段:列的生成:

计算排名:对所述PC中每一个初始列,计算其水平方向的平均边界,并根据平均边界对初始列进行排名,因为对于每个单元格水平方向存在两个边界值,因此每个初始列也存在两个排名值;

初始化无向图G;

构造图G中的节点:图中存在两种节点:初始列节点以及单元格节点;第i个初始列节点用三维向量表示,其中第一、二维为初始列的两个排名值,第三维为所述PC中初始列的数目;第i个单元格存在于若干初始列{pc
p1
,pc
p2
,

,pc
pn
}和若干初始行{pr
q1<...

【专利技术属性】
技术研发人员:张美慧李辉超
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1