一种联合卷积与图神经网络的表格结构识别方法技术

技术编号:33210394 阅读:9 留言:0更新日期:2022-04-24 01:04
本发明专利技术公开了一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述方法包括:构建联合卷积图神经网络,所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络;利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络;使用二维卷积神经网络预测表格各单元格中心点坐标,基于中心点构建表格结构的图,利用所述的图神经网络对图的每条边进行分类;后处理算法处理分好类的表格结构的图,得到各单元格的结构属性,并转换为描述表格结构的标记语言。本发明专利技术方法提供一种端到端可训练的基于图神经网络显示建模表格结构的方法来高效识别表格结构。别表格结构。别表格结构。

【技术实现步骤摘要】
一种联合卷积与图神经网络的表格结构识别方法


[0001]本专利技术属于图像处理及模式识别
,尤其涉及一种联合卷积与图神经网络的表格结构识别方法。

技术介绍

[0002]表格是易于人理解的,强有力的信息展现工具,常出现在纸张照片或电子扫描图片形式的文档中,用于直观展示信息。但图像中的表格为非结构化数据,无法直接被计算机解析理解。而且表格存在共用行列单元格的情况,具有复杂的结构,加大了表格结构解析算法的开发难度。这些困难阻碍了文档中表格信息自动解析、识别及数字化技术的发展,因此亟需专利技术具有高精度识别图像中表格结构的计算机算法,以解决上述问题。
[0003]深度学习技术在表格结构识别任务上取得长足进展,目前基于深度学习的表格结构识别方法可以分为三种:基于分割及后处理的方式、基于图像到序列端到端的方式和基于图神经网络的方式。基于分割的方式得到的是各单元格、行或列的位置信息,还须依赖进一步的复杂后处理才能得到表格结构,这增加了算法的步骤以及引入了复杂后处理出错时新的识别误差。基于图像到序列端到端的方式,虽然省略了后续的处理步骤,一步到位地实现了图像结构的标记语言(如Latex、HTML等)的预测输出,但是现有模型没有显示地利用表格结构天然的逻辑关系信息,限制了模型的精度上限。基于图神经网络的方式,根据表格单元格结构关系,显示地建立图后应用图神经网络对图顶点、边进行分类或回归得到各单元格结构属性,实现表格结构的预测,但是该方法通常需要使用文本检测算法预先得到单元格各文本行的区域,然后再利用这些区域坐标来构建图,而非端到端可训练的方式,这导致一方面降低了模型的识别效率,另一方面没有在训练过程中结合单元格分割任务及图分类任务的标签信息以提高精度。
[0004]综上所述,现有表格结构识别方法还没有能显示建模表格结构的端到端识别方法,以同时提高模型识别精度及效率。因此,需要提供一种端到端可训练的基于图神经网络显示建模表格结构的方法来识别表格结构。

技术实现思路

[0005]有鉴于此,有必要针对上述技术问题,提供一种联合卷积与图神经网络的表格结构识别方法,所述方法提供了一种端到端可训练的基于图神经网络显示建模表格结构的方式,能够高精度、高效地识别表格结构。
[0006]一种联合卷积与图神经网络的表格结构识别方法,包括以下步骤:步骤1,构建联合卷积图神经网络,所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络,所述的深度二维卷积神经网络输出的图像特征,作为所述的二维卷积神经网络和所述的图神经网络的输入;步骤2,利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络;
步骤3,所述的深度二维卷积神经网络用于提取表格图像高维语义特征,使用二维卷积神经网络预测表格各单元格中心点坐标,基于中心点构建表格结构的图,利用所述的图神经网络对图的每条边进行分类;步骤4,后处理算法处理分好类的表格结构的图,得到各单元格的结构属性,并转换为描述表格结构的标记语言。
[0007]具体地,所述的深度二维卷积神经网络为关键点识别深度卷积神经网络HRNet的前3个阶段:,其中,为输入3通道RGB图像,stage
i
为HRNet网络中第i个包含图像不同分辨率特征提取分支的卷积模块;所述的二维卷积神经网络为为关键点识别深度卷积神经网络HRNet的第4阶段部分:。
[0008]可选地,所述的图神经网络采用图注意力网络:,其中,g为基于中心点构建的表达表格结构的图,表示图注意力网络。
[0009]可选地,所述图神经网络采用图卷积神经网络:,其中,g为基于中心点构建的表达表格结构的图,表示图卷积神经网络。
[0010]进一步地,所述的基于中心点构建表格结构的图,包括如下步骤:计算CNN特征张量,其中为与结构相同,权重不共享的卷积模块;对每个顶点采用K

NN算法,构建图g的边;根据各中心点坐标索引CNN特征张量得到图每个顶点的CNN特征向量,其中h,w为图像高与宽方向上的坐标;拼接CNN特征向量与中心点坐标及中心点相对坐标,得到每个顶点的特征向量f
n
,其中n为顶点编号;
根据边两个顶点的CNN特征向量,取均值得边的CNN特征向量,并拼接两顶点的x轴绝对与相对距离、y轴绝对与相对距离和绝对与相对欧式距离,得到每个边的特征向量v
m
,其中m为边的编号:其中H,W分别为图像的高与宽,由此获得图g=({f
n
}, {v
m
}, A),其中A为图g的邻接矩阵。
[0011]更进一步地,所述的训练联合卷积图神经网络的过程中,单元格中心点坐标预测网络的损失函数采用均方误差损失:,其中为单元格中心点坐标预测网络的输出,为二阶张量,W、H分别为的宽与高,为各单元格中心点对应的热力图标签;图分类任务的损失函数采用交叉熵损失函数:其中为图神经网络的输出,为二阶张量,高等于类别数3,宽为边的个数,为每条边的类别标签,3种类别分别是相邻同行、相邻同列和不相邻;总损失函数采用如下以任务不确定度倒数平方和为权重的和的加权求和形式:;以最小化为目标,利用Adam优化算法数值求解、和、、网络参数的最优解。
[0012]优选地,所述的预测表格各单元格中心点坐标,包括以下步骤:二值化单元格中心点坐标预测网络的输出;
寻找二值图中所有连通区域的轮廓;利用轮廓中心矩求解每个轮廓的几何中心得到各单元格中心点的预测坐标。
[0013]具体地,所述利用图神经网络对构建的图g的每条边进行分类,具体包括,第j条边的分类预测结果为。
[0014]具体地,所述各单元格的结构属性,包括起始行、列号和结束行列、列号。
[0015]更进一步地,所述后处理算法,包括以下步骤:对分好类的图g的每个顶点按行进行排序,对于跨多行的节点,将行号取值为所有左同行相邻顶点中y值最小的顶点的行号,得到每个单元格起始行号;对g每个顶点按行进行排序,对于跨多行的节点,将行号取值为所有左同行相邻顶点中y值最大的顶点的行号,得到每个单元格结束行号;对g每个顶点按列进行排序,对于跨多列的节点,将列号取值为所有下同列相邻顶点中x值最小的顶点的列号,得到每个单元格起始列号;对g每个顶点按列进行排序,对于跨多列的节点,将列号取值为所有下同列相邻顶点中x值最大的顶点的列号,得到每个单元格结束列号。
[0016]与现有技术相比,本专利技术的有益效果在于,本专利技术方法能够同时完成表格各单元格中心点坐标预测任务与表格结构的图分类任务,通过多任务学习方式联合训练中心点预测卷积神经网络与用于表格结构图分类的图神经网络,提高了网络整体预测的性能,能够高精度地对表格各单元格中心点连接构成的图的边关系进行分类,基于边分好类的图通过后处理计算各单元格结构属性,完成表格(全线表、各类省线表)结构的识别。
附图说明
[0017]图1示出了本专利技术实施方法的流程示意图。
具体实施方式
[0018]为了使本专利技术的目的、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述方法包括:构建联合卷积图神经网络,所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络,所述的深度二维卷积神经网络输出的图像特征,作为所述的二维卷积神经网络和所述的图神经网络的输入;利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络;所述的深度二维卷积神经网络用于提取表格图像高维语义特征,使用二维卷积神经网络预测表格各单元格中心点坐标,基于中心点构建表格结构的图,利用所述的图神经网络对图的每条边进行分类;后处理算法处理分好类的表格结构的图,得到各单元格的结构属性,并转换为描述表格结构的标记语言。2.如权利要求1所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述的深度二维卷积神经网络为关键点识别深度卷积神经网络HRNet的前3个阶段:,其中,为输入3通道RGB图像,stage
i
为HRNet网络中第i个包含图像不同分辨率特征提取分支的卷积模块;所述的二维卷积神经网络为为关键点识别深度卷积神经网络HRNet的第4阶段部分:。3.如权利要求2所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述的图神经网络采用图注意力网络:,其中,g为基于中心点构建的表达表格结构的图,表示图注意力网络。4.如权利要求2所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,所述图神经网络采用图卷积神经网络:,其中,g为基于中心点构建的表达表格结构的图,表示图卷积神经网络。5.如权利要求3或4所述的一种联合卷积与图神经网络的表格结构识别方法,其特征在于,基于中心点构建表达表格结构的图,包括如下步骤:计算CNN特征张量,其中为与结构相同,权重不共享的卷积模块;
对每个顶点采用K

NN算法,构建图g的边;根据各中心点坐标索引CNN特征张量得到图每个顶点的CNN特征向量,其中h,w为图像高与宽方向上的坐标;拼接CNN特征向量与中心点坐标及中心点相对坐标,得到每个顶点的特征向量f
n
,其中n为顶点编号;根据边两个顶点的CNN特征向量,取均值得边的CNN特征向量,并拼接两顶点的x轴绝对与相对距离、y轴绝对与相对距离和绝对与相对欧式距离,得到每个边的特征向量v
m
,其中m为边的编号:其中H和W分别...

【专利技术属性】
技术研发人员:黄双萍杨帆
申请(专利权)人:人工智能与数字经济广东省实验室广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1