表格元素识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:36609930 阅读:19 留言:0更新日期:2023-02-08 09:57
本发明专利技术公开了一种表格元素识别方法、装置、计算机设备和存储介质,其中,该方法包括:根据待处理表格的单元格构建中间处理图;根据预先训练的图卷积神经网络处理所述中间处理图以确定各所述单元格的表格元素。本发明专利技术实施例通过在表格元素识别过程保留原始的表格语义特征,可提高表格元素识别的准确性。可提高表格元素识别的准确性。可提高表格元素识别的准确性。

【技术实现步骤摘要】
表格元素识别方法、装置、计算机设备和存储介质


[0001]本专利技术实施例涉及计算机应用
,尤其涉及一种表格元素识别方法、 装置、计算机设备和存储介质。

技术介绍

[0002]表格是各类文档中场景信息承载对象,其作为信息化生活的重要数据组织 和展示方式得到广泛应用,然而随着文档数目的爆炸性增长,如何高效的从文 档中找到表格,并识别出表格的结构信息以及内容信息成为一个亟待解决的问 题。其中,表格结构识别尤其成为业界研究的重点。
[0003]表格结构检测是从页面中检测出表格所在的区域,在表格区域的基础上,识别 表格的逻辑结构和内容,识别到的逻辑结构可以包括表格的行列和层次等。目 前常见的表格逻辑结构识别主要通过光学字符识别(Optical CharacterRecognition,OCR)技术实现,例如,基于卷积神经网络的电子表格检测以及 基于图神经网络的发票单据表检测、结合角点定位的表格检测、基于区域卷积 神经网络的表检测等,然而上述方案常常需要对将表格数据转换为图像数据进 行处理,使得表格数据失去了其本身的语义特征,导致表格元素识别的准确率 较差。

技术实现思路

[0004]本专利技术提供一种表格元素定位方法、装置、计算机设备和存储介质,以实 现数据表格元素识别,保留数据表格的语义特征以及结构特征,可增强表格元 素识别的准确性,便于后续表格数据的检测与处理。
[0005]第一方面,本专利技术实施例还提供了一种表格元素识别方法,其中,该方法 包括:
[0006]根据待处理表格的单元格构建中间处理图;
[0007]根据预先训练的图卷积神经网络处理所述中间处理图以确定格所述单元格 的表格元素。
[0008]第一方面,本专利技术实施例还提供了一种表格元素识别装置,其中,该装置 包括:
[0009]图构建模块,用于根据待处理表格的单元格构建中间处理图;
[0010]元素确定模块,根据预先训练的图卷积神经网络处理所述中间处理图以确 定格所述单元格的表格元素。
[0011]第三方面,本专利技术实施例还提供了一种计算机设备,该计算机设备包括:
[0012]一个或多个处理器;
[0013]存储器,用于存储一个或多个程序,
[0014]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多 个处理器实现如本专利技术实施例中任一所述的表格元素识别方法。
[0015]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有 计算机程序,该计算机程序被处理器执行时实现如本专利技术实施例中任一所述的 表格元素识别方
法。
[0016]本专利技术实施例,通过生成待处理表格对应的中间处理图,基于预先训练的 图卷积神经网络处理中间处理图,以确定出待处理表格中各单元格对应的表格 元素,本专利技术实施例在表格元素识别过程保留原始的表格语义特征,可提高表 格元素识别的准确性。
附图说明
[0017]图1是本专利技术实施例一提供的一种表格元素识别方法的流程图;
[0018]图2是本专利技术实施例一提供的一种中间处理图构建的示例图;
[0019]图3是本专利技术实施例一提供的一种图卷积神经网络的结构示意图;
[0020]图4是本专利技术实施例一提供的一种表格的结构示意图;
[0021]图5是本专利技术实施例一提供的一种图卷积神经网络的训练流程图;
[0022]图6是本专利技术实施例二提供的一种表格元素识别方法的流程图;
[0023]图7是本专利技术实施例二提供的一种小样本学习的示例图;
[0024]图8是本专利技术实施例二提供的一种图卷积神经网络的示例图;
[0025]图9是本专利技术实施例三提供的一种表格元素识别装置的结构示意图;
[0026]图10是本专利技术实施例四提供的一种计算机设备的结构示意图;
[0027]图11是本专利技术实施例五提供的一种芯片的结构示意图。
具体实施方式
[0028]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需 要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结 构,此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互 组合。
[0029]实施例一
[0030]图1是本专利技术实施例一提供的一种表格元素识别方法的流程图,本实施例 可适用于海量文档中表格元素识别的情况,该方法可以由表格元素识别装置来 执行,该装置可以采用硬件和/或软件的方式来实现,参见图1,本专利技术实施例 提供的表格元素识别方法具体可以包括如下步骤:
[0031]步骤110、根据待处理表格的单元格构建中间处理图。
[0032]其中,待处理表格可以是文档文件中出现的表格信息,待处理表格可以位 于不同格式的数据文档中,该数据文档可以包括图片、文字、音频、视频等其 他数据元素,示例性的,待处理表格可以是Word文档中的数据表格。单元格可 以是待处理表格的组成部分,单元格可以是待处理表格中行和列的交叉区域。 中间处理图可以是有待处理表格转换生成的节点图,每个单元格可以是中间处 理图中的一个节点,中间处理图可以通过邻接矩阵或者邻近链表的方式表示。
[0033]在本专利技术实施例中,可以按照待处理表格中的单元格分别作为节点构建中 间处理图。图2是本专利技术实施例一提供的一种中间处理图构建的示例图,参见 图2,可以获取待处理表格中的单元格作为中间处理图的节点,以及单元格之 间的相邻关系作为中间处理图的边。
[0034]步骤120、根据预先训练的图卷积神经网络处理中间处理图以确定各单元 格的表格元素。
[0035]其中,图卷积神经网络(Graph Convolutional Network,GCN)可以是一 种特征提取器,可以对图数据进行处理,图卷积网络可以对图数据进行节点分 类、图分类、边预测等处理,在本专利技术实施例中,图卷积网络可以预先经过包 含表格元素标签的图数据训练生成,可以对图数据进行分类,以确定出待处理 表格中各单元格所属的表格元素。图3是本专利技术实施例一提供的一种图卷积神 经网络的结构示意图,图3示出了一个两层的图卷积神经网络,该GCN可以包 括一个全连接层,其中,邻居neighbors可以是中间处理图中选定的中心节点, 并根据该中心节点确定的领域,每个节点可以选择固定数量的其他节点作为邻 居,对于每个节点,可以从邻居处获取到该节点的特征信息,假设对每个节点 使用Average函数进行处理,图中所有节点可以均进行相同的操作,可以将计 算得到的平均值输入到图卷积神经网络的下一层。
[0036]具体的,可以将中间处理图输入到预先训练的图卷积神经网络,通过图卷 积神经网络对中间处理图中的节点进行分类,可以理解的是,中间处理图中的 每个节点可以对应待处理表格中的一个单元格。可以根据中间处理图中各节点 的分类结果分别确定出所属的表格元素,也就节点对应的单元格所属的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格元素识别方法,其特征在于,所述方法包括:根据待处理表格的单元格构建中间处理图;根据预先训练的图卷积神经网络处理所述中间处理图以确定各所述单元格的表格元素。2.根据权利要求1所述的方法,其特征在于,所述图卷积神经网络的训练过程包括:为训练样本集内各样本表格构建对应的样本节点图,其中,所述训练样本集经过小样本学习生成;生成各所述样本节点图对应的邻接矩阵和特征矩阵;将各所述邻接矩阵和各所述特征矩阵输入到所述图卷积神经网络进行迭代训练,直到所述图卷积神经网络的损失函数满足预设条件。3.根据权利要求2所述的方法,其特征在于,所述图卷积神经网络中每层使用的激活函数的连接公式如下:H
l+1
=σ(AH
l
W
l
),其中,W
l
为l层的权重参数矩阵,σ(.)为激活函数,A为邻接矩阵,H为特征矩阵,初始状态时4.根据权利要求2所述的方法,其特征在于,所述图卷积神经网络的频谱计算公式如下:其中,可以由输入的邻接矩阵和特征矩阵构成的输入信号矩阵,N表示中间处理图的节点数,f_{k

1}表示图卷神经网络的输入维度,f_{k}表示图卷神经网络的输出维度,表示待学习参数组成的对角矩阵。5.根据权利要求2所述的方法,其特征在于,所述图卷积神经网络的损失函数为下式:其中,x为输入参数,y为输出参数,f
θ
为图卷积神经网络的用于分类的映射函数。6.根据权利要求2所述的方法,其特征在于,所述经过小样本学习生成所述训练样本集,包括:将原始训练样本集划分为支持集和查询集,其中,所述支持集包括的样本表格标记有表格元素标签;使用预先训练的小样本学习网络按照所述支持集确定出所述查询集的表格元素标签;将具有所述表格元素标签的所述查...

【专利技术属性】
技术研发人员:罗光圣
申请(专利权)人:上海爱数信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1