表格元素识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:36609941 阅读:17 留言:0更新日期:2023-02-08 09:57
本发明专利技术公开了一种表格元素识别方法、装置、计算机设备和存储介质,其中,该方法包括:根据待处理表格的单元格构建中间处理图;提取所述中间处理图中至少一个节点的特征信息,其中,所述特征信息至少包括文本特征信息和位置特征信息;根据预先训练的图神经网络处理所述特征信息以确定各所述单元格对应的表格元素。本发明专利技术实施例通过在表格元素识别过程保留原始的表格语义特征,可提高表格元素识别的准确性。性。性。

【技术实现步骤摘要】
表格元素识别方法、装置、计算机设备和存储介质


[0001]本专利技术实施例涉及计算机应用
,尤其涉及一种表格元素识别方法、装置、计算机设备和存储介质。

技术介绍

[0002]表格是各类文档中场景信息承载对象,其作为信息化生活的重要数据组织和展示方式得到广泛应用,然而随着文档数目的爆炸性增长,如何高效的从文档中找到表格,并识别出表格的结构信息以及内容信息成为一个亟待解决的问题。其中,表格结构识别尤其成为业界研究的重点。
[0003]表格结构检测是从页面中检测出表格所在的区域,在表格区域的基础上,识别表格的逻辑结构和内容,识别到的逻辑结构可以包括表格的行列和层次等。目前常见的表格逻辑结构识别主要通过光学字符识别(Optical Character Recognition,OCR)技术实现,例如,基于卷积神经网络的电子表格检测以及基于图神经网络的发票单据表检测、结合角点定位的表格检测、基于区域卷积神经网络的表检测等,然而上述方案常常需要对将表格数据转换为图像数据进行处理,使得表格数据失去了其本身的语义特征,导致表格元素识别的准确率较差。

技术实现思路

[0004]本专利技术提供一种表格元素定位方法、装置、计算机设备和存储介质,以实现数据表格元素识别,保留数据表格的语义特征以及结构特征,可增强表格元素识别的准确性,便于后续表格数据的检测与处理。
[0005]第一方面,本专利技术实施例提供了一种表格元素识别方法,其中,该方法包括:
[0006]根据待处理表格的单元格构建中间处理图;
[0007]提取所述中间处理图中至少一个节点的特征信息,其中,所述特征信息至少包括文本特征信息和位置特征信息;
[0008]根据预先训练的图神经网络处理所述特征信息以确定待处理表格内各单元各的表格元素。
[0009]第二方面,本专利技术实施例还提供了一种表格元素识别装置,其中,该装置包括:
[0010]图构建模块,用于根据待处理表格的单元格信息构建中间处理图;
[0011]特征提取模块,用于提取所述中间处理图中至少一个节点的特征信息,其中,所述特征信息至少包括文本特征信息和位置特征信息;
[0012]元素确定模块,用于根据预先训练的图神经网络处理所述特征信息以确定待处理表格内各单元各的表格元素。
[0013]第三方面,本专利技术实施例还提供了一种计算机设备,该计算机设备包括:
[0014]一个或多个处理器;
[0015]存储器,用于存储一个或多个程序,
[0016]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术实施例中任一所述的表格元素识别方法。
[0017]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本专利技术实施例中任一所述的表格元素识别方法。
[0018]本专利技术实施例,通过按照待处理表格的单元格构建中间处理图,提取中间处理图中各节点的特征信息,将特征信息输入到预先训练的图神经网络处理以确定各单元格对应的表格元素,本专利技术实施例在表格元素识别过程保留原始的表格语义特征,可提高表格元素识别的准确性。
附图说明
[0019]图1是本专利技术实施例一提供的一种表格元素识别方法的流程图;
[0020]图2是本专利技术实施例一提供的一种中间处理图构建的示例图;
[0021]图3是本专利技术实施例一提供的一种图神经网络的结构示意图;
[0022]图4是本专利技术实施例一提供的一种表格的结构示意图;
[0023]图5是本专利技术实施例一提供的一种图神经网络的训练流程图;
[0024]图6是本专利技术实施例二提供的一种表格元素识别方法的流程图;
[0025]图7是本专利技术实施例二提供的一种小样本学习的示例图;
[0026]图8是本专利技术实施例二提供的一种图神经网络的示例图;
[0027]图9是本专利技术实施例三提供的一种表格元素识别装置的结构示意图;
[0028]图10是本专利技术实施例四提供的一种计算机设备的结构示意图;
[0029]图11是本专利技术实施例五提供的一种芯片的结构示意图。
具体实施方式
[0030]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构,此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0031]实施例一
[0032]图1是本专利技术实施例一提供的一种表格元素识别方法的流程图,本实施例可适用于海量文档中表格元素识别的情况,该方法可以由表格元素识别装置来执行,该装置可以采用硬件和/或软件的方式来实现,参见图1,本专利技术实施例提供的表格元素识别方法具体可以包括如下步骤:
[0033]步骤110、根据待处理表格的单元格构建中间处理图。
[0034]其中,待处理表格可以是文档文件中出现的表格信息,待处理表格可以位于不同格式的数据文档中,该数据文档可以包括图片、文字、音频、视频等其他数据元素,示例性的,待处理表格可以是Word文档中的数据表格。单元格可以是待处理表格的组成部分,单元格可以是待处理表格中行和列的交叉区域。中间处理图可以是有待处理表格转换生成的节点图,每个单元格可以是中间处理图中的一个节点,中间处理图可以通过邻接矩阵或者邻
近链表的方式表示。
[0035]在本专利技术实施例中,可以按照待处理表格中的单元格分别作为节点构建中间处理图。图2是本专利技术实施例一提供的一种中间处理图构建的示例图,参见图2,可以获取待处理表格中的单元格作为中间处理图的节点,以及单元格之间的相邻关系作为中间处理图的边。
[0036]步骤120、提取中间处理图中至少一个节点的特征信息,其中,特征信息至少包括文本特征信息和位置特征信息。
[0037]其中,节点可以是中间处理图的组成部分,具体可以代表表格中的单元格,中间处理图中的节点可以存储有单元格的属性信息,例如,文字、颜色、字体等。特征信息可以是反映单元格特征的信息,可以包括单元格的属性信息,例如文字或者单元格位置等,特征信息可以是隐含特征,可以通过神经网络或者数据统计的方式获取。在本专利技术实施例中,中间处理图中的节点的特征信息可以是待处理表格中单元格的特征信息。
[0038]具体的,可以对中间处理图进行处理,以提取中间处理图中各节点的特征信息,该特征信息可以包括节点对应的单元格的文本特征信息以及位置特征信息,进一步的,各节点的特征信息还可以通过神经网络的方式提取。
[0039]步骤130、根据预先训练的图神经网络处理特征信息以确定各单元格对应的表格元素。
[0040]其中,图神经网络(Graph Neural Network,GNN)可以用于学习包含大量连接关系的图的网络模型,可以对节点进行分类,本质上,图神本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格元素识别方法,其特征在于,所述方法包括:根据待处理表格的单元格构建中间处理图;提取所述中间处理图中至少一个节点的特征信息,其中,所述特征信息至少包括文本特征信息和位置特征信息;根据预先训练的图神经网络处理所述特征信息以确定各所述单元格对应的表格元素。2.根据权利要求1所述的方法,其特征在于,所述图神经网络的训练过程包括:为训练样本集内各样本表格构建对应的样本节点图,其中,所述训练样本集经过小样本学习生成;提取各所述样本节点图内表格节点的特征信息和标签信息以构成特征向量和标签向量;将各所述特征向量和各所述标签向量输入到所述图神经网络进行迭代训练,直到所述图神经网络的损失函数满足预设条件。3.根据权利要求2所述的方法,其特征在于,所述损失函数为其中,Y表示图神经网络的输出,T表示训练样本集,log为对数函数。4.根据权利要求2所述的方法,其特征在于,所述图神经网络中多层感知机使用的连接公式包括以下至少之一:其中,所述x
(k)i
表示第i个样本节点图的包括所述特征向量和所述标签向量的向量集,x
(k)j
表示第j个样本节点图的包括所述特征向量和所述标签向量的向量集,abs表示向量距离函数,k表示第k次训练过程,表示第i个样本节点图和第j个样本节点图的邻接矩阵之间的距离;其中,表示第i个样本节点图和第j个样本节点图的邻接矩阵之间的距离。5.根据权利要求2所述的方法,其特征在于,所述经过小样本学习生成所述训练样本集,包括:将原始训练样本集划分为支持集和查询集,其中,所述支持集包括的样本表格标记有表格元素标签;使用预先训练的小样本学习网络按照所述支持集确定出所述查询集的表格元素标签;将具有所述表格元素标签的所述查询集和所述支持集作为训练样本集。6.根据权利要求5所述的方法,其特征在于,所述小样本学习网络包括以下至少一种:原型网络模型、关系网络模型、模型无关元学习模型、度量学习模型。7.根据权利要...

【专利技术属性】
技术研发人员:罗光圣
申请(专利权)人:上海爱数信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1