【技术实现步骤摘要】
一种基于边卷积交互的表格结构识别方法
[0001]本专利技术属于表格结构的识别领域,涉及一种基于边卷积交互的表格结构识别方法。
技术介绍
[0002]文本中的表格提供了一种直观、自然的方式,以便于人类理解的格式呈现数据。表格结构,是单元格之间的行列分布和逻辑关系,包括标题、表头、行和列等。表格结构识别能够更好地得到表中单元格之间的关系,便于实现表格文本描述生成、表格问答等任务。表格结构识别是文档处理中的一项基本任务,结合了物理和逻辑布局识别,还包括分析或识别复杂的表格,旨在提取表格中的数据与结构信息,得到行列线条的分布和单元格之间的逻辑结构。基于其重要性和难度,表格结构识别已经吸引了大量的研究人员在这一领域做出贡献。
[0003]近年来,随着深度学习技术的发展,受到表格识别相关比赛和公开数据集的影响,深度学习方法也越来越多地被应用到表格结构识别任务上来。现有基于深度神经网络的方法主要可以分为两大类:一是基于对象检测的方法,如曼海姆应用科学大学和德国凯泽斯劳滕工业大学等研究团队提出将表格结构识别作为目标检测问题,引入可 ...
【技术保护点】
【技术特征摘要】
1.一种基于边卷积交互的表格结构识别方法,其特征在于,包括以下步骤:首先,构建基于边卷积交互的表格结构识别模型:步骤1:输入表格图像、表格的特征图、表格中的文本行内容信息和位置信息,文本行内容信息指文本内容,文本行位置信息指文本行的坐标,根据文本行内容信息和位置信息得到文本中心位置,并在特征图上与文本中心位置对应处采样,将采样得到的图像特征和文本行位置信息拼接,得到包含文本位置的图像特征;步骤2:以表格中的文本行作为顶点、文本行间的关系作为连边,将表格用网络图的形式表示出来;步骤3:基于边卷积计算每个顶点与距离其最近的M个顶点的边特征,再将顶点和M个边特征进行交互聚合操作;步骤4:基于每个顶点的交互聚合后的特征向量,采用分类网络对顶点间的关系进行分类操作,得到顶点间的关系类别即为表格中各文本行的关系;然后,对基于边卷积交互的表格结构识别模型进行训练;最后,将待识别的表格图像、表格图像的特征图、表格图像中的文本行内容信息和位置信息输入训练后的基于边卷积交互的表格结构识别模型,进行表格结构识别。2.根据权利要求1所述的一种基于边卷积交互的表格结构识别方法,其特征在于,步骤2中,文本行间的关系分为无关系、同单元格、同行、同列四类;通过下式,将表格用网络图的形式表示:其中,V是网络图的顶点的集合,E是网络图的连边的集合,顶点间的关系用大小为V
×
V的邻接矩阵来表示,邻接矩阵的每个元素表示对应的两顶点间的关系类别;步骤4中,基于每个顶点的交互聚合后的特征向量,采用分类网络对顶点间的关系进行分类操作,即是计算更新邻接矩阵,对于邻接矩阵的每个元素,得分概率最大的关系类别即为预测的两顶点间的关系类别。3.根据权利要求1所述的一种基于边卷积交互的表格结构识别方法,其特征在于,步骤3的具体实现过程如下:步骤31:采用图嵌入方法将网络图中每个顶点的包含文本位置的图像特征映射到欧式空间:设文本行数量即网络图中顶点数量为n,采样得到的特征图维度为d,文本行位置信息数量为p,经拼接后,网络图中每个顶点的特征即包含文本位置的图像特征的维度F为特征图维度d和文本框位置特征数量p的线性和,网络图中顶点的特征向量组表示如下式:其中,X
i
表示欧式空间中第i个点x
i
的特征向量;步骤32:基于边卷积计算每个顶点和与其相连的距离其最近的M个点的边特征:在欧式空间内,对每个点x
i
,通过KNN算法找到M个距离点x
i
最近的点x
ij
,将M个点x
ij
按照距离升序排列,得到点x
ij1
,x
ij2
,...,x
ijM
;对点x
i
的特征向量X
i
和与点x
i
相连的距离其最近的M个点x
ij
的特征向量X
j
进行边卷积运算,得到点x
i
和x
ijm
的边特征e
ijm
,m∈[1,M];
步骤33:将边特征e
ijm
和点x
i
的特征向量X
i
进行交互聚合,运算过程如下式所示:其中,表示点x
i
的边卷积交互后的特征向量,
⊙
代表Hadamard积,w
ij
是可学习向量,u
i
是可学习标量;步骤34:利用点x
i
形成目标点集合,从网络图的顶点集合V中依次...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。