【技术实现步骤摘要】
基于图像的表格还原模型的训练方法及表格还原方法
[0001]本公开涉及计算机
,并且更具体地涉及人工智能领域,具体涉及图像处理、机器学习、深度学习和自然语言处理技术。
技术介绍
[0002]相关技术中,当进行表格还原时,通常会采用传统的基于图像分析的方法,即利用图片原有的表格边框线划分单元格的行列及合并单元格,或者单模态的基于图像识别的方法,从图像中检测行列区域,或者基于人工智能的方法进行处理,先从图片中识别中有哪些文字片段属于同一个单元格,在对文字片段进行分类,判别其是否属于同一个单元格,再对同一个单元格的文本信息结合图像信息判断其是否属于同一行、同一列,然而上述方法往往存在表格还原的准确性差,等技术问题。因此,如何通过训练得到收敛的表格还原模型,并基于表格还原模型高效、准确地进行表格还原,已成为重要的研究方向之一。
技术实现思路
[0003]本公开提供了一种基于图像的表格还原模型的训练方法及基于图像的表格还原方法。
[0004]根据本公开的一方面,提供了一种基于图像的表格还原模型的训练方法,包括:获取所述表格图像的第一图像向量表示和所述表格图像中文本的第一文本向量表示和所述文本对应的位置向量表示;由表格还原模型对所述第一图像向量表示、所述第一文本向量表示和所述位置向量表示进行跨模态关注,得到第二图像向量表示和第二文本向量表示;获取所述第二图像向量表示和所述第二文本向量表示的各自的查询向量,并基于所述查询向量、所述第二图像向量表示和所述第二文本向量表示,输出所述表格图像的类别集合和检测 ...
【技术保护点】
【技术特征摘要】
1.一种基于图像的表格还原模型的训练方法,其中,所述方法包括:获取所述表格图像的第一图像向量表示和所述表格图像中文本的第一文本向量表示和所述文本对应的位置向量表示;由表格还原模型对所述第一图像向量表示、所述第一文本向量表示和所述位置向量表示进行跨模态关注,得到第二图像向量表示和第二文本向量表示;获取所述第二图像向量表示和所述第二文本向量表示的各自的查询向量,并基于所述查询向量、所述第二图像向量表示和所述第二文本向量表示,输出所述表格图像的类别集合和检测框集合,所述类别集合中包括行、列和合并单元格;基于所述类别集合和所述检测框集合,调整所述表格还原模型的模型参数,并继续训练直至得到最终的目标表格还原模型。2.根据权利要求1所述的方法,其中,所述获取所述第二图像向量表示和所述第二文本向量表示的各自的查询向量,包括:针对所述第二图像向量表示和所述第二文本向量表示中的任一向量表示,选取蕴含位置信息的锚点向量;获取所述表格还原模型上一次训练得到所述任一向量表示的历史查询向量;将所述锚点向量和所述历史查询向量相加,得到所述任一向量表示的查询向量。3.根据权利要求2所述的方法,其中,所述任一向量表示的锚点向量的选取过程,包括:将所述任一向量表示输入对应的选择器中,由所述对应的选择器从所述任一向量表示中选择部分最大的向量表示作为任一向量表示的锚点向量。4.根据权利要求1所述的方法,其中,所述由表格还原模型对所述第一图像向量表示、所述第一文本向量表示和所述位置向量表示进行跨模态关注,还包括:将所述位置向量表示与所述第一图像向量表示相加,得到融合图像向量表示;将所述位置向量表示与所述第一文本向量表示相加,得到融合文本向量表示;将所述融合图像向量表示和所述融合文本向量表示,输入所述表格还原模型的编码器中进行跨模态的多层自注意力关注,得到所述第二图像向量表示和所述第二文本向量表示。5.根据权利要求1
‑
4中任一项所述的方法,其中,所述基于所述查询向量、所述第二图像向量表示和所述第二文本向量表示,输出所述表格图像的类别集合和检测框集合,包括:对所述第二图像向量表示和所述第二图像向量表示的查询向量进行相加,得到第三图像向量表示;对所述第二文本向量表示和所述第二文本向量表示的查询向量进行相加,得到第三文本向量表示;将所述第三图像向量表示和所述第三文本向量表示输入所述表格还原模型的编码器中进行多层自注意力关注,输出所述表格图像的类别集合和检测框集合。6.根据权利要求1
‑
4中任一项所述的方法,其中,所述获取所述表格图像的第一图像向量表示,包括:对所述表格图像进行切分,得到多个图像分片;将所述多个图像分片输入特征提取网络,所述特征提取网络包括串联的多个自注意力层,由所述多个自注意力层逐层进行特征提取,得到每层的图像特征,其中,所述多个自注
意力层的感知区域的尺寸不同;基于每层输出的图像特征得到所述第一图像向量表示。7.根据权利要求6所述的方法,其中,所述方法还包括:针对多个自注意力层中的自注意力层i,获取所述自注意力层i输出的图像特征i,并对相邻的图像特征i进行组合,得到多个图像特征组;将所述图像特征组输入到自注意力层i+1进行特征提取,其中,i为大于或者等于1的整数。8.根据权利要求1
‑
4中任一项所述的方法,其中,获取所述表格图像的第一文本向量表示和所述位置向量表示,包括:对所述表格图像进行光学字符识别OCR,获取所述表格图像中的所有文本,和每个文本对应的位置信息;针对任一文本,将所述任一文本输入分词器进行切分,并对切分后的字符token,查询预训练的文本表示字典,获取所述文本token对应的向量表示;根据所述文本token的向量表示,得到所述任一文本的第一文本向量表示;针对任一位置,对所述任一位置查询预训练的二维位置信息表示字典,得到所述位置信息的位置向量表示。9.根据权利要求1
‑
4中任一项所述的方法,其中,所述基于所述类别集合和所述检测框集合,调整所述表格还原模型的模型参数,包括:对所述类别集合中的预测类别和所述检测框集合中的预测检测框,进行匈牙利最优匹配,得到所述预测检测框和所述预测类型的匹配结果;根据所述匹配结果和所述表格图像的标签结果,获取所述表格还原模型的类别损失函数和位置损失函数,根据所述类别损失函数和所述位置损失函数,得到所述表格还原模型的损失函数;基于所述损失函数,自适应优化所述表格还原模型的模型参数。10.一种基于图像的表格还原方法,其中,所述方法包括:获取待识别的目标表格图像,并获取所述目标表格图像的图像向量表示和所述目标表格图像中文本的文本向量表示和所述文本对应的位置向量表示;将所述图像向量表示、所述文本向量表示和所述位置向量表示输入目标表格还原模型中,以输出所述目标表格图像对应的识别结果,其中,所述识别结果包括检测框和每个检测框的类型;根据所述识别结果和所述文本的位置信息进行表格还原处理,得到所述目标表格图像的目标还原表格,其中,所述目标表格还原模型为采用如权利要求1
‑
9中任一项所述的训练方法得到的模型。11.根据权利要求10所述的方法,其中,所述根据所述识别结果和所述文本的位置信息进行表格还原处理,得到所述目标表格图像的目标还原表格,包括:根据所述识别结果中行类型的第一检测框和列类型的第二检测框进行排序和交叉,得到所述表格图像所有的候选单元格;根据所述识别结果中合并单元格类型的第三检测框,确定所述候选单元格中属于所述第三检测框中的第一候选单元格,并对所述第一候选单元格进行单元格合并,得到所述合
并单元格;基于所述合并单元格和所述候选单元格中剩余的第二候选单元格,得到待填充表格;根据所述文本的位置信息,向所述待填充表格中填充文本,得到所述目标表格图像的目标还原表格。12.一种基于图像的表格还原模型的训练装置,其中,所述装置包括:获取模块,用于获...
【专利技术属性】
技术研发人员:李晨辉,柯博,胡腾,冯仕堃,陈永锋,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。