端到端基于矩阵关系解析的文本视语特征处理方法及装置制造方法及图纸

技术编号:37356028 阅读:18 留言:0更新日期:2023-04-27 07:06
本申请涉及一种端到端基于矩阵关系解析的文本视语特征处理方法及装置。该方法包括:由待处理的表格图片中提取文本框、文本视觉特征、文本语言特征;根据所述文本框、所述文本视觉特征、所述文本语言特征生成所述表格图片对应的单元格特征序列;利用矩阵关系对所述单元格特征序列进行解析以提取所述表格图片的表格结构;对所述单元格特征序列中每个单元格中的所述文本语言特征进行识别以生成其对应的文字;依据所述文本框将所述文字填入所述表格结构的对应单元格中以通过端到端的方式生成所述表格图片对应的可编辑的表格文件。本申请将表格图片中文本和表格进行充分融合生成可编辑的文本数据,在节省计算资源的同时也提升了鲁棒性和准确率。了鲁棒性和准确率。了鲁棒性和准确率。

【技术实现步骤摘要】
端到端基于矩阵关系解析的文本视语特征处理方法及装置


[0001]本申请涉及计算机信息处理领域,具体而言,涉及一种端到端基于矩阵关系解析的文本视语特征处理方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]表格识别的流程通常分为表格文本检测,表格文本识别以及表格结构解析三个部分。现有的技术可以实现一个模型同时完成表格文本检测和表格文本识别,然后再使用一个单独的表格解析模型对表格图片以及文本进行结构解析。这种方式主要存在两个问题:1、至少需要表格文本检测识别和表格结构解析两个模型,消耗更多的计算资源;2、表格结构解析模块未融合文本检测识别模型中对应的文本图像及语言特征,模型的鲁棒性和准确率相对较低。
[0003]因此,本申请提出一种端到端基于矩阵关系解析的文本视语特征处理方法、装置、电子设备及计算机可读介质,试图解决现有技术中的技术难题。
[0004]在所述
技术介绍
部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]有鉴于此,本申请提供一种端到端基于矩阵关系解析的文本视语特征处理方法、装置、电子设备及计算机可读介质,能够利用相同的骨干模型实现现有技术中需要多个模型分别独立处理才能实现的功能,将表格图片中文本和表格进行充分融合生成可编辑的文本数据,在节省计算资源的同时也提升了鲁棒性和准确率。
[0006]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0007]根据本申请的一方面,提出一种端到端基于矩阵关系解析的文本视语特征处理方法,该方法包括:由待处理的表格图片中提取文本框、文本视觉特征、文本语言特征;根据所述文本框、所述文本视觉特征、所述文本语言特征生成所述表格图片对应的单元格特征序列;利用矩阵关系对所述单元格特征序列进行解析以提取所述表格图片的表格结构;对所述单元格特征序列中每个单元格中的所述文本语言特征进行识别以生成其对应的文字;依据所述文本框将所述文字填入所述表格结构的对应单元格中以通过端到端的方式生成所述表格图片对应的可编辑的表格文件。
[0008]可选地,由待处理的表格图片中提取文本框、文本视觉特征、文本语言特征,包括:将待处理的所述表格图片输入由FPN模型生成的骨干模型中,生成多尺寸多通道的基础视觉特征图;通过多尺寸多通道的基础视觉特征图提取所述表格图片的所述文本框;通过所述基础视觉特征图和所述文本框生成所述文本视觉特征;对所述文本视觉特征进行文本识别生成所述文本语言特征。
[0009]可选地,通过多尺寸多通道的基础视觉特征图提取所述表格图片的所述文本框,
包括:基于多尺寸多通道的基础视觉特征图确定所述表格图片中每个特征点为文本的概率;在特征点的为文本的概率大于阈值时,将所述特征点作为正样本;基于正样本的外接矩形框生成所述文本框。
[0010]可选地,通过所述基础视觉特征图和所述文本框生成所述文本视觉特征,包括:根据所述基础视觉特征图和所述文本框进行区域特征聚集;根据区域特征聚集的结果中提取所述表格图像中多条文本对应的多个文本视觉特征。
[0011]可选地,对所述文本视觉特征进行文本识别生成所述文本语言特征,包括:通过卷积计算将所述表格图像中每条文本对应的文本视觉特征的高度压缩;将所述表格图像的压缩后的每条文本视觉特征分别输入到连接层和损失函数层;根据所述文本视觉特征的通道数生成每条文本中包含的至少一个字符概率;通过所述至少一个字符的概率生成每条文本对应的文本语言特征。
[0012]可选地,根据所述文本框、所述文本视觉特征、所述文本语言特征生成所述表格图片对应的单元格特征序列,包括:所述文本视觉特征、所述文本语言特征按照其对应的文本框进行整合生成单元格;将所述表格图片对应的多个单元格进行拼接以生成所述单元格特征序列。
[0013]可选地,利用矩阵关系对所述单元格特征序列进行解析以提取所述表格图片的表格结构,包括:将所述单元格特征序列输入Transformer模型中生成特征矩阵;将所述特征矩阵和其转置矩阵相乘以生成所述单元格关系矩阵;对所述单元格关系矩阵进行解析以提取所述表格图片的表格结构。
[0014]可选地,对所述单元格关系矩阵进行解析以提取所述表格图片的表格结构,包括:将所述单元格关系矩阵数据全连接层以将其高度压缩;通过压缩后的单元格关系矩阵中单元格的位置值确定多个单元格之间的位置关系;通过多个单元格之间的位置关系生成所述表格图片的表格结构。
[0015]可选地,对所述单元格特征序列中每个单元格中的所述文本语言特征进行识别以生成其对应的文字,包括:通过CTC技术对所述单元格特征序列中每个单元格中的所述文本语言特征进行解码;根据解码结果生成每个单元格对应的文字。
[0016]可选地,依据所述文本框将所述文字填入所述表格结构的对应单元格中以通过端到端的方式生成所述表格图片对应的可编辑的表格文件,包括:通过文字对应的所述文本框确定所述表格结构中的目标单元格;将所述文字填入所述目标单元格中;在所述表格图片对应的文字均被填入其对应的单元格后,生成可编辑的表格文件。
[0017]根据本申请的一方面,提出一种端到端基于矩阵关系解析的文本视语特征处理装置,该装置包括:特征模块,用于由待处理的表格图片中提取文本框、文本视觉特征、文本语言特征;序列模块,用于根据所述文本框、所述文本视觉特征、所述文本语言特征生成所述表格图片对应的单元格特征序列;解析模块,用于利用矩阵关系对所述单元格特征序列进行解析以提取所述表格图片的表格结构;识别模块,用于对所述单元格特征序列中每个单元格中的所述文本语言特征进行识别以生成其对应的文字;表格模块,用于依据所述文本框将所述文字填入所述表格结构的对应单元格中以通过端到端的方式生成所述表格图片对应的可编辑的表格文件。
[0018]根据本申请的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;
存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
[0019]根据本申请的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
[0020]根据本申请的端到端基于矩阵关系解析的文本视语特征处理方法、装置、电子设备及计算机可读介质,通过由待处理的表格图片中提取文本框、文本视觉特征、文本语言特征;根据所述文本框、所述文本视觉特征、所述文本语言特征生成所述表格图片对应的单元格特征序列;利用矩阵关系对所述单元格特征序列进行解析以提取所述表格图片的表格结构;对所述单元格特征序列中每个单元格中的所述文本语言特征进行识别以生成其对应的文字;依据所述文本框将所述文字填入所述表格结构的对应单元格中以通过端到端的方式生成所述表格图片对应的可编辑的表格文件的方式,能够利用相同的骨干模型实现现有技术中需要多个模型分别独立处理才能实现的功能,将表格图片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端基于矩阵关系解析的文本视语特征处理方法,其特征在于,包括:由待处理的表格图片中提取文本框、文本视觉特征、文本语言特征;根据所述文本框、所述文本视觉特征、所述文本语言特征生成所述表格图片对应的单元格特征序列;利用矩阵关系对所述单元格特征序列进行解析以提取所述表格图片的表格结构;对所述单元格特征序列中每个单元格中的所述文本语言特征进行识别以生成其对应的文字;依据所述文本框将所述文字填入所述表格结构的对应单元格中以通过端到端的方式生成所述表格图片对应的可编辑的表格文件。2.如权利要求1所述的方法,其特征在于,由待处理的表格图片中提取文本框、文本视觉特征、文本语言特征,包括:将待处理的所述表格图片输入由FPN模型生成的骨干模型中,生成多尺寸多通道的基础视觉特征图;通过多尺寸多通道的基础视觉特征图提取所述表格图片的所述文本框;通过所述基础视觉特征图和所述文本框生成所述文本视觉特征;对所述文本视觉特征进行文本识别生成所述文本语言特征。3.如权利要求2所述的方法,其特征在于,通过多尺寸多通道的基础视觉特征图提取所述表格图片的所述文本框,包括:基于多尺寸多通道的基础视觉特征图确定所述表格图片中每个特征点为文本的概率;在特征点的为文本的概率大于阈值时,将所述特征点作为正样本;基于正样本的外接矩形框生成所述文本框。4.如权利要求2所述的方法,其特征在于,通过所述基础视觉特征图和所述文本框生成所述文本视觉特征,包括:根据所述基础视觉特征图和所述文本框进行区域特征聚集;根据区域特征聚集的结果中提取所述表格图像中多条文本对应的多个文本视觉特征。5.如权利要求2所述的方法,其特征在于,对所述文本视觉特征进行文本识别生成所述文本语言特征,包括:通过卷积计算将所述表格图像中每条文本对应的文本视觉特征的高度压缩;将所述表格图像的压缩后的每条文本视觉特征分别输入到连接层和损失函数层;根据所述文本视觉特征的通道数生成每条文本中包含的至少一个字符概率;通过所述至少一个字符的概率生成每条文本对应的文本语言特征。6.如权利要求1所述的方法,其特征在于,根据所述文本框、所述文本视觉特征、所述文本语言特征生成所述表格图片对应的单元格特征序列,包括:所述文本视觉特征、所述文本语言特征按照其对应的文本框进行整合生成单元格;将所述表格图片对应的多个单元格进行拼接以生成所述单元格特征序列。7.如权利要求1所述的方法,其特征在于,利用矩阵关系对所述单元格特...

【专利技术属性】
技术研发人员:王振明黄小刚王强费浩峻
申请(专利权)人:北海淇诚信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1