文本识别方法技术

技术编号:39678317 阅读:7 留言:0更新日期:2023-12-11 18:55
本申请提供了一种文本识别方法

【技术实现步骤摘要】
文本识别方法、装置、设备及存储介质


[0001]本申请实施例涉及计算机
,尤其涉及一种文本识别方法

装置

设备及存储介质


技术介绍

[0002]中英文场景大部分以单行文本识别,而公式场景以多行文本识别任务为主,传统的单行文本识别方法无法兼顾公式场景识别和中英文场景识别

因此,多行文本识别应用而生

[0003]目前的多行文本识别方法包括基于自注意力的方案和基于单个双向长短期记忆网络(
Bi

directional Long Short

Term Memory
,简称
BiLSTM
)的方案

但是,目前的多行文本识别方法,存在识别不准确的问题


技术实现思路

[0004]本申请提供一种文本识别方法

装置

设备及存储介质,实现对图像中多行文本的准确识别

[0005]第一方面,本申请提供一种文本识别方法,包括:获取包括待识别文本的目标图像;对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,所述第二特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系,以及所述图像特征信息中同一行特征信息之间的左右位置关系;基于所述第二特征信息,得到所述目标图像的文本识别结果

[0006]第二方面,本申请提供了一种文本识别装置,包括:获取单元,用于获取包括待识别文本的目标图像;特征提取单元,用于对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;上下位置确定单元,用于对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;左右位置确定单元,用于基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,所述第二特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系,以及所述图像特
征信息中同一行特征信息之间的左右位置关系;识别单元,用于基于所述第二特征信息,得到所述目标图像的文本识别结果

[0007]在一些实施例中,上下位置确定单元,具体用于基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特性信息,所述第一列特性信息的行数与所述图像特征信息的行数一致,且所述第一列特性信息中不同位置的特征信息表示所述图像特征信息中不同行特征信息之间的上下位置关系;基于所述第一列特性信息和所述图像特征信息,确定所述第一特征信息

[0008]在一些实施例中,上下位置确定单元,具体用于将所述图像特征信息中的每一行特征信息进行特征聚合,得到第二列特性信息,所述第二列特性信息的行数与所述图像特征信息的行数一致;基于所述第二列特性信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到所述第一列特性信息

[0009]在一些实施例中,上下位置确定单元,具体用于通过水平池化操作,将所述图像特征信息中的每一行特征信息聚合为一个特征值,得到所述第二列特性信息

[0010]在一些实施例中,上下位置确定单元,具体用于通过上下位置提取模块,对所述第二列特性信息中特征信息的上下位置关系进行提取,得到所述第一列特性信息

[0011]在一些实施例中,所述上下位置提取模块包括至少一个第一双向长短期记忆网络
BiLSTM
模块

[0012]在一些实施例中,上下位置确定单元,具体用于将所述第一列特性信息与所述图像特征信息进行广播式相加,确定所述第一特征信息

[0013]在一些实施例中,左右位置确定单元,具体用于将所述第一特征信息的每一行进行拆分,得到多个第一行特性信息;对于所述多个第一行特性信息中的第
i
个第一行特性信息,基于所述第
i
个第一行特性信息,构建所述第
i
个第一行特性信息中特征信息之间的左右位置关系,得到所述第
i
个第一行特性信息对应的第二行特性信息,所述
i
为正整数;基于所述多个第一行特性信息中每一个第一行特性信息对应的第二行特性信息,得到所述第二特征信息

[0014]在一些实施例中,左右位置确定单元,具体用于通过左右位置提取模块,对所述第
i
个第一行特性信息中特征信息的左右位置关系进行提取,得到所述第
i
个第一行特性信息对应的第二行特性信息

[0015]在一些实施例中,所述左右位置提取模块包括至少一个第二双向长短期记忆网络
BiLSTM
模块

[0016]在一些实施例中,特征提取单元,具体用于通过特征提取模块,提取所述目标图像的图像特征信息

[0017]在一些实施例中,识别单元,具体用于通过解码器对所述第二特征信息进行解码,得到所述目标图像的文本识别结果

[0018]在一些实施例中,所述解码器包括自回归解码器

[0019]第三方面,提供了一种芯片,用于实现上述第一方面至第二方面中任一方面或其各实现方式中的方法

具体地,所述芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如上述第一方面中任一方面或其各实现方式中的方法

[0020]第四方面,提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行上述第一方面中任一方面或其各实现方式中的方法

[0021]第五方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令使得计算机执行上述第一方面中任一方面或其各实现方式中的方法

[0022]第六方面,提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面中任一方面或其各实现方式中的方法

[0023]综上,本申请通过获取目标图像,并提取该目标图像的图像特征信息,该目标图像包括待识别文本,例如包括多行待识别文本

接着,基于图像特征信息,构建图像特征信息中不同行特征信息之间的上下位置关系,得到目标图像的第一特征信息

基于第一特征信息,构建图像特征信息中不同行特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本识别方法,其特征在于,包括:获取包括待识别文本的目标图像;对所述目标图像进行图像特征提取,得到所述目标图像的图像特征信息;对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,所述第一特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系;基于所述第一特征信息对所述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,所述第二特征信息用于表示所述图像特征信息中不同行特征信息之间的上下位置关系及所述图像特征信息中同一行特征信息之间的左右位置关系;基于所述第二特征信息,得到所述目标图像的文本识别结果
。2.
根据权利要求1所述的方法,其特征在于,所述对所述图像特征信息中不同行特征信息之间的上下位置关系进行提取,得到所述目标图像的第一特征信息,包括:基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息,所述第一列特征信息的行数与所述图像特征信息的行数一致,且所述第一列特征信息中不同位置的特征信息表示所述图像特征信息中不同行特征信息之间的上下位置关系;基于所述第一列特征信息和所述图像特征信息,确定所述第一特征信息
。3.
根据权利要求2所述的方法,其特征在于,所述基于所述图像特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到第一列特征信息,包括:将所述图像特征信息中的每一行特征信息进行特征聚合,得到第二列特征信息,所述第二列特征信息的行数与所述图像特征信息的行数一致;基于所述第二列特征信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到所述第一列特性信息
。4.
根据权利要求3所述的方法,其特征在于,所述将所述图像特征信息中的每一行特征信息进行特征聚合,得到第二列特性信息,包括:通过水平池化操作,将所述图像特征信息中的每一行特征信息聚合为一个特征值,得到所述第二列特性信息
。5.
根据权利要求3所述的方法,其特征在于,所述基于所述第二列特性信息,构建所述图像特征信息中不同行特征信息之间的上下位置关系,得到所述第一列特性信息,包括:通过上下位置提取模块,对所述第二列特性信息中特征信息的上下位置关系进行提取,得到所述第一列特性信息
。6.
根据权利要求5所述的方法,其特征在于,所述上下位置提取模块包括至少一个第一双向长短期记忆网络
BiLSTM
模块
。7.
根据权利要求2所述的方法,其特征在于,所述基于所述第一列特性信息和所述图像特征信息,确定所述第一特征信息,包括:将所述第一列特性信息与所述图像特征信息进行广播式相加,确定所述第一特征信息
。8.
根据权利要求1‑7任一项所述的方法,其特征在于,所述基于所述第一特征信息对所
述图像特征信息中同一行特征信息之间的左右位置关系进行提取,得到所述目标图像的第二特征信息,包括:将所述第一特征信息的每一行进行...

【专利技术属性】
技术研发人员:王翔翔
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1