图像文本识别方法以及特征解码模型训练方法技术

技术编号:39587253 阅读:13 留言:0更新日期:2023-12-03 19:39
本说明书实施例提供图像文本识别方法以及特征解码模型训练方法,其中所述图像文本识别方法包括:获取待识别图像,其中,待识别图像包括文本信息;对待识别图像进行特征提取,获得待识别图像对应的目标特征图;根据目标特征图对文本信息中的字符位置信息进行分析,获得待识别图像对应的目标字符特征;根据目标字符特征,确定待识别图像中的文本识别结果

【技术实现步骤摘要】
图像文本识别方法以及特征解码模型训练方法


[0001]本说明书实施例涉及计算机
,特别涉及一种图像文本识别方法

本说明书一个或者多个实施例同时涉及一种特征解码模型训练方法

一种图像文本识别装置,一种特征解码模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序


技术介绍

[0002]随着计算机技术的发展,文字识别技术逐渐成为光学字符识别
(OCR

Optical Character Recognition)
领域的重要基础技术,其在文档智能和自然场景理解等任务上通常作为重要原子能力

[0003]目前,通常采用并行注意力机制的方法进行图像文字识别

然而,上述方案需要提前对解码文本的最大长度设置限制,无法适应包括长文本的图像,导致图像文字识别受限于文本长度,因此,亟需一种在文本长度上鲁棒性高的图像文本识别方案


技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种图像文本识别方法

本说明书一个或者多个实施例同时涉及一种特征解码模型训练方法

一种图像文本识别装置,一种特征解码模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷

[0005]根据本说明书实施例的第一方面,提供了一种图像文本识别方法,包括:
[0006]获取待识别图像,其中,待识别图像包括文本信息;
[0007]对待识别图像进行特征提取,获得待识别图像对应的目标特征图;
[0008]根据目标特征图对文本信息中的字符位置信息进行分析,获得待识别图像对应的目标字符特征;
[0009]根据目标字符特征,确定待识别图像中的文本识别结果

[0010]根据本说明书实施例的第二方面,提供了一种特征解码模型训练方法,应用于云侧设备,包括:
[0011]获取样本集,其中,样本集包括多个携带样本文本标签的样本图像,样本图像包括样本文本信息;
[0012]从样本集中提取第一样本图像,其中,第一样本图像为样本集中的任一样本图像;
[0013]对第一样本图像进行特征提取,获得第一样本图像对应的第一样本特征图;
[0014]将第一样本特征图输入特征解码模型,获得第一样本图像对应的第一样本字符特征;
[0015]根据第一样本字符特征,确定第一样本图像对应的第一预测文本;
[0016]根据第一预测文本和第一样本图像携带的第一样本文本标签,计算训练损失值;
[0017]根据训练损失值,调整特征解码模型的模型参数,并返回执行从样本集中提取第一样本图像的步骤,直至达到第二预设停止条件,获得训练完成的特征解码模型的模型参
数;
[0018]向端侧设备发送训练完成的特征解码模型的模型参数

[0019]根据本说明书实施例的第三方面,提供了一种图像文本识别装置,包括:
[0020]第一获取模块,被配置为获取待识别图像,其中,待识别图像包括文本信息;
[0021]第一提取模块,被配置为对待识别图像进行特征提取,获得待识别图像对应的目标特征图;
[0022]分析模块,被配置为根据目标特征图对文本信息中的字符位置信息进行分析,获得待识别图像对应的目标字符特征;
[0023]第一确定模块,被配置为根据目标字符特征,确定待识别图像中的文本识别结果

[0024]根据本说明书实施例的第四方面,提供了一种特征解码模型训练装置,应用于云侧设备,包括:
[0025]第二获取模块,被配置为获取样本集,其中,样本集包括多个携带样本文本标签的样本图像,样本图像包括样本文本信息;
[0026]第二提取模块,被配置为从样本集中提取第一样本图像,其中,第一样本图像为样本集中的任一样本图像;
[0027]第三提取模块,被配置为对第一样本图像进行特征提取,获得第一样本图像对应的第一样本特征图;
[0028]输入模块,被配置为将第一样本特征图输入特征解码模型,获得第一样本图像对应的第一样本字符特征;
[0029]第二确定模块,被配置为根据第一样本字符特征,确定第一样本图像对应的第一预测文本;
[0030]计算模块,被配置为根据第一预测文本和第一样本图像携带的第一样本文本标签,计算训练损失值;
[0031]调整模块,被配置为根据训练损失值,调整特征解码模型的模型参数,并返回执行从样本集中提取第一样本图像的步骤,直至达到第二预设停止条件,获得训练完成的特征解码模型的模型参数;
[0032]发送模块,被配置为向端侧设备发送训练完成的特征解码模型的模型参数

[0033]根据本说明书实施例的第五方面,提供了一种计算设备,包括:
[0034]存储器和处理器;
[0035]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面所提供方法的步骤

[0036]根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面或者第二方面所提供方法的步骤

[0037]根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面或者第二方面所提供方法的步骤

[0038]本说明书一个实施例提供的图像文本识别方法,获取待识别图像,其中,待识别图像包括文本信息;对待识别图像进行特征提取,获得待识别图像对应的目标特征图;根据目
标特征图对文本信息中的字符位置信息进行分析,获得待识别图像对应的目标字符特征;根据目标字符特征,确定待识别图像中的文本识别结果

通过分析目标特征图中的文本字符间的位置关系,可以准确定位文本信息中各字符的位置,包括长文本中靠后的字符,从而提高了图像文本识别在文本长度上的鲁棒性

附图说明
[0039]图1是本说明书一个实施例提供的一种图像文本识别系统的架构图;
[0040]图2是本说明书一个实施例提供的另一种图像文本识别系统的架构图;
[0041]图3是本说明书一个实施例提供的一种图像文本识别方法的流程图;
[0042]图4是本说明书一个实施例提供的一种图像文本识别方法中特征图增强过程的流程示意图;
[0043]图5是本说明书一个实施例提供的一种特征解码模型训练方法的流程图;
[0044]图6是本说明书一个实施例提供的另一种图像文本识别方法的流程图;
[0045]图7是本说明书一个实施例提供的一种图像文本识别方法的处理过程流程图;
[0046]图8是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种图像文本识别方法,包括:获取待识别图像,其中,所述待识别图像包括文本信息;对所述待识别图像进行特征提取,获得所述待识别图像对应的目标特征图;根据所述目标特征图对所述文本信息中的字符位置信息进行分析,获得所述待识别图像对应的目标字符特征;根据所述目标字符特征,确定所述待识别图像中的文本识别结果
。2.
根据权利要求1所述的方法,所述根据所述目标特征图对所述文本信息中的字符位置信息进行分析,获得所述待识别图像对应的目标字符特征,包括:将所述目标特征图输入特征解码模型,经所述特征解码模型对所述文本信息中的字符位置信息进行分析,获得所述待识别图像对应的目标字符特征
。3.
根据权利要求2所述的方法,所述特征解码模型包括位置关系分析单元和定位信息分析单元,所述字符位置信息包括字符间位置关系和字符定位信息;所述将所述目标特征图输入特征解码模型,经所述特征解码模型对所述文本信息中的字符位置信息进行分析,获得所述待识别图像对应的目标字符特征,包括:将所述目标特征图输入所述位置关系分析单元,经所述位置关系分析单元对所述字符间位置关系进行分析,获得字符近邻矩阵;将所述目标特征图输入所述定位信息分析单元,经所述定位信息分析单元对所述字符定位信息进行分析,获得首字符注意力图;根据所述目标特征图

所述字符近邻矩阵和所述首字符注意力图,确定所述目标字符特征
。4.
根据权利要求3所述的方法,所述特征解码模型还包括字符对齐单元;所述根据所述目标特征图

所述字符近邻矩阵和所述首字符注意力图,确定所述目标字符特征,包括:将所述字符近邻矩阵和所述首字符注意力图输入所述字符对齐单元,获得所述文本信息中各字符的字符注意力图;根据所述目标特征图和所述各字符的字符注意力图,确定所述目标字符特征
。5.
根据权利要求4所述的方法,所述将所述字符近邻矩阵和所述首字符注意力图输入所述字符对齐单元,获得所述文本信息中各字符的字符注意力图,包括:将所述字符近邻矩阵和所述首字符注意力图输入所述字符对齐单元,在所述字符对齐单元中,根据所述字符近邻矩阵和第一字符的第一字符注意力图,确定第二字符的第二字符注意力图,其中,所述第一字符为已确定字符注意力图的字符,所述第二字符为所述第一字符的下一字符
。6.
根据权利要求5所述的方法,所述根据所述字符近邻矩阵和第一字符的第一字符注意力图,确定第二字符的第二字符注意力图之前,还包括:对所述第一字符注意力图中的元素进行锐化处理,获得更新后的第一字符注意力图;所述根据所述字符近邻矩阵和第一字符的第一字符注意力图,确定第二字符的第二字符注意力图,包括:根据所述字符近邻矩阵和所述更新后的第一字符注意力图,确定第二字符的第二字符注意力图

7.
根据权利要求1所述的方法,所述根据所述目标特征图对所述文本信息中的字符位置信息进行分析,获得所述待识别图像对应的目标字符特征之后,还包括:根据所述目标字符特征,对所述目标特征图进行增强处理,获得特征增强后的目标特征图,并返回执行所述根据所述目标特征图对所述文本信息中的字符位置信息进行分析,获得所述待识别图像对应的目标字符特征的步骤,直至达到第一预设停止条件,获得更新后的目标字符特征;所述根据所述目标字符特征,确定所述待识别图像中的文本识别结果,包括:根据所述更新后的目标字符特征,确定所述待识别图像中的文本识别结果
。8.
根据权利要求7所述的方法,所述根据所述目标字符特征,对所述目标特征图进行增强处理,获得特征增强后的目标特征图,包括:对所述目标字符特征进行字符间特征关系分析,获得全局字符特征;对所述全局字符特征和所述...

【专利技术属性】
技术研发人员:程昌旭王鹏达铖姚聪郑琪
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1