图像文本识别方法以及特征解码模型训练方法技术

技术编号：39587253 阅读：13 留言：0更新日期：2023-12-03 19:39

本说明书实施例提供图像文本识别方法以及特征解码模型训练方法，其中所述图像文本识别方法包括：获取待识别图像，其中，待识别图像包括文本信息；对待识别图像进行特征提取，获得待识别图像对应的目标特征图；根据目标特征图对文本信息中的字符位置信息进行分析，获得待识别图像对应的目标字符特征；根据目标字符特征，确定待识别图像中的文本识别结果

全部详细技术资料下载

【技术实现步骤摘要】
图像文本识别方法以及特征解码模型训练方法

[0001]本说明书实施例涉及计算机
，特别涉及一种图像文本识别方法
。
本说明书一个或者多个实施例同时涉及一种特征解码模型训练方法
。
一种图像文本识别装置，一种特征解码模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序
。

技术介绍

[0002]随着计算机技术的发展，文字识别技术逐渐成为光学字符识别
(OCR
，
Optical Character Recognition)
领域的重要基础技术，其在文档智能和自然场景理解等任务上通常作为重要原子能力
。
[0003]目前，通常采用并行注意力机制的方法进行图像文字识别
。
然而，上述方案需要提前对解码文本的最大长度设置限制，无法适应包括长文本的图像，导致图像文字识别受限于文本长度，因此，亟需一种在文本长度上鲁棒性高的图像文本识别方案
。

技术实现思路

[0004]有鉴于此，本说明书实施例提供了一种图像文本识别方法
。
本说明书一个或者多个实施例同时涉及一种特征解码模型训练方法
。
一种图像文本识别装置，一种特征解码模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷
。
[0005]根据本说明书实施例的第一方面，提供了一种图像文本识别方法，包括：
[0006]获取待识别图像...

【技术保护点】

【技术特征摘要】
1.
一种图像文本识别方法，包括：获取待识别图像，其中，所述待识别图像包括文本信息；对所述待识别图像进行特征提取，获得所述待识别图像对应的目标特征图；根据所述目标特征图对所述文本信息中的字符位置信息进行分析，获得所述待识别图像对应的目标字符特征；根据所述目标字符特征，确定所述待识别图像中的文本识别结果
。2.
根据权利要求1所述的方法，所述根据所述目标特征图对所述文本信息中的字符位置信息进行分析，获得所述待识别图像对应的目标字符特征，包括：将所述目标特征图输入特征解码模型，经所述特征解码模型对所述文本信息中的字符位置信息进行分析，获得所述待识别图像对应的目标字符特征
。3.
根据权利要求2所述的方法，所述特征解码模型包括位置关系分析单元和定位信息分析单元，所述字符位置信息包括字符间位置关系和字符定位信息；所述将所述目标特征图输入特征解码模型，经所述特征解码模型对所述文本信息中的字符位置信息进行分析，获得所述待识别图像对应的目标字符特征，包括：将所述目标特征图输入所述位置关系分析单元，经所述位置关系分析单元对所述字符间位置关系进行分析，获得字符近邻矩阵；将所述目标特征图输入所述定位信息分析单元，经所述定位信息分析单元对所述字符定位信息进行分析，获得首字符注意力图；根据所述目标特征图
、
所述字符近邻矩阵和所述首字符注意力图，确定所述目标字符特征
。4.
根据权利要求3所述的方法，所述特征解码模型还包括字符对齐单元；所述根据所述目标特征图
、
所述字符近邻矩阵和所述首字符注意力图，确定所述目标字符特征，包括：将所述字符近邻矩阵和所述首字符注意力图输入所述字符对齐单元，获得所述文本信息中各字符的字符注意力图；根据所述目标特征图和所述各字符的字符注意力图，确定所述目标字符特征
。5.
根据权利要求4所述的方法，所述将所述字符近邻矩阵和所述首字符注意力图输入所述字符对齐单元，获得所述文本信息中各字符的字符注意力图，包括：将所述字符近邻矩阵和所述首字符注意力图输入所述字符对齐单元，在所述字符对齐单元中，根据所述字符近邻矩阵和第一字符的第一字符注意力图，确定第二字符的第二字符注意力图，其中，所述第一字符为已确定字符注意力图的字符，所述第二字符为所述第一字符的下一字符
。6.
根据权利要求5所述的方法，所述根据所述字符近邻矩阵和第一字符的第一字符注意力图，确定第二字符的第二字符注意力图之前，还包括：对所述第一字符注意力图中的元素进行锐化处理，获得更新后的第一字符注意力图；所述根据所述字符近邻矩阵和第一字符的第一字符注意力图，确定第二字符的第二字符注意力图，包括：根据所述字符近邻矩阵和所述更新后的第一字符注意力图，确定第二字符的第二字符注意力图
。
7.
根据权利要求1所述的方法，所述根据所述目标特征图对所述文本信息中的字符位置信息进行分析，获得所述待识别图像对应的目标字符特征之后，还包括：根据所述目标字符特征，对所述目标特征图进行增强处理，获得特征增强后的目标特征图，并返回执行所述根据所述目标特征图对所述文本信息中的字符位置信息进行分析，获得所述待识别图像对应的目标字符特征的步骤，直至达到第一预设停止条件，获得更新后的目标字符特征；所述根据所述目标字符特征，确定所述待识别图像中的文本识别结果，包括：根据所述更新后的目标字符特征，确定所述待识别图像中的文本识别结果
。8.
根据权利要求7所述的方法，所述根据所述目标字符特征，对所述目标特征图进行增强处理，获得特征增强后的目标特征图，包括：对所述目标字符特征进行字符间特征关系分析，获得全局字符特征；对所述全局字符特征和所述...

【专利技术属性】
技术研发人员：程昌旭，王鹏，达铖，姚聪，郑琪，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人