文本识别及模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：29586752 阅读：16 留言：0更新日期：2021-08-06 19:46

本发明专利技术提供一种文本识别及模型训练方法、装置、设备及存储介质，该方法包括：获取待识别图像的包含空间位置信息的第一图像特征；采用自注意力机制对所述第一图像特征进行优化，获得第二图像特征；将所述第一图像特征和所述第二图像特征进行融合，获得第三图像特征；对所述第三图像特征进行解码处理，获得识别结果。本发明专利技术通过采用自注意力机制对包含空间位置信息的图像特征进优化，并将优化后的图像特征与优化前的图像特征融合后再进行解码，融合特征有效保留了优化前图像特征的原始视觉特征并增加了空间依赖性信息，从而具有更好的表示能力，更有助于解码阶段的对齐操作，有效降低了注意力偏移问题，从而提高识别结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别及模型训练方法、装置、设备及存储介质
本专利技术涉及计算机
，尤其涉及一种文本识别及模型训练方法、装置、设备及存储介质。
技术介绍
随着深度学习技术的快速发展，光学字符识别(OCR)在识别文档资料等规则文本方面达到了较高的精度，然而对于自然场景中的文本识别(即场景文本识别，SceneTextRecognition，简称：STR)，由于文本字体多样，且存在遮盖、光照不均、噪声过多、文本形状多样等因素，其识别仍存在许多的挑战。场景文本识别包括规则场景文本识别和不规则场景文本识别，规则场景文本识别指的是待识别文本实例图片中的文本是水平排列且背景较为简单的，同时没有复杂的字体和成像条件。不规则场景文本识别指的是待识别文本实例图片中的文本是低像素或失真的，同时具有多样的字体和排列方式，其中大多数图片还有复杂的背景。目前，对规则场景文本识别的研究已经达到较好的性能，然而对不规则场景文本识别的研究仍然具有很大的挑战。在不规则场景文本识别领域，现有技术通常采用基于注意力的编码器-解码器框架，但是这种识别方法容易产生注意力偏移问题，即注意力模型无法准确地将目标字符与输入图像中的相应区域相关联，从而导致识别结果不够准确。
技术实现思路
本专利技术实施例提供一种文本识别及模型训练方法、装置、设备及存储介质，以解决现有技术容易产生注意力偏移问题导致识别结果不够准确的问题。第一个方面，本专利技术实施例提供一种文本识别方法，包括：获取待识别图像的包含空间位置信息的第一图像特征；采...

【技术保护点】
1.一种文本识别方法，其特征在于，包括：/n获取待识别图像的包含空间位置信息的第一图像特征；/n采用自注意力机制对所述第一图像特征进行优化，获得第二图像特征；/n将所述第一图像特征和所述第二图像特征进行融合，获得第三图像特征；/n对所述第三图像特征进行解码处理，获得识别结果。/n

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：
获取待识别图像的包含空间位置信息的第一图像特征；
采用自注意力机制对所述第一图像特征进行优化，获得第二图像特征；
将所述第一图像特征和所述第二图像特征进行融合，获得第三图像特征；
对所述第三图像特征进行解码处理，获得识别结果。

2.根据权利要求1所述的方法，其特征在于，采用自注意力机制对所述第一图像特征进行优化，获得第二图像特征，包括：
采用由至少两层自注意力层堆叠的自注意力机制对所述第一图像特征进行优化，获得第二图像特征。

3.根据权利要求1所述的方法，其特征在于，所述获取待识别图像的包含空间位置信息的第一图像特征，包括：
采用基于可形变卷积的卷积神经网络提取待识别图像的初级图像特征；
在所述初级图像特征中添加空间位置信息，获得所述第一图像特征。

4.根据权利要求3所述的方法，其特征在于，在所述初级图像特征中添加空间位置信息，获得所述第一图像特征之前，所述方法还包括：
获取所述初级图像特征的平均池化结果；
基于所述平均池化结果及训练获得的第一参数，确定水平方向位置编码的第一调节参数；
基于所述平均池化结果及训练获得的第二参数，确定垂直方向位置编码的第二调节参数；
基于所述第一调节参数、所述第二调节参数及训练获得的水平方向和垂直方向的位置编码，确定所述初级图像特征对应的空间位置信息。

5.根据权利要求1所述的方法，其特征在于，对所述第三图像特征进行解码处理，获得识别结果，包括：
采用基于注意力的序列解码器对所述第三图像特征进行解码处理，获得识别结果。

6.根据权利要求5所述的方法，其特征在于，所述采用基于注意力的序列解码器对所述第三图像特征进行解码处理，获得识别结果，包括：
基于双向解码方式采用基于注意力的序列解码器对所述第三图像特征进行解码处理，获得识别结果。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述将所述第一图像特征和所述第二图像特征进行融合，获得...

【专利技术属性】
技术研发人员：邬国锐，卿山，王庆庆，
申请(专利权)人：北京爱咔咔信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人