文本识别及模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:29586752 阅读:16 留言:0更新日期:2021-08-06 19:46
本发明专利技术提供一种文本识别及模型训练方法、装置、设备及存储介质,该方法包括:获取待识别图像的包含空间位置信息的第一图像特征;采用自注意力机制对所述第一图像特征进行优化,获得第二图像特征;将所述第一图像特征和所述第二图像特征进行融合,获得第三图像特征;对所述第三图像特征进行解码处理,获得识别结果。本发明专利技术通过采用自注意力机制对包含空间位置信息的图像特征进优化,并将优化后的图像特征与优化前的图像特征融合后再进行解码,融合特征有效保留了优化前图像特征的原始视觉特征并增加了空间依赖性信息,从而具有更好的表示能力,更有助于解码阶段的对齐操作,有效降低了注意力偏移问题,从而提高识别结果的准确性。

【技术实现步骤摘要】
文本识别及模型训练方法、装置、设备及存储介质
本专利技术涉及计算机
,尤其涉及一种文本识别及模型训练方法、装置、设备及存储介质。
技术介绍
随着深度学习技术的快速发展,光学字符识别(OCR)在识别文档资料等规则文本方面达到了较高的精度,然而对于自然场景中的文本识别(即场景文本识别,SceneTextRecognition,简称:STR),由于文本字体多样,且存在遮盖、光照不均、噪声过多、文本形状多样等因素,其识别仍存在许多的挑战。场景文本识别包括规则场景文本识别和不规则场景文本识别,规则场景文本识别指的是待识别文本实例图片中的文本是水平排列且背景较为简单的,同时没有复杂的字体和成像条件。不规则场景文本识别指的是待识别文本实例图片中的文本是低像素或失真的,同时具有多样的字体和排列方式,其中大多数图片还有复杂的背景。目前,对规则场景文本识别的研究已经达到较好的性能,然而对不规则场景文本识别的研究仍然具有很大的挑战。在不规则场景文本识别领域,现有技术通常采用基于注意力的编码器-解码器框架,但是这种识别方法容易产生注意力偏移问题,即注意力模型无法准确地将目标字符与输入图像中的相应区域相关联,从而导致识别结果不够准确。
技术实现思路
本专利技术实施例提供一种文本识别及模型训练方法、装置、设备及存储介质,以解决现有技术容易产生注意力偏移问题导致识别结果不够准确的问题。第一个方面,本专利技术实施例提供一种文本识别方法,包括:获取待识别图像的包含空间位置信息的第一图像特征;采用自注意力机制对所述第一图像特征进行优化,获得第二图像特征;将所述第一图像特征和所述第二图像特征进行融合,获得第三图像特征;对所述第三图像特征进行解码处理,获得识别结果。第二个方面,本专利技术实施例提供一种文本识别模型训练方法,包括:所述文本识别模型包括:编码模块、特征优化模块和解码模块;所述编码模块,用于获取待识别图像的包含空间位置信息的第一图像特征;所述特征优化模块,用于采用自注意力机制对所述第一图像特征进行优化,获得第二图像特征,将所述第一图像特征和所述第二图像特征进行融合,获得第三图像特征;所述解码模块,用于对所述第三图像特征进行解码处理,获得识别结果;所述方法包括:获取场景文本识别的训练集,所述训练集至少包括多条不规则文本训练数据,每条所述不规则文本训练数据包括:包含不规则文本的样本图像及其对应的文本标注信息;采用所述训练集对预先建立的文本识别网络进行训练,当训练结果满足预设条件时,获得所述文本识别模型。第三个方面,本专利技术实施例提供一种文本识别装置,包括:编码模块,用于获取待识别图像的包含空间位置信息的第一图像特征;特征优化模块,用于采用自注意力机制对所述第一图像特征进行优化,获得第二图像特征,将所述第一图像特征和所述第二图像特征进行融合,获得第三图像特征;解码模块,用于对所述第三图像特征进行解码处理,获得识别结果。第四个方面,本专利技术实施例提供一种文本识别设备,包括:存储器、收发器及至少一个处理器;所述处理器、所述存储器与所述收发器通过电路互联;所述存储器存储计算机执行指令;所述收发器,用于接收终端发送的待识别图像;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一个方面以及第一个方面各种可能的设计所述的方法,或者实现如上第二个方面以及第二个方面各种可能的设计所述的方法。第五个方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一个方面以及第一个方面各种可能的设计所述的方法,或者实现如上第二个方面以及第二个方面各种可能的设计所述的方法。本专利技术实施例提供的文本识别及模型训练方法、装置、设备及存储介质,通过采用自注意力机制对包含空间位置信息的图像特征进优化,优化后的图像特征补充了优化前图像特征中缺乏的空间依赖性信息,并将优化后的图像特征与优化前的图像特征融合后再进行解码,融合特征有效保留了优化前图像特征的原始视觉特征并增加了空间依赖性信息,从而具有更好的表示能力,更有助于解码阶段的对齐操作,对识别结果产生了积极的影响,从而降低了注意力偏移问题,有效提高识别结果的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的文本识别方法的流程示意图;图2为本专利技术一实施例提供的文本识别模型的一种示例性结构示意图;图3为本专利技术一实施例提供的基于注意力的序列解码器的一种示例性结构示意图;图4为本专利技术一实施例提供的空间注意力层对齐操作的卷积实现原理示意图;图5为本专利技术一实施例提供的训练过程的文本识别模型的网络结构示意图;图6为本专利技术一实施例提供的文本识别方法的一种示例性流程示意图;图7为本专利技术一实施例提供的可形变卷积权重图;图8为本专利技术一实施例提供的空间位置信息对齐效果对比示意图;图9为本专利技术一实施例提供的堆叠的自注意力层多层解码效果渐变示意图;图10为本专利技术一实施例提供的文本识别模型训练方法的流程示意图;图11为本专利技术一实施例提供的训练过程的文本识别模型的一种示例性的网络结构示意图;图12为本专利技术一实施例提供的实际应用时文本识别模型的一种示例性的网络结构示意图;图13为本专利技术一实施例提供的文本识别装置的结构示意图;图14为本专利技术另一实施例提供的文本识别装置的结构示意图;图15为本专利技术一实施例提供的文本识别设备的结构示意图。通过上述附图,已示出本专利技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本专利技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本专利技术的概念。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个及两个以上,除非另有明确具体的限定。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本专利技术的实施例进行描述。本专利技术一实施例提供一种文本识别方法,用于不规则本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n获取待识别图像的包含空间位置信息的第一图像特征;/n采用自注意力机制对所述第一图像特征进行优化,获得第二图像特征;/n将所述第一图像特征和所述第二图像特征进行融合,获得第三图像特征;/n对所述第三图像特征进行解码处理,获得识别结果。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
获取待识别图像的包含空间位置信息的第一图像特征;
采用自注意力机制对所述第一图像特征进行优化,获得第二图像特征;
将所述第一图像特征和所述第二图像特征进行融合,获得第三图像特征;
对所述第三图像特征进行解码处理,获得识别结果。


2.根据权利要求1所述的方法,其特征在于,采用自注意力机制对所述第一图像特征进行优化,获得第二图像特征,包括:
采用由至少两层自注意力层堆叠的自注意力机制对所述第一图像特征进行优化,获得第二图像特征。


3.根据权利要求1所述的方法,其特征在于,所述获取待识别图像的包含空间位置信息的第一图像特征,包括:
采用基于可形变卷积的卷积神经网络提取待识别图像的初级图像特征;
在所述初级图像特征中添加空间位置信息,获得所述第一图像特征。


4.根据权利要求3所述的方法,其特征在于,在所述初级图像特征中添加空间位置信息,获得所述第一图像特征之前,所述方法还包括:
获取所述初级图像特征的平均池化结果;
基于所述平均池化结果及训练获得的第一参数,确定水平方向位置编码的第一调节参数;
基于所述平均池化结果及训练获得的第二参数,确定垂直方向位置编码的第二调节参数;
基于所述第一调节参数、所述第二调节参数及训练获得的水平方向和垂直方向的位置编码,确定所述初级图像特征对应的空间位置信息。


5.根据权利要求1所述的方法,其特征在于,对所述第三图像特征进行解码处理,获得识别结果,包括:
采用基于注意力的序列解码器对所述第三图像特征进行解码处理,获得识别结果。


6.根据权利要求5所述的方法,其特征在于,所述采用基于注意力的序列解码器对所述第三图像特征进行解码处理,获得识别结果,包括:
基于双向解码方式采用基于注意力的序列解码器对所述第三图像特征进行解码处理,获得识别结果。


7.根据权利要求1-6任一项所述的方法,其特征在于,所述将所述第一图像特征和所述第二图像特征进行融合,获得...

【专利技术属性】
技术研发人员:邬国锐卿山王庆庆
申请(专利权)人:北京爱咔咔信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1