基于语义强化编码器解码器框架的场景文字识别方法及系统技术方案

技术编号:25891191 阅读:43 留言:0更新日期:2020-10-09 23:33
本发明专利技术提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。

【技术实现步骤摘要】
基于语义强化编码器解码器框架的场景文字识别方法及系统
本专利技术涉及计算机图像文字识别领域,具体涉及一种基于语义强化编码器解码器框架的场景文字识别方法及系统。
技术介绍
场景图像的文本检测与识别是近年来的研究热点,其中文字识别是整个流程的核心部分,其任务是将图片中的文字转录为计算机可以直接编辑的文本格式。随着深度学习的发展,这个领域得到了飞速的进步。受到机器翻译领域的启发,目前主流的方法都基于编码器解码器结构,编码器通过卷积神经网络和循环神经网络来提取丰富的视觉特征,解码器通过注意力机制来获取需要的特征按照文本序列的顺序预测出序列中的每个字符。1,现有的方法在预测每一个字符时只关注到一个特定的图像区域,这使模型很难处理一些低质量的图片(如模糊、遮挡、缺失等等)。2,文字识别作为一个跨模态的任务,视觉信息与语言语义信息之间存在一定的鸿沟。3,现有的方法对全局信息的使用缺乏一定的监督,导致全局信息无法得到有效地学习,从而对识别过程起不到非常有效的帮助。
技术实现思路
本专利技术的目的在于提出一种基于语义强化编码器解码器框架的场景文字识别方法及系统,能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。为实现上述目的,本专利技术采用的技术方案是:一种基于语义强化编码器解码器框架的场景文字识别方法,包括以下步骤:将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。进一步地,将目标图像上的任意形状的文本矫正为水平文本包括以下步骤:提取目标图像的视觉特征;预测视觉特征上的多个(例如20个)控制点的位置信息;使用控制点的信息计算薄板样条插值函数需要的参数矩阵,作用到目标图片上实现任意形状的矫正。进一步地,训练一语义模块,利用该语义模块来根据序列信息预测全局语义信息,训练该语义模块的方法为:语义模块预测的全局语义信息,通过与预训练好的语言模型输出的词向量来计算损失,根据损失值来调整语义模块的参数,从而实现训练。一种基于语义强化编码器解码器框架的场景文字识别系统,包括:矫正模块,用于将目标图像上的任意形状的文本矫正为水平文本;编码器模块,包括卷积神经网络和循环神经网络,卷积神经网络用于从矫正后的图像中提取视觉特征,循环神经网络用于从该视觉特征中提取序列信息;语义模块,用于根据序列信息预测全局语义信息;解码器模块,包括基于注意力机制的门控循环单元GRU,利用上述全局语义信息初始化GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。进一步地,矫正模块包括卷积层和全连接层,卷积层用来提取目标图片的视觉特征,全连接层用来预测视觉特征上的多个(例如20个)控制点的位置信息,之后使用控制点的信息计算薄板样条插值函数需要的参数矩阵,并作用到目标图片上实现任意形状的矫正。进一步地,卷积神经网络选用45层的残差网络,循环神经网络选用一个单层的长短时记忆网络。进一步地,语义模块包括两个全连接层。进一步地,语义模块与解码器模块联合进行训练,训练方法为:语义模块预测的全局语义信息,通过与预训练好的语言模型输出的词向量来计算损失,根据损失值来调整语义模块的参数,从而实现训练。进一步地,全局语义信息经过一个全连接层后赋值为GRU的初始状态,实现初始化GRU的状态。与现有技术相比,本专利技术的优点在于:引入有效的全局语义信息,给识别过程一个全局的引导,从而能够对抗图片中局部的噪声,能够有效地处理图片模糊、曝光,字符不完整的情况。与简单地预测一个全局信息不同,本专利技术提出使用预训练好的语言模型对全局信息进行监督,从而使全局信息具有更丰富且有效的语义信息。本专利技术有很强的灵活与泛化性,可能在很多现有方法中进行使用。附图说明图1是语义强化的编码器解码器框架结构图。图2是实施例一种基于语义强化编码器解码器框架的场景文字识别系统的网络结构图。图3是现有的方法与本专利技术识别结果可视化的对比图。具体实施方式为使本专利技术的技术方案能更明显易懂,特举实施例并结合附图详细说明如下。本实施例提出一种基于语义强化编码器解码器框架的场景文字识别方法(简称SE-ASTER),基于语义强化的编码器解码器结构(SEED),如图1所示,SEED在现有的框架中,使用在编码器输出的视觉信息预测一个全局的语义信息,同时引入了自然语言处理领域常用的词向量作为一个它的一个监督,进而使用这个全局的语义信息来指导后续的解码过程。同时将目前的一个主流方法ASTER与提出的框架结合,提出了新的场景图像文本识别方法SE-ASTER。如图2所示,SE-ASTER由一种基于语义强化编码器解码器框架的场景文字识别系统来实现,该系统主要由以下模块组成:矫正模块、编码器模块、语义模块和解码器模块。为了处理任意形状的文本,首先需要矫正模块将弯曲或倾斜的文本矫正为水平文本。矫正模块由卷积层和全连接层组成,卷积层用来提取视觉特征,全连接层则用来预测20个控制点的位置信息。之后使用控制点的信息计算薄板样条插值函数需要的参数矩阵,并作用到原图上实现了任意形状的矫正。编码器模块由卷积神经网络和循环神经网络组成。首先将矫正后的图片输入到45层的残差网络中提取视觉特征,之后将得到的特征图经过一个单层的长短时记忆网络(LSTM)来提取序列信息。语义模块将编码器的输出作为输入,通过两个全连接层来预测图片的一个全局语义信息,并通过与预训练好的语言模型输出的词向量来计算损失,用于训练语义模块的参数。其中语言模型通过预测大规模文本语料中的词来进行训练,训练收敛后语言模型可以为某个特定词提供一个表示该词的词向量,词向量中包含了丰富的语义信息。全局语义信息通过相应词向量的监督,损失收敛时,全局语义信息更加有效且高质量。解码器模块由一个基于注意力机制的门控循环单元(GRU)组成。它将编码器模块输出的视觉特征和语义模块输出的全局语义信息作为输入。其中全局语义信息经过一个全连接层后赋值为GRU的初始状态,来给整个解码过程提供一个有效的全局信息。在解码的每一个时间步,视觉特征用于与GRU隐状态计算注意力权重,并将权重与视觉信息加权求和来预测当前解码时间步的字符类别。以下通过实验来评估本专利技术SE-ASTER的效果。本专利技术提出的系统在两个生成的数据Syn90K与SynthText上进行训练,在主本文档来自技高网...

【技术保护点】
1.一种基于语义强化编码器解码器框架的场景文字识别方法,其特征在于,包括以下步骤:/n将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;/n将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;/n根据序列信息预测全局语义信息;/n利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。/n

【技术特征摘要】
1.一种基于语义强化编码器解码器框架的场景文字识别方法,其特征在于,包括以下步骤:
将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;
将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;
根据序列信息预测全局语义信息;
利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。


2.如权利要求1所述的方法,其特征在于,将目标图像上的任意形状的文本矫正为水平文本包括以下步骤:
提取目标图像的视觉特征;
预测视觉特征上的多个控制点的位置信息;
使用控制点的信息计算薄板样条插值函数需要的参数矩阵,作用到目标图片上实现任意形状的矫正。


3.如权利要求1所述的方法,其特征在于,控制点数量为20个。


4.如权利要求1所述的方法,其特征在于,训练一语义模块,利用该语义模块来根据序列信息预测全局语义信息,训练该语义模块的方法为:语义模块预测的全局语义信息,通过与预训练好的语言模型输出的词向量来计算损失,根据损失值来调整语义模块的参数,从而实现训练。


5.一种基于语义强化编码器解码器框架的场景文字识别系统,其特征在于,包括:
矫正模块,用于将目标图像上的任意形状的文本矫正为水平文...

【专利技术属性】
技术研发人员:王伟平乔峙周宇杨东宝周玉灿
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1