基于语义强化编码器解码器框架的场景文字识别方法及系统技术方案

技术编号：25891191 阅读：43 留言：0更新日期：2020-10-09 23:33

本发明专利技术提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统，将目标图像上的任意形状的文本矫正为水平文本，得到矫正后的图像；将矫正后的图像输入到卷积神经网络中提取视觉特征，利用循环神经网络从该视觉特征中提取序列信息；根据序列信息预测全局语义信息；利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态，根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重，根据该注意力权重对上述视觉特征进行加权，预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足，同时减小视觉信息与语义信息之间的鸿沟，从而使模型能够更好地处理低质量的图像。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义强化编码器解码器框架的场景文字识别方法及系统
本专利技术涉及计算机图像文字识别领域，具体涉及一种基于语义强化编码器解码器框架的场景文字识别方法及系统。
技术介绍
场景图像的文本检测与识别是近年来的研究热点，其中文字识别是整个流程的核心部分，其任务是将图片中的文字转录为计算机可以直接编辑的文本格式。随着深度学习的发展，这个领域得到了飞速的进步。受到机器翻译领域的启发，目前主流的方法都基于编码器解码器结构，编码器通过卷积神经网络和循环神经网络来提取丰富的视觉特征，解码器通过注意力机制来获取需要的特征按照文本序列的顺序预测出序列中的每个字符。1，现有的方法在预测每一个字符时只关注到一个特定的图像区域，这使模型很难处理一些低质量的图片(如模糊、遮挡、缺失等等)。2，文字识别作为一个跨模态的任务，视觉信息与语言语义信息之间存在一定的鸿沟。3，现有的方法对全局信息的使用缺乏一定的监督，导致全局信息无法得到有效地学习，从而对识别过程起不到非常有效的帮助。
技术实现思路
本专利技术的目的在于提出一种基于语义强化编码器解码器框架的场景文字识别方法及系统，能够有效地利用全局信息填补现有方法使用局部信息的不足，同时减小视觉信息与语义信息之间的鸿沟，从而使模型能够更好地处理低质量的图像。为实现上述目的，本专利技术采用的技术方案是：一种基于语义强化编码器解码器框架的场景文字识别方法，包括以下步骤：将目标图像上的任意形状的文本矫正为水平文本，得到矫正后的图像；将...

【技术保护点】
1.一种基于语义强化编码器解码器框架的场景文字识别方法，其特征在于，包括以下步骤：/n将目标图像上的任意形状的文本矫正为水平文本，得到矫正后的图像；/n将矫正后的图像输入到卷积神经网络中提取视觉特征，利用循环神经网络从该视觉特征中提取序列信息；/n根据序列信息预测全局语义信息；/n利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态，根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重，根据该注意力权重对上述视觉特征进行加权，预测出图像上的每一个字符。/n

【技术特征摘要】
1.一种基于语义强化编码器解码器框架的场景文字识别方法，其特征在于，包括以下步骤：
将目标图像上的任意形状的文本矫正为水平文本，得到矫正后的图像；
将矫正后的图像输入到卷积神经网络中提取视觉特征，利用循环神经网络从该视觉特征中提取序列信息；
根据序列信息预测全局语义信息；
利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态，根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重，根据该注意力权重对上述视觉特征进行加权，预测出图像上的每一个字符。

2.如权利要求1所述的方法，其特征在于，将目标图像上的任意形状的文本矫正为水平文本包括以下步骤：
提取目标图像的视觉特征；
预测视觉特征上的多个控制点的位置信息；
使用控制点的信息计算薄板样条插值函数需要的参数矩阵，作用到目标图片上实现任意形状的矫正。

3.如权利要求1所述的方法，其特征在于，控制点数量为20个。

4.如权利要求1所述的方法，其特征在于，训练一语义模块，利用该语义模块来根据序列信息预测全局语义信息，训练该语义模块的方法为：语义模块预测的全局语义信息，通过与预训练好的语言模型输出的词向量来计算损失，根据损失值来调整语义模块的参数，从而实现训练。

5.一种基于语义强化编码器解码器框架的场景文字识别系统，其特征在于，包括：
矫正模块，用于将目标图像上的任意形状的文本矫正为水平文...

【专利技术属性】
技术研发人员：王伟平，乔峙，周宇，杨东宝，周玉灿，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人