一种基于显性矫正机制的不规则场景文字识别方法技术

技术编号:23344711 阅读:45 留言:0更新日期:2020-02-15 04:19
本发明专利技术公开了一种基于显性矫正机制的不规则场景文字识别方法,包括:步骤S100输入待识别图像;步骤S200利用矫正网络对待识别图像中的不规则场景文字进行矫正,得到矫正后产生的新图片;步骤S300将矫正后的图片作为输入传递到识别网络,对该图片中的文字进行识别;步骤S400输出识别内容。本发明专利技术对于解决不规则场景文字识别的问题,具有易实现、效率高且识别准确率高的特点。

A method of text recognition in irregular scene based on explicit correction mechanism

【技术实现步骤摘要】
一种基于显性矫正机制的不规则场景文字识别方法
本专利技术属于数字图像处理的应用领域,具体涉及一种基于显性矫正机制的不规则场景文字识别方法。
技术介绍
场景文字识别是从裁剪后的文字图片中识别出字母序列的过程,它既可以单独用于实际,也可以和文字检测器组成端到端的识别系统。场景文字识别是一项有挑战性的问题。除了背景嘈杂、光照变化等自然图片共有的复杂性外,识别输出空间的复杂也给问题造成了困难:文字由数量不固定的字母组成,因此,和一般的图像分类问题不同,场景文字识别是从图片中识别长度不固定的序列的问题。不规则场景文字是指非水平方向排布的文字。如图1所示,典型的不规则文字包括侧视文字(perspectivetext)、曲形文字等。它们通常由艺术风格的采用或非水平视角拍摄导致。以往的方法在设计上没有针对不规则文字的设计,不能有效地识别不规则文字。然而,不规则文字在场景中十分普遍,也因此给识别造成了显著的困难。不规则场景文字识别问题最早被Phan等人系统研究,作者提出了一套能有效识别侧视文字的识别方法。然而,该方法基于手工设计特征匹配,其准确度本文档来自技高网...

【技术保护点】
1.一种基于显性矫正机制的不规则场景文字识别方法,其特征在于,包含如下步骤:/n步骤S100,输入待识别图像;/n步骤S200,利用矫正网络对待识别图像中的不规则场景文字进行矫正,得到矫正后产生的新图像;/n所述矫正网络是利用TPS参数对图像进行变换,由控制点定位网络、采样网格产生器和采样器组成;/n步骤S300,将矫正后的新图像作为输入传递到识别网络,对该图像中的文字进行识别;/n所述识别网络是一个端到端的卷积神经网络,从矫正后的新图像中识别字符序列,由编码器、解码器组成,其中编码器包括卷积神经网络和双向LSTM网络,用于生成矫正后新图像的特征序列,解码器用于将编码器产生的特征序列翻译成字符...

【技术特征摘要】
1.一种基于显性矫正机制的不规则场景文字识别方法,其特征在于,包含如下步骤:
步骤S100,输入待识别图像;
步骤S200,利用矫正网络对待识别图像中的不规则场景文字进行矫正,得到矫正后产生的新图像;
所述矫正网络是利用TPS参数对图像进行变换,由控制点定位网络、采样网格产生器和采样器组成;
步骤S300,将矫正后的新图像作为输入传递到识别网络,对该图像中的文字进行识别;
所述识别网络是一个端到端的卷积神经网络,从矫正后的新图像中识别字符序列,由编码器、解码器组成,其中编码器包括卷积神经网络和双向LSTM网络,用于生成矫正后新图像的特征序列,解码器用于将编码器产生的特征序列翻译成字符序列;
步骤S400,输出识别内容。


2.根据权利要求1所述的一种基于显性矫正机制的不规则场景文字识别方法,其特征在于:所述步骤S200包括如下子步骤,
步骤S210,对输入的待识别图像I进行缩放,得到64×256尺寸的图像;
步骤S220,对缩放后的图像进行降采样得到32×64尺寸的图像Id,通过控制点定位网络获得输出图像上控制点C;
其中,控制点网络由若干卷积网络层和最大池化层组成,网络的输出层是一个输出2K个节点的全连接层,输出一个2K维度的向量,K是控制点的个数,输出的向量被变形为2×K形状的矩阵,从而得到C,C={c1,c2,…,cK}∈R2×K是对K个控制点坐标向量的拼接,C中的值表示的是归一化后的控制点坐标,其中cK={xK,yK}T是第K个控制点的x,y坐标,(0,0)对应图像的左上角,(1,1)对应图像的右下角;
步骤S230,采样网格产生器根据输出图像上的控制点C计算TPS变换参数,进而获得控制点C在输入图像上对应的控制点C',并产生输入图像上的采样点位置;
一个二维的TPS变换由一个2×(K+3)的矩阵参数化表示,即:



其中,u,v∈R1×K,a0,a1,a2,b0,b1,b2均为矩阵元素;TPS的参数通过求解K个带边界条件的线性方程组得到:



其中,φ(r)=r2log(r)是径向基函数核,r是ci到控制点ck的欧氏距离;
这K个方程组表示TPS将C中的每个控制点分别映射到C'的每个点上,边界条件为:
0=u1
0=v1






此处的Cx和Cy分别是C的x和y坐标组成的向量;
将方程组和边界条件结合到一起得到以下的等式
TΔc=[C'02×3]
其中




是由组成的方块矩阵;
由上述等式得T的闭式解:



其中C为常量,由于和Δc的值只依赖于C,因此它们也是只需要一次计算的常量;
给定一个输出图像上的任意采样点P=(xp,yp)T,TPS通过对P的升维向量进行线性投影得到变换后的采样坐标点P',即P在输入图像上的对应的采样点位置...

【专利技术属性】
技术研发人员:王春枝李敏叶志伟严灵毓夏慧玲袁野盛梦涵卞文硕
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1