一种基于连续卷积激活的场景字符识别方法技术

技术编号:19343699 阅读:86 留言:0更新日期:2018-11-07 14:28
本发明专利技术实施例公开了一种基于连续卷积激活的场景字符识别方法,该方法包括:将训练图像输入至卷积神经网络,得到卷积激活图;利用第一预设卷积层中的卷积激活图,得到卷积激活描述子;利用第二预设卷积层中的卷积激活图,得到权重矩阵;基于卷积激活描述子和权重矩阵,得到连续卷积激活描述子;利用Fisher向量对连续卷积激活描述子进行编码,获取训练图像的特征向量;基于特征向量利用支持向量机得到场景字符识别分类模型;获取测试图像的特征向量,输入至场景字符识别分类模型得到场景字符识别结果。本发明专利技术将底层的笔画、纹理等特征信息和高层的语义信息结合在特征向量中,达到有效挖掘显著特征信息和笔画结构信息的目的,提高场景字符识别的准确率。

A method of scene character recognition based on continuous convolution activation

The embodiment of the present invention discloses a scene character recognition method based on continuous convolution activation, which includes: input the training image into the convolution neural network to obtain the convolution activation map; use the convolution activation map in the first preset convolution layer to obtain the convolution activation descriptor; and use the convolution excitation in the second preset convolution layer to obtain the convolution activation descriptor. The active graph is used to get the weight matrix; the continuous convolution activation descriptor is obtained based on the convolution activation descriptor and the weight matrix; the continuous convolution activation descriptor is coded by Fisher vector to obtain the feature vector of the training image; the scene character recognition and classification model is obtained by support vector machine based on the feature vector; The feature vector of the image is input to the scene character recognition classification model to get the result of scene character recognition. The method combines the feature information of the bottom strokes, textures and other features with the high-level semantic information in the feature vector to effectively mine the salient feature information and stroke structure information and improve the accuracy of scene character recognition.

【技术实现步骤摘要】
一种基于连续卷积激活的场景字符识别方法
本专利技术属于模式识别、人工智能
,具体涉及一种基于连续卷积激活的场景字符识别方法。
技术介绍
字符作为图像通信的媒介在实际应用中无处不在,并为自动地理编码、产品搜索、机器人导航、以及图像和视频检索等各种应用提供了有价值的语义线索。场景字符是在真实场景图像中出现的字符,它们容易受到各种因素的干扰,如非均匀光照、复杂背景、字体失真、模糊、字体变化等。因此,准确地识别场景字符是一项特别具有挑战性的任务。在过去几十年,场景字符识别已经成为一个研究热点,并且研究者们提出了很多场景字符识别算法。一些早期的方法利用光学字符识别技术来识别场景中的字符。光学字符识别技术依赖于场景字符二值化和成熟的光学字符识别引擎。其中,场景字符二值化是非常难以实现的。近年来,研究者们提出基于目标的场景字符识别方法。如:Wang等人提出利用梯度直方图(HistogramofOrientedGradients,HOG)特征来描述场景字符。Newell和Griffin等人将梯度直方图特征拓展为两种多尺度的梯度直方图特征,以捕捉更多特征信息。考虑到场景字符是由特定的笔画结构构成,Shi等人利用基于部件的树结构对每类场景字符进行建模,以挖掘场景字符的局部特征信息和整体结构信息。Gao等人提出笔画库的概念,他们训练笔画检测器,并将笔画检测器响应区域内的最大检测响应作为最终的特征。近年来,卷积神经网络成为很多领域的研究热点之一,它已经成功的应用于语音识别、脑电图分析、图像分类、场景字符识别等多个领域。Jaderberg等人将卷积神经网络中的全连接层的输出作为最终的图像表示。Cimpoi等人提出利用卷积神经网络中某一卷积层中的卷积激活描述子来进行特征表示。虽然以上方法取得了较大的成功,但是他们仅仅使用单一卷积层中的卷积激活图进行特征表示而忽略了其他卷积层提供的信息,所以不能够充分保留显著的特征信息和笔画结构信息,从而影响了场景字符识别的准确性。
技术实现思路
本专利技术的目的是要解决对场景字符识别结果影响较大的显著特征信息和笔画结构信息被忽略的技术问题,为此,本专利技术提供一种基于连续卷积激活的场景字符识别方法。为了实现所述目的,本专利技术基于连续卷积激活的场景字符识别方法包括以下步骤:步骤S1,将训练图像输入至预先训练得到的卷积神经网络中,得到卷积激活图;步骤S2,利用所述卷积神经网络第一预设卷积层中的卷积激活图,得到卷积激活描述子;步骤S3,利用所述卷积神经网络第二预设卷积层中的卷积激活图,得到权重矩阵;步骤S4,基于所述卷积激活描述子和权重矩阵,得到连续卷积激活描述子;步骤S5,利用Fisher向量对所述连续卷积激活描述子进行编码,得到所述训练图像的特征向量;步骤S6,基于特征向量利用支持向量机得到场景字符识别分类模型;步骤S7,按照所述步骤S1-S5获取测试图像的特征向量,输入至所述场景字符识别分类模型得到场景字符识别结果。可选地,所述步骤S1包括:步骤S11,将所述训练图像的大小归一化为H×W,其中,H和W分别表示训练图像的高度和宽度;步骤S12,将归一化后的训练图像输入至所述卷积神经网络中,得到卷积激活图。可选地,所述步骤S2包括:步骤S21,获取所述第一预设卷积层中的卷积激活图Mt,Mt的大小为Ht×Wt×Nt,其中,下标t表示第一预设卷积层的序号,Ht和Wt分别表示第一预设卷积层卷积激活图的高度和宽度,Nt表示第一预设卷积层卷积激活图的数量;步骤S22,将每个卷积激活图位置p处的对应元素串联,得到一个Nt维的卷积激活描述子xt(p),xt(p)表示第t个卷积层中卷积激活图位置p的卷积激活描述子。可选地,所述第二预设卷积层包括几个连续的卷积层。可选地,所述步骤S3包括:步骤S31,获取所述第二预设卷积层中第(t+L-1)卷积层的卷积激活图M(t+L-1),M(t+L-1)的大小为H(t+L-1)×W(t+L-1)×N(t+L-1),其中,下标(t+L-1)表示卷积层的序号,H(t+L-1)和W(t+L-1)分别表示第(t+L-1)卷积层卷积激活图的高度和宽度,N(t+L-1)表示第(t+L-1)卷积层卷积激活图的数量,L表示所需卷积层的总数量;步骤S32,基于卷积激活图M(t+L-1),对权重矩阵进行初始化操作,得到初始化权重矩阵WE(t+L-1);步骤S33,基于卷积激活图M(t+L-2)和初始化权重矩阵WE(t+L-1),得到第(t+L-2)卷积层中的权重矩阵;步骤S34,基于步骤S33,以递归的方式,得到最终的权重矩阵WE(t+1),其中,WE(t+1)的大小为H(t+1)×W(t+1)×N(t+1),下标(t+1)表示卷积层的序号,H(t+1)和W(t+1)分别表示第(t+1)卷积层权重矩阵的高度和宽度,N(t+1)表示第(t+1)卷积层权重矩阵的数量。可选地,所述步骤S32中,一个卷积层中的一个卷积激活图对应一个权重矩阵:其中,表示第(t+L-1)卷积层中的第j个卷积激活图,表示第(t+L-1)卷积层中的第j个权重矩阵。可选地,所述步骤S33中,根据下式得到第(t+L-2)个卷积层中的权重矩阵:其中,⊙表示两个矩阵的点乘运算,表示第(t+L-2)卷积层中的第j个卷积激活图,表示第(t+L-2)卷积层中的第j个权重矩阵。可选地,所述步骤S4中,利用下式获取所述连续卷积激活描述子:其中,表示第(t+1)个卷积层中第j个权重矩阵位置p处的权重值,fj的维度为Nt;所述每幅场景字符图像表示为一个连续卷积激活描述子的集合F:其中,N(t+1)表示第(t+1)个卷积层中权重矩阵的数量。可选地,所述步骤S5中,利用下式对所述连续卷积激活描述子进行编码:其中,fj表示连续卷积激活描述子,N(t+1)表示一幅场景字符图像中连续卷积激活描述子的总数量,wk,μk和σk分别表示高斯混合模型中第k个高斯分量的权重,均值向量和协方差矩阵,φj(k)表示连续卷积激活描述子fj分配到第k个高斯分量的权重,gμk表示第k个高斯成分的均值向量的梯度向量;gσk表示第k个高斯成分的协方差向量的梯度向量。可选地,每幅训练场景字符图像的特征向量表示为:Ffinal=(gμ1,gσ1,gμ2,gσ2,...,gμk,gσk,...,gμK,gσK),其中,K表示高斯混合模型中高斯分量的总数量,Ffinal表示所述训练场景字符图像最终的特征向量。本专利技术的有益效果为:本专利技术通过提取卷积激活描述子和学习权重矩阵,能够将底层的笔画、纹理等特征信息和高层的语义信息结合在特征向量中,达到有效挖掘显著特征信息和笔画结构信息的目的,从而提高场景字符识别的准确率。需要说明的是,本专利技术得到了国家自然科学基金项目No.61501327、No.61711530240、天津市自然科学基金项目No.17JCZDJC30600、No.15JCQNJC01700、天津师范大学基金项目No.135202RC1703、中国科学院模式识别国家重点实验室开放课题No.201700001、No.201800002、国家留学基金委项目No.201708120039、No.201708120040和天津市高等教育创新团队基金项目的资助。附图说明图1是根据本专利技术一实施例的基本文档来自技高网
...

【技术保护点】
1.一种基于连续卷积激活的场景字符识别方法,其特征在于,该方法包括:步骤S1,将训练图像输入至预先训练得到的卷积神经网络中,得到卷积激活图;步骤S2,利用所述卷积神经网络第一预设卷积层中的卷积激活图,得到卷积激活描述子;步骤S3,利用所述卷积神经网络第二预设卷积层中的卷积激活图,得到权重矩阵;步骤S4,基于所述卷积激活描述子和权重矩阵,得到连续卷积激活描述子;步骤S5,利用Fisher向量对所述连续卷积激活描述子进行编码,得到所述训练图像的特征向量;步骤S6,基于特征向量利用支持向量机得到场景字符识别分类模型;步骤S7,按照所述步骤S1‑S5获取测试图像的特征向量,输入至所述场景字符识别分类模型得到场景字符识别结果。

【技术特征摘要】
1.一种基于连续卷积激活的场景字符识别方法,其特征在于,该方法包括:步骤S1,将训练图像输入至预先训练得到的卷积神经网络中,得到卷积激活图;步骤S2,利用所述卷积神经网络第一预设卷积层中的卷积激活图,得到卷积激活描述子;步骤S3,利用所述卷积神经网络第二预设卷积层中的卷积激活图,得到权重矩阵;步骤S4,基于所述卷积激活描述子和权重矩阵,得到连续卷积激活描述子;步骤S5,利用Fisher向量对所述连续卷积激活描述子进行编码,得到所述训练图像的特征向量;步骤S6,基于特征向量利用支持向量机得到场景字符识别分类模型;步骤S7,按照所述步骤S1-S5获取测试图像的特征向量,输入至所述场景字符识别分类模型得到场景字符识别结果。2.根据权利要求1的方法,其特征在于,所述步骤S1包括:步骤S11,将所述训练图像的大小归一化为H×W,其中,H和W分别表示训练图像的高度和宽度;步骤S12,将归一化后的训练图像输入至所述卷积神经网络中,得到卷积激活图。3.根据权利要求1的方法,其特征在于,所述步骤S2包括:步骤S21,获取所述第一预设卷积层中的卷积激活图Mt,Mt的大小为Ht×Wt×Nt,其中,下标t表示第一预设卷积层的序号,Ht和Wt分别表示第一预设卷积层卷积激活图的高度和宽度,Nt表示第一预设卷积层卷积激活图的数量;步骤S22,将每个卷积激活图位置p处的对应元素串联,得到一个Nt维的卷积激活描述子xt(p),xt(p)表示第t个卷积层中卷积激活图位置p的卷积激活描述子。4.根据权利要求1的方法,其特征在于,所述第二预设卷积层包括几个连续的卷积层。5.根据权利要求4的方法,其特征在于,所述步骤S3包括:步骤S31,获取所述第二预设卷积层中第(t+L-1)卷积层的卷积激活图M(t+L-1),M(t+L-1)的大小为H(t+L-1)×W(t+L-1)×N(t+L-1),其中,下标(t+L-1)表示卷积层的序号,H(t+L-1)和W(t+L-1)分别表示第(t+L-1)卷积层卷积激活图的高度和宽度,N(t+L-1)表示第(t+L-1)卷积层卷积激活图的数量,L表示所需卷积层的总数量;步骤S32,基于卷积激活图M(t+L-1),对权重矩阵进行初始化操作,得到初始化权重...

【专利技术属性】
技术研发人员:张重王红刘爽
申请(专利权)人:天津师范大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1