一种基于连续卷积激活的场景字符识别方法技术

技术编号：19343699 阅读：86 留言：0更新日期：2018-11-07 14:28

本发明专利技术实施例公开了一种基于连续卷积激活的场景字符识别方法，该方法包括：将训练图像输入至卷积神经网络，得到卷积激活图；利用第一预设卷积层中的卷积激活图，得到卷积激活描述子；利用第二预设卷积层中的卷积激活图，得到权重矩阵；基于卷积激活描述子和权重矩阵，得到连续卷积激活描述子；利用Fisher向量对连续卷积激活描述子进行编码，获取训练图像的特征向量；基于特征向量利用支持向量机得到场景字符识别分类模型；获取测试图像的特征向量，输入至场景字符识别分类模型得到场景字符识别结果。本发明专利技术将底层的笔画、纹理等特征信息和高层的语义信息结合在特征向量中，达到有效挖掘显著特征信息和笔画结构信息的目的，提高场景字符识别的准确率。

A method of scene character recognition based on continuous convolution activation

The embodiment of the present invention discloses a scene character recognition method based on continuous convolution activation, which includes: input the training image into the convolution neural network to obtain the convolution activation map; use the convolution activation map in the first preset convolution layer to obtain the convolution activation descriptor; and use the convolution excitation in the second preset convolution layer to obtain the convolution activation descriptor. The active graph is used to get the weight matrix; the continuous convolution activation descriptor is obtained based on the convolution activation descriptor and the weight matrix; the continuous convolution activation descriptor is coded by Fisher vector to obtain the feature vector of the training image; the scene character recognition and classification model is obtained by support vector machine based on the feature vector; The feature vector of the image is input to the scene character recognition classification model to get the result of scene character recognition. The method combines the feature information of the bottom strokes, textures and other features with the high-level semantic information in the feature vector to effectively mine the salient feature information and stroke structure information and improve the accuracy of scene character recognition.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于连续卷积激活的场景字符识别方法
本专利技术属于模式识别、人工智能
，具体涉及一种基于连续卷积激活的场景字符识别方法。
技术介绍
字符作为图像通信的媒介在实际应用中无处不在，并为自动地理编码、产品搜索、机器人导航、以及图像和视频检索等各种应用提供了有价值的语义线索。场景字符是在真实场景图像中出现的字符，它们容易受到各种因素的干扰,如非均匀光照、复杂背景、字体失真、模糊、字体变化等。因此，准确地识别场景字符是一项特别具有挑战性的任务。在过去几十年，场景字符识别已经成为一个研究热点，并且研究者们提出了很多场景字符识别算法。一些早期的方法利用光学字符识别技术来识别场景中的字符。光学字符识别技术依赖于场景字符二值化和成熟的光学字符识别引擎。其中，场景字符二值化是非常难以实现的。近年来，研究者们提出基于目标的场景字符识别方法。如：Wang等人提出利用梯度直方图(HistogramofOrientedGradients，HOG)特征来描述场景字符。Newell和Griffin等人将梯度直方图特征拓展为两种多尺度的梯度直方图特征，以捕捉更多特征信息。考虑到场景字符是由特定的笔画结构构成，Shi等人利用基于部件的树结构对每类场景字符进行建模，以挖掘场景字符的局部特征信息和整体结构信息。Gao等人提出笔画库的概念，他们训练笔画检测器，并将笔画检测器响应区域内的最大检测响应作为最终的特征。近年来，卷积神经网络成为很多领域的研究热点之一，它已经成功的应用于语音识别、脑电图分析、图像分类、场景字符识别等多个领域。Jaderberg等人将卷积神经网络中的全连接层的输出作...

【技术保护点】
1.一种基于连续卷积激活的场景字符识别方法，其特征在于，该方法包括：步骤S1，将训练图像输入至预先训练得到的卷积神经网络中，得到卷积激活图；步骤S2，利用所述卷积神经网络第一预设卷积层中的卷积激活图，得到卷积激活描述子；步骤S3，利用所述卷积神经网络第二预设卷积层中的卷积激活图，得到权重矩阵；步骤S4，基于所述卷积激活描述子和权重矩阵，得到连续卷积激活描述子；步骤S5，利用Fisher向量对所述连续卷积激活描述子进行编码，得到所述训练图像的特征向量；步骤S6，基于特征向量利用支持向量机得到场景字符识别分类模型；步骤S7，按照所述步骤S1‑S5获取测试图像的特征向量，输入至所述场景字符识别分类模型得到场景字符识别结果。

【技术特征摘要】
1.一种基于连续卷积激活的场景字符识别方法，其特征在于，该方法包括：步骤S1，将训练图像输入至预先训练得到的卷积神经网络中，得到卷积激活图；步骤S2，利用所述卷积神经网络第一预设卷积层中的卷积激活图，得到卷积激活描述子；步骤S3，利用所述卷积神经网络第二预设卷积层中的卷积激活图，得到权重矩阵；步骤S4，基于所述卷积激活描述子和权重矩阵，得到连续卷积激活描述子；步骤S5，利用Fisher向量对所述连续卷积激活描述子进行编码，得到所述训练图像的特征向量；步骤S6，基于特征向量利用支持向量机得到场景字符识别分类模型；步骤S7，按照所述步骤S1-S5获取测试图像的特征向量，输入至所述场景字符识别分类模型得到场景字符识别结果。2.根据权利要求1的方法，其特征在于，所述步骤S1包括：步骤S11，将所述训练图像的大小归一化为H×W，其中，H和W分别表示训练图像的高度和宽度；步骤S12，将归一化后的训练图像输入至所述卷积神经网络中，得到卷积激活图。3.根据权利要求1的方法，其特征在于，所述步骤S2包括：步骤S21，获取所述第一预设卷积层中的卷积激活图Mt，Mt的大小为Ht×Wt×Nt，其中，下标t表示第一预设卷积层的序号，Ht和Wt分别表示第一预设卷积层卷积激活图的高度和宽度，Nt表示第一预设卷积层卷积激活图的数量；步骤S22，将每个卷积激活图位置p处的对应元素串联，得到一个Nt维的卷积激活描述子xt(p)，xt(p)表示第t个卷积层中卷积激活图位置p的卷积激活描述子。4.根据权利要求1的方法，其特征在于，所述第二预设卷积层包括几个连续的卷积层。5.根据权利要求4的方法，其特征在于，所述步骤S3包括：步骤S31，获取所述第二预设卷积层中第(t+L-1)卷积层的卷积激活图M(t+L-1)，M(t+L-1)的大小为H(t+L-1)×W(t+L-1)×N(t+L-1)，其中，下标(t+L-1)表示卷积层的序号，H(t+L-1)和W(t+L-1)分别表示第(t+L-1)卷积层卷积激活图的高度和宽度，N(t+L-1)表示第(t+L-1)卷积层卷积激活图的数量，L表示所需卷积层的总数量；步骤S32，基于卷积激活图M(t+L-1)，对权重矩阵进行初始化操作，得到初始化权重...

【专利技术属性】
技术研发人员：张重，王红，刘爽，
申请(专利权)人：天津师范大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人