The present invention provides a natural scene image in English text and digital identification methods, the identification problem of English text in natural scenes and figures are divided into three steps: feature extraction, feature focusing and feature recognition, the input image feature extraction using convolutional neural network, the mechanism of attention focus on the characteristic sequence of useful information the length of memory network to identify the feature vector, which will be combined with the depth of the neural network and the mechanism of attention, when the input image into the depth of the neural network, can directly obtain the final recognition results. The present invention does not need to slide the input image and recognize the characters in the window; at the same time, the output string of the invention is the final identification result, and the merging algorithm is not needed to integrate the identified string.
【技术实现步骤摘要】
一种自然场景图像中的英文文字和数字识别方法
本专利技术属于文字识别
,涉及利用深度神经网络和注意力机制进行自然场景图像中的英文文字和数字识别方法。
技术介绍
自然场景中的文字往往携带着非常重要的信息,它能够被用来描述该图像的内容。自动地获取图像中的文字信息可以帮助人们更有效地理解图像和对图像进行存储、压缩、检索等处理。相对于自然场景文字检测方法,自然场景文字识别方法是对已经检测出的文字区域进行识别。英文和数字作为一种世界通用语言,在世界各国的场景中广泛出现,识别英文文字和数字意义重大。然而,与手写字符识别不同,自然场景中英文文字与数字的位置、尺寸、字体、光照、视角、外形存在着的多变性,而且自然场景字符的背景也相当复杂,所以自然场景中的英文文字和数字识别存在诸多需要攻克的技术难点。现有的自然场景文字识别算法通常都是自底而上的算法,见文献[NeumannL,MatasJ.'Real-timelexicon-freescenetextlocalizationandrecognition',IEEETransactionsonPatternAnalysisandMa ...
【技术保护点】
一种自然场景图像中的英文文字和数字识别方法,包括如下步骤:步骤(一),采用深度神经网络中的卷积神经网络对输入的图像进行特征提取,将卷积神经网络的输出作为特征提取的结果;所述卷积神经网络从输入到输出依次由:卷积层1、批量标准化层1、池化层1、卷积层2、批量标准化层2、池化层2、卷积层3、批量标准化层3、卷积层4、批量标准化层4、池化层4、卷积层5、批量标准化层5、卷积层6、批量标准化层6、池化层6、卷积层7、批量标准化层7组成;其中卷积层1~7的参数按照卷积核大小、通道数目、滑动间隔和扩充大小的顺序依次为:(3,64,1,1),(3,128,1,1),(3,256,1,1), ...
【技术特征摘要】
1.一种自然场景图像中的英文文字和数字识别方法,包括如下步骤:步骤(一),采用深度神经网络中的卷积神经网络对输入的图像进行特征提取,将卷积神经网络的输出作为特征提取的结果;所述卷积神经网络从输入到输出依次由:卷积层1、批量标准化层1、池化层1、卷积层2、批量标准化层2、池化层2、卷积层3、批量标准化层3、卷积层4、批量标准化层4、池化层4、卷积层5、批量标准化层5、卷积层6、批量标准化层6、池化层6、卷积层7、批量标准化层7组成;其中卷积层1~7的参数按照卷积核大小、通道数目、滑动间隔和扩充大小的顺序依次为:(3,64,1,1),(3,128,1,1),(3,256,1,1),(3,256,1,1),(3,512,1,1),(3,512,1,1)和(2,512,1,0);批量标准化层1~7的目的是调整中间结果数据的分布,没有参数;池化层1、2、4、6的参数按照池化窗口、左右滑动间隔,上下滑动间隔,左右扩充大小和上下扩充大小的顺序依次为:(2*2,2,2,0,0),(2*2,2,2,0,0),(1*2,1,2,0,0)和(1*2,1,2,0,0);图像在输入到卷积神经网络之前需要将图像的分辨率调整为80×32,所述卷积神经网络的输出为大小为512×19的二维特征矩阵;将所述二维特征矩阵序列化后得到包含19个大小为1×512向量的特征序列,表示为:S={s1,s2,…sL},其中si∈R512,i=1,2,…,L;L=19,表示序列的长度;步骤(二),采用注意力机制对包含19个大小为1×512向量的特征序列S进行特征聚焦:按照从左到右的空间顺序依次识别图像中的字符,设定训练数据...
【专利技术属性】
技术研发人员:张军,涂丹,李硕豪,陈旭,雷军,郭强,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。