一种基于深度学习的文字识别方法技术

技术编号:16428339 阅读:32 留言:0更新日期:2017-10-21 23:48
本发明专利技术公开了一种基于深度学习的文字识别方法,该方法包括空间变换层的构建阶段与深层卷积神经网络的构建与训练阶段。空间变换层包含三个部分,定位网络接收特征图作为输入,经过一系列隐层,然后输出空间变换的参数,该参数将被用于特征图上;网格生成器使用第一部分生成的参数产生出采样网格;采样器将特征图与采样网格作为输入,在网格点上对特征图进行采样,最后得到输出特征图结果。空间变换层可微分,通过它能够在网络中对图像数据进行空间处理,从而令网络学习到对空间扭曲的不变性,避免了传统卷积网络训练中需要人工生成大量变形样本的过程。此外,通过构建更深层的卷及神经网络,针对类别繁多的汉字有更好的识别效果。

A method of text recognition based on deep learning

The invention discloses a character recognition method based on deep learning, which comprises the construction phase of the space transformation layer and the construction and training phase of the deep convolutional neural network. Space transformation layer contains three parts, positioning feature map network receives as input, after a series of hidden layer parameters, then the output space transform, the parameters will be used in the feature map; grid generator using the first generating parameters to produce the sampling grid; impector characteristic chart and sampling grid as input sampling characteristic figure in the grid point, finally get the output feature map results. Space transformation layer differential, it can in the network of the image data to spatial processing, so that the network can learn the invariant to spatial distortion, avoid the artificial generation of large deformation samples need traditional convolutional network training. In addition, through the construction of deeper volumes and neural networks, there is a better recognition effect for a wide variety of Chinese characters.

【技术实现步骤摘要】
一种基于深度学习的文字识别方法
本专利技术属于模式识别中的文字识别领域,更具体地,涉及一种基于深度学习的文字识别方法。
技术介绍
随着现代科学技术的不断发展与互联网的广泛普及,我们每天都要接触到以各类形式呈现的海量信息资源,特别是在我们平时的生活学习和工作当中,经常难以避免地需要处理大量的文字信息,并将其录入到计算机中。因此,如何能够快速准确地将这些文字信息录入到计算机等各类电子设备之中便成为了一个急需解决的问题。光学字符识别(简称OCR)是指通过借助机器设备自动提取出图片中的文字,并将其转换成机器可以编辑的文字的一种技术。一般而言,传统的汉字识别方法主要包括数据预处理、特征提取和分类识别三部分。(1)预处理。预处理的作用在于加强有用图像信息、去除噪声、从而有利于特征提取。该过程通过二值化、平滑去噪和归一化等手段来执行。其中,二值化是实现灰度文本图像到二值化文本图像的转化;去噪是将二值化后,图像中的孤立点(污点)去除;归一化是规范文字的大小、位置形状以减少相同字符之间的形变。(2)特征提取。特征提取分为2大类:结构特征提取与统计特征提取。基于结构的特征提取是指,提取字符轮廓或骨架上的字符像素信息,如笔划特征、轮廓、周边特征、部件等,该方法能有效适应字体变化,区分相似字能力强,但是在图像文本中存在各种干扰,如倾斜、扭曲、断裂、粘连、五点等,该类方法抗干扰能力较弱。对样本进行数学变换后提取的特征,被称为统计特征。主要采用的方法有小波变换、傅里叶变换、频域变换、矩、,离散余弦变换等。提取出的特征通常供给统计分类器使用。总体而言,统计特征的识别相对结构特征细分能力较弱,区分相似字的能力不强。(3)分类识别。分类识别时对特征提取所获得样本,按建立的分类规则进行识别。分类器是分类识别的核心问题,分类器的作用是加快匹配速度,提高识别效率,达到识别效果。但传统汉字字体的识别方法存在着不足,因为汉字字符的复杂性,特征提取方法不能处理多变的汉字外形,特征点提取方法需要人工专家定义重要的特征点位置,而且,对于那些特征点的重要性也不能给出统一的标准,从而导致文字识别准确率较低。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术的目的在于提供了一种基于深度学习的文字识别方法,由此解决目前的文字识别方法对文字的识别准确率较低的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种基于深度学习的文字识别方法,包括:空间变换层构建阶段以及深层卷积神经网络构建与训练阶段;所述空间变换层构建阶段包括:定位网络接收输入的特征图,经过系列隐层,输出空间变换参数,其中,该参数是变换函数作用在特征图上的参数;网格生成器使用定位网络输出的空间变换参数产生出采样网格;采样器将输入的特征图以及采样网格作为输入,在采样网格点上对输入的特征图进行采样,最后得到输出特征图结果;所述深层卷积神经网络构建与训练阶段包括:构建深层卷积神经网络的结构,将构建的空间变换层设置在深层卷积神经网络的最开始位置得到目标深层卷积神经网络;采用随机梯度下降法对目标深层卷积神经网络进行训练,进而得到字符识别模型,所述字符识别模型用于对输入的待识别文字图像进行文字识别。优选地,所述定位网络包括两个卷积层,各卷积层的卷积核数量为M,大小为N,步长为s,在每个卷积层后均设置一个最大值池化层,该池化层大小为L,步长为t,在每个池化层后均设置一个ReLU层,在第二个ReLU层后设置一个全连接层,在全连接层后设置一个ReLU层,接着最后一层也是全连接层,用于输出空间变换参数,维度是d。优选地,所述网格生成器使用定位网络输出的空间变换参数产生出采样网格,包括:由得到输入特征图中的各像素变换后的输出像素,由所有输出像素组成输出特征图中的采样网格,其中,表示输入特征图中在第i个像素的源坐标,表示输出特征图中的采样网格在第i个像素的目标坐标,Aθ表示仿射变换矩阵,为定位网络输出的空间变换参数,Gi表示采样网格中的像素集。优选地,所述采样器将输入的特征图以及采样网格作为输入,在采样网格点上对输入的特征图进行采样,最后得到输出特征图结果,包括:由得到输出特征图中各像素对应的坐标点的像素值,其中,Φx和Φy为采样内核k()的参数,是输入特征图的c通道在输入特征图中第i个像素的坐标点(n,m)的像素值,Vic是输出特征图的c通道在输出特征图中坐标点的输出像素值,W表示输入特征图的宽,H表示输入特征图的高,C表示输入特征图的通道数。优选地,所述采样器将输入的特征图以及采样网格作为输入,在采样网格点上对输入的特征图进行采样,最后得到输出特征图结果,包括:由得到输出特征图中各像素对应的坐标点的像素值,其中,表示向下取整,δ()表示克罗内克函数,是输入特征图的c通道在输入特征图中第i个像素的坐标点(n,m)的像素值,Vic是输出特征图的c通道在输出特征图中坐标点的输出像素值,W表示输入特征图的宽,H表示输入特征图的高,C表示输入特征图的通道数。优选地,所述采样器将输入的特征图以及采样网格作为输入,在采样网格点上对输入的特征图进行采样,最后得到输出特征图结果,包括:由得到输出特征图中各像素对应的坐标点的像素值,其中,是输入特征图的c通道在输入特征图中坐标点(n,m)的像素值,Vic是输出特征图的c通道在输出特征图中第i个像素的坐标点的输出像素值,W表示输入特征图的宽,H表示输入特征图的高,C表示输入特征图的通道数。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:本专利技术提出的基于深度学习的文字识别方法通过将空间变换层引入到卷积神经网络中,可以在网络中对输入文字图像主动进行各种空间变换,并且无需对优化过程进行额外的训练监督或者修改。结果表明,利用空间变换层可以令模型学习到对平移、缩放、旋转以及更为一般性的空间扭曲不变性,能够较好的识别存在较为明显变形的字符。附图说明图1为本专利技术实施例公开的一种基于深度学习的文字识别方法的流程示意图;图2为本专利技术实施例公开的一种空间变换层的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。本专利技术公开的一种基于深度学习的文字识别方法,设计了一种深层的空间变换卷积神经网络,可以主动对输入的字符图像进行各种空间变换,从而达到数据增强的目的,同时提升网络空间不变性的能力,针对汉字字符具有比较高的识别准确率。如图1所示是本专利技术实施例公开的一种基于深度学习的文字识别方法的流程示意图,在图1所示的方法中包括两个阶段,即空间变换层的构建阶段与深层卷积神经网络的构建与训练阶段,下面对这两个阶段进行具体说明。(A)空间变换层构建阶段包括:定位网络接收输入的特征图,经过系列隐层,输出空间变换参数,其中,该参数是变换函数作用在特征图上的参数;其中,定位网络将特征图作为输入,宽为W,高为H,通道数为C,输出为θ,θ是变换函数Tθ作用在特征图上的参数:θ=floc(U)。θ的形式可以多样,取决于参数化后的变换类型,比如对于仿射变换,那么本文档来自技高网
...
一种基于深度学习的文字识别方法

【技术保护点】
一种基于深度学习的文字识别方法,其特征在于,包括:空间变换层构建阶段以及深层卷积神经网络构建与训练阶段;所述空间变换层构建阶段包括:定位网络接收输入的特征图,经过系列隐层,输出空间变换参数,其中,该参数是变换函数作用在特征图上的参数;网格生成器使用定位网络输出的空间变换参数产生出采样网格;采样器将输入的特征图以及采样网格作为输入,在采样网格点上对输入的特征图进行采样,最后得到输出特征图结果;所述深层卷积神经网络构建与训练阶段包括:构建深层卷积神经网络的结构,将构建的空间变换层设置在深层卷积神经网络的最开始位置得到目标深层卷积神经网络;采用随机梯度下降法对目标深层卷积神经网络进行训练,进而得到字符识别模型,所述字符识别模型用于对输入的待识别文字图像进行文字识别。

【技术特征摘要】
1.一种基于深度学习的文字识别方法,其特征在于,包括:空间变换层构建阶段以及深层卷积神经网络构建与训练阶段;所述空间变换层构建阶段包括:定位网络接收输入的特征图,经过系列隐层,输出空间变换参数,其中,该参数是变换函数作用在特征图上的参数;网格生成器使用定位网络输出的空间变换参数产生出采样网格;采样器将输入的特征图以及采样网格作为输入,在采样网格点上对输入的特征图进行采样,最后得到输出特征图结果;所述深层卷积神经网络构建与训练阶段包括:构建深层卷积神经网络的结构,将构建的空间变换层设置在深层卷积神经网络的最开始位置得到目标深层卷积神经网络;采用随机梯度下降法对目标深层卷积神经网络进行训练,进而得到字符识别模型,所述字符识别模型用于对输入的待识别文字图像进行文字识别。2.根据权利要求1所述的方法,其特征在于,所述定位网络包括两个卷积层,各卷积层的卷积核数量为M,大小为N,步长为s,在每个卷积层后均设置一个最大值池化层,该池化层大小为L,步长为t,在每个池化层后均设置一个ReLU层,在第二个ReLU层后设置一个全连接层,在全连接层后设置一个ReLU层,接着最后一层也是全连接层,用于输出空间变换参数,维度是d。3.根据权利要求1所述的方法,其特征在于,所述网格生成器使用定位网络输出的空间变换参数产生出采样网格,包括:由得到输入特征图中的各像素变换后的输出像素,由所有输出像素组成输出特征图中的采样网格,其中,表示输入特征图中在第i个像素的源坐标,表示输出特征图中采样网格在第i个像素的目标坐标,Aθ表示仿射变换矩阵,为定位网络输出的空间变换...

【专利技术属性】
技术研发人员:凌贺飞赵航李平
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1