一种基于深度学习的文字识别方法技术

技术编号：16428339 阅读：32 留言：0更新日期：2017-10-21 23:48

本发明专利技术公开了一种基于深度学习的文字识别方法，该方法包括空间变换层的构建阶段与深层卷积神经网络的构建与训练阶段。空间变换层包含三个部分，定位网络接收特征图作为输入，经过一系列隐层，然后输出空间变换的参数，该参数将被用于特征图上；网格生成器使用第一部分生成的参数产生出采样网格；采样器将特征图与采样网格作为输入，在网格点上对特征图进行采样，最后得到输出特征图结果。空间变换层可微分，通过它能够在网络中对图像数据进行空间处理，从而令网络学习到对空间扭曲的不变性，避免了传统卷积网络训练中需要人工生成大量变形样本的过程。此外，通过构建更深层的卷及神经网络，针对类别繁多的汉字有更好的识别效果。

A method of text recognition based on deep learning

The invention discloses a character recognition method based on deep learning, which comprises the construction phase of the space transformation layer and the construction and training phase of the deep convolutional neural network. Space transformation layer contains three parts, positioning feature map network receives as input, after a series of hidden layer parameters, then the output space transform, the parameters will be used in the feature map; grid generator using the first generating parameters to produce the sampling grid; impector characteristic chart and sampling grid as input sampling characteristic figure in the grid point, finally get the output feature map results. Space transformation layer differential, it can in the network of the image data to spatial processing, so that the network can learn the invariant to spatial distortion, avoid the artificial generation of large deformation samples need traditional convolutional network training. In addition, through the construction of deeper volumes and neural networks, there is a better recognition effect for a wide variety of Chinese characters.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的文字识别方法
本专利技术属于模式识别中的文字识别领域，更具体地，涉及一种基于深度学习的文字识别方法。
技术介绍
随着现代科学技术的不断发展与互联网的广泛普及，我们每天都要接触到以各类形式呈现的海量信息资源，特别是在我们平时的生活学习和工作当中，经常难以避免地需要处理大量的文字信息，并将其录入到计算机中。因此，如何能够快速准确地将这些文字信息录入到计算机等各类电子设备之中便成为了一个急需解决的问题。光学字符识别(简称OCR)是指通过借助机器设备自动提取出图片中的文字，并将其转换成机器可以编辑的文字的一种技术。一般而言，传统的汉字识别方法主要包括数据预处理、特征提取和分类识别三部分。(1)预处理。预处理的作用在于加强有用图像信息、去除噪声、从而有利于特征提取。该过程通过二值化、平滑去噪和归一化等手段来执行。其中，二值化是实现灰度文本图像到二值化文本图像的转化；去噪是将二值化后，图像中的孤立点(污点)去除；归一化是规范文字的大小、位置形状以减少相同字符之间的形变。(2)特征提取。特征提取分为2大类：结构特征提取与统计特征提取。基于结构的特征提取是指，提取字符轮廓或骨架上的字符像素信息，如笔划特征、轮廓、周边特征、部件等，该方法能有效适应字体变化，区分相似字能力强，但是在图像文本中存在各种干扰，如倾斜、扭曲、断裂、粘连、五点等，该类方法抗干扰能力较弱。对样本进行数学变换后提取的特征，被称为统计特征。主要采用的方法有小波变换、傅里叶变换、频域变换、矩、，离散余弦变换等。提取出的特征通常供给统计分类器使用。总体而言，统计特征的识别相对结构特征细分能力...
一种基于深度学习的文字识别方法

【技术保护点】
一种基于深度学习的文字识别方法，其特征在于，包括：空间变换层构建阶段以及深层卷积神经网络构建与训练阶段；所述空间变换层构建阶段包括：定位网络接收输入的特征图，经过系列隐层，输出空间变换参数，其中，该参数是变换函数作用在特征图上的参数；网格生成器使用定位网络输出的空间变换参数产生出采样网格；采样器将输入的特征图以及采样网格作为输入，在采样网格点上对输入的特征图进行采样，最后得到输出特征图结果；所述深层卷积神经网络构建与训练阶段包括：构建深层卷积神经网络的结构，将构建的空间变换层设置在深层卷积神经网络的最开始位置得到目标深层卷积神经网络；采用随机梯度下降法对目标深层卷积神经网络进行训练，进而得到字符识别模型，所述字符识别模型用于对输入的待识别文字图像进行文字识别。

【技术特征摘要】
1.一种基于深度学习的文字识别方法，其特征在于，包括：空间变换层构建阶段以及深层卷积神经网络构建与训练阶段；所述空间变换层构建阶段包括：定位网络接收输入的特征图，经过系列隐层，输出空间变换参数，其中，该参数是变换函数作用在特征图上的参数；网格生成器使用定位网络输出的空间变换参数产生出采样网格；采样器将输入的特征图以及采样网格作为输入，在采样网格点上对输入的特征图进行采样，最后得到输出特征图结果；所述深层卷积神经网络构建与训练阶段包括：构建深层卷积神经网络的结构，将构建的空间变换层设置在深层卷积神经网络的最开始位置得到目标深层卷积神经网络；采用随机梯度下降法对目标深层卷积神经网络进行训练，进而得到字符识别模型，所述字符识别模型用于对输入的待识别文字图像进行文字识别。2.根据权利要求1所述的方法，其特征在于，所述定位网络包括两个卷积层，各卷积层的卷积核数量为M，大小为N，步长为s，在每个卷积层后均设置一个最大值池化层，该池化层大小为L，步长为t，在每个池化层后均设置一个ReLU层，在第二个ReLU层后设置一个全连接层，在全连接层后设置一个ReLU层，接着最后一层也是全连接层，用于输出空间变换参数，维度是d。3.根据权利要求1所述的方法，其特征在于，所述网格生成器使用定位网络输出的空间变换参数产生出采样网格，包括：由得到输入特征图中的各像素变换后的输出像素，由所有输出像素组成输出特征图中的采样网格，其中，表示输入特征图中在第i个像素的源坐标，表示输出特征图中采样网格在第i个像素的目标坐标，Aθ表示仿射变换矩阵，为定位网络输出的空间变换...

【专利技术属性】
技术研发人员：凌贺飞，赵航，李平，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人