当前位置: 首页 > 专利查询>五邑大学专利>正文

基于深度可分离卷积神经网络的脱机手写汉字识别方法技术

技术编号:19546844 阅读:35 留言:0更新日期:2018-11-24 21:08
本发明专利技术公开了基于深度可分离卷积神经网络的脱机手写汉字识别方法,首先对图像进行图像裁剪和图像负像的预处理,然后设计一个基于深度可分离卷积的卷积神经网络,使用随机梯度下降法和反向传播算法进行有监督的训练,当模型收敛时,保存模型参数。最后使用保存的模型对测试图像进行识别以验证模型的有效性,本发明专利技术能够降低模型的计算量以及存储量,使得基于神经网络的脱机手写汉字识别模型能够离线的运行在移动端设备上,在图像预处理和卷积神经网络设计方面加以改进,主要减少卷积神经网络的计算复杂度和模型容量,使其能够适用于计算资源和存储资源受限的计算设备。

Offline Handwritten Chinese Character Recognition Based on Deep Separable Convolutional Neural Network

The present invention discloses an offline handwritten Chinese character recognition method based on depth separable convolution neural network. Firstly, image clipping and negative image preprocessing are performed on the image. Then, a convolution neural network based on depth separable convolution is designed, and supervised training is carried out using random gradient descent method and back propagation algorithm. When the model converges, the model parameters are preserved. Finally, the saved model is used to recognize the test image to verify the validity of the model. The invention can reduce the computational load and storage capacity of the model, so that the off-line handwritten Chinese character recognition model based on neural network can run on the mobile device offline, and add image preprocessing and convolutional neural network design. In order to improve it, the computational complexity and model capacity of convolutional neural network are mainly reduced, so that it can be applied to computing devices with limited computational and storage resources.

【技术实现步骤摘要】
基于深度可分离卷积神经网络的脱机手写汉字识别方法
本专利技术涉及模式识别和图像分类领域,具体涉及基于深度可分离卷积神经网络的脱机手写汉字识别方法。
技术介绍
脱机手写汉字识别只有二维的图像信息,相比于联机手写汉字识别却少笔画顺序信息,所以在分类识别时,一直是一个较为困难的识别问题。传统的方法分为三部分,一是对数据进行预处理;二是人工设计特征提取;三是将特征进行分类识别。近几年,由于卷积神经网络在计算机视觉方面的成功应用,使得脱机手写汉字识别的识别准确率大幅提升。卷积神经网络只需要将原始数据做简单的预处理,便可以自动地提取特征并分类识别,完全自主地学习一个端到端的识别模型。专利CN201611009032和CN20170304188均是采用卷积神经网络来对手写汉字进行识别。专利CN201611009032采用原始图像加图像方向特征的方式对卷积神经网络进行训练,专利CN20170304188采用不同尺寸的图像分别设计了一个两列卷积神经网络,两种方法均基于卷积神经网络,都能取得比传统方法较好的结果。现今,识别准确率较高的卷积神经网络的网络模型容量较大,而且计算复杂度方面都较高。对于像移动端设备这种资源受限的计算设备,将较大容量的模型部署到移动端,需要耗费较大的成本。而且受限于计算资源,也无法适用于时间敏感和实时性较高的应用。专利CN201611009032采用原始图像加图像方向特征的卷积神经网络,其对图像要先计算方向特征,然后再训练卷积神经网络;专利CN20170304188没有较为复杂的图像预处理,而是针对两个不同尺寸的原始图像进行训练,其训练的卷积神经网络模型较为庞大。对于计算资源和存储受限的计算设备,过多的图像预处理方法和较大的卷积神经网络都不能很好的使用。目前,卷积神经网络(Convolutionneuralnetwork,CNN)在脱机手写汉字识别领域已经取得了较为杰出的成果。但是,网络模型需要较大的存储量和计算资源,这些因素制约了网络模型在移动设备上的部署。采用云端部署的方案,无法适用于时间敏感和实时性有较高要求的应用。所以,采用离线部署就非常有必要。为了解决现有技术在模型容量和计算复杂度方面的不足,本专利技术旨在设计一个模型容量小而且计算复杂度较低的应用于脱机手写汉字识别的卷积神经网络模型。
技术实现思路
本专利技术的目的是为解决上述不足,提供基于深度可分离卷积神经网络的脱机手写汉字识别方法。本专利技术的目的是通过以下技术方案实现的:基于深度可分离卷积神经网络的脱机手写汉字识别方法,具体步骤如下:步骤一,脱机手写汉字图像的预处理:深度可分离卷积神经网络的输入数据为单通道的灰度图像,大小为32×32,由于,原始图像大小不确定,所以首先对输入的原始图像进行缩放处理,缩放后的图像大小为32×32;所识别的手写汉字的原始背景颜色是白色,灰度值为255,为了减少计算量,将白色背景反转为黑色背景,灰度值为0;同时,汉字的亮度值也进行了反转,反转后的图像中更多的亮度值为0,图像矩阵更加稀疏,减少了计算量,原始图像的亮度值为Y(x,y),反转图像的亮度值为X(x,y),其中x,y是二维坐标位置,图像负像满足以下公式:1.Y(x,y)=255-X(x,y)(1)步骤二,设计一个基于深度可分离卷积的卷积神经网络模型:针对设计的深度可分离卷积网络中所使用的深度可分离卷积进行详细说明,一个卷积层的输入特征图为X,大小为M×H×W,其中M是输入特征图通道数,H和W是输入特征图的高和宽;输出特征图为Y,大小为N×H′×W′,其中,N是输出特征图通道数,H′和W′是输出特征图的高和宽;卷积核为F,大小为C×K×K×N,其中,K是卷积核的大小。假设卷积步长和补边为1,由卷积的定义可知,有以下公式:其参数量和计算复杂度分别为:C×K×K×N(3)C×K×K×N×H′×W′(4)深度可分离卷积中,每个卷积核对应只一个输入特征图,所以根据深度可分离卷积的定义,有以下公式:为了保证有相同的输出特征图,在深度可分离卷积后面加入一个输出特征图为N的1×1标准卷积,其参数量和计算复杂度分别为:C×K×K+C×1×1×N(6)C×K×K×H′×W′+C×H′×W′×N(7)使用深度可分离卷积,相比较于标准卷积,其计算复杂度和参数量都减少相同倍数,由公式(3)和公式(6)可得,由公式(4)和(7)可得,所以,当深度可分离卷积核K的大小为3时,相比于标准卷积,其参数量和计算复杂度要减少8到9倍。使用深度可分离卷积,设计一个9层的深度可分离卷积神经网络,网络结构如下:[Input]→[64C3]→2×[96dwC3,96C1]→[MP3]→2×[128dwC3,128C1]→2×[192dwC3,192C1]→2×[384dwC3,384C1]→[Dropout]→[3755C1]→[GAP]→[3755SoftMax]其中,64C3表示有64个3×3标准卷积,96dwC3表示有96个3×3深度可分离卷积,MP3表示最大池化层,GAP表示全局平均池化层,其它层的参数以此类推;需要说明的是,每一个标准卷积层和深度可分离卷积层,均使用ReLU激活函数和批量归一化操作,Dropout层的参数设置为0.5,脱机手写汉字类别包括常用的3755个汉字,SoftMax层输出节点为3755;步骤三,训练深度可分离卷积神经网络,采用随机梯度下降法和反向传播算法训练,步骤二中,设计的网络模型输出是SoftMax层,根据SoftMax多分类函数的定义,有以下公式:其中,是输出的类别概率;在随机梯度下降法中,最小化损失函数来使网络模型收敛;在分类任务中,采用输出的交叉熵作为损失函数,其定义如下公式:随机梯度下降法是基于小批量样本数据的算法,根据梯度下降法的定义,基于批量样本的梯度可以表示为:其中,m′表示小批量样本数,L(x,y,θ)是公式(9)的损失函数,随机梯度下降算法的网络模型参数更新如下:θ←θ-αg(11)其中,α是学习率;采用上述的随机梯度下降法进行训练,训练的初始学习率设置为0.1,测试间隔设置为5000次训练时间,并保存网络模型参数,最大迭代次数设置为30万次,每10万次降低学习率10倍,当网络模型收敛时,可以提前停止训练,保存验证准确率最大的模型为最终模型;步骤四,测试网络模型的有效性,本专利技术使用开源的脱机手写汉字数据集CASIA-HWDB,其中,采用CASIA-HWDB1.0和CASIA-HWDB1.1作为训练数据,将CASIA-HWDB-competition数据作为验证集数据,分别训练和测试了两个网络模型,一个是采用标准卷积的网络模型,一个是采用深度可分离卷积的网络模型,实验结果表明,标准卷积网络神经网络模型取得了96%的测试准确率;使用深度可分离卷积网络模型相比于标准卷积神经网络模型,模型容量和计算量均减少8到9倍,测试准确率为95.3%,相比而言,准确率仅降低了0.7%,本专利技术在损失了轻微的准确率的情况下,拥有更少的存储量和计算复杂度,能够更好地部署到计算资源和存储容量受限的设备当中,进行离线地计算。本专利技术具有如下有益的效果:本专利技术采用基于深度可分离卷积设计的神经网络模型,能够降低模型的计算量以及存储量,使得基于神经网络的脱机手写汉字识别模型能够离本文档来自技高网
...

【技术保护点】
1.基于深度可分离卷积神经网络的脱机手写汉字识别方法,其特征在于:具体步骤如下:步骤一,脱机手写汉字图像的预处理:深度可分离卷积神经网络的输入数据为单通道的灰度图像,大小为32×32,由于,原始图像大小不确定,所以首先对输入的原始图像进行缩放处理,缩放后的图像大小为32×32;所识别的手写汉字的原始背景颜色是白色,灰度值为255,为了减少计算量,将白色背景反转为黑色背景,灰度值为0;同时,汉字的亮度值也进行了反转,反转后的图像中更多的亮度值为0,图像矩阵更加稀疏,减少了计算量,原始图像的亮度值为Y(x,y),反转图像的亮度值为X(x,y),其中x,y是二维坐标位置,图像负像满足以下公式:1.Y(x,y)=255‑X(x,y)    (1)步骤二,设计一个基于深度可分离卷积的卷积神经网络模型:针对设计的深度可分离卷积网络中所使用的深度可分离卷积进行详细说明,一个卷积层的输入特征图为X,大小为M×H×W,其中M是输入特征图通道数,H和W是输入特征图的高和宽;输出特征图为Y,大小为N×H′×W′,其中,N是输出特征图通道数,H′和W′是输出特征图的高和宽;卷积核为F,大小为C×K×K×N,其中,K是卷积核的大小,假设卷积步长和补边为1,由卷积的定义可知,有以下公式:...

【技术特征摘要】
1.基于深度可分离卷积神经网络的脱机手写汉字识别方法,其特征在于:具体步骤如下:步骤一,脱机手写汉字图像的预处理:深度可分离卷积神经网络的输入数据为单通道的灰度图像,大小为32×32,由于,原始图像大小不确定,所以首先对输入的原始图像进行缩放处理,缩放后的图像大小为32×32;所识别的手写汉字的原始背景颜色是白色,灰度值为255,为了减少计算量,将白色背景反转为黑色背景,灰度值为0;同时,汉字的亮度值也进行了反转,反转后的图像中更多的亮度值为0,图像矩阵更加稀疏,减少了计算量,原始图像的亮度值为Y(x,y),反转图像的亮度值为X(x,y),其中x,y是二维坐标位置,图像负像满足以下公式:1.Y(x,y)=255-X(x,y)(1)步骤二,设计一个基于深度可分离卷积的卷积神经网络模型:针对设计的深度可分离卷积网络中所使用的深度可分离卷积进行详细说明,一个卷积层的输入特征图为X,大小为M×H×W,其中M是输入特征图通道数,H和W是输入特征图的高和宽;输出特征图为Y,大小为N×H′×W′,其中,N是输出特征图通道数,H′和W′是输出特征图的高和宽;卷积核为F,大小为C×K×K×N,其中,K是卷积核的大小,假设卷积步长和补边为1,由卷积的定义可知,有以下公式:其参数量和计算复杂度分别为:C×K×K×N(3)C×K×K×N×H′×W′(4)深度可分离卷积中,每个卷积核对应只一个输入特征图,所以根据深度可分离卷积的定义,有以下公式:为了保证有相同的输出特征图,在深度可分离卷积后面加入一个输出特征图为N的1×1标准卷积,其参数量和计算复杂度分别为:C×K×K+C×1×1×N(6)C×K×K×H′×W′+C×H′×W′×N(7)使用深度可分离卷积,相比较于标准卷积,其计算复杂度和参数量都减少相同倍数。由公式(3)和公式(6)可得,由公式(4)和(7)可得,所以,当深度可分离卷积核K的大小为3时,相比于标准卷积,其参数量和计算复杂度要减少8到9倍;使用深度可分离卷积,设计一个9层的深度可分离卷积神经网络,网络结构如下:[Input]→[64C3]→2×[96dwC3,96C1]→[MP3]→2×[128dwC3,128C1]→2×[192dwC3,192C1]→2×[384dwC3,384...

【专利技术属性】
技术研发人员:应自炉陈鹏飞朱健菲陈俊娟甘俊英翟懿奎
申请(专利权)人:五邑大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1