基于深层卷积神经网络的离线手写汉字体识别方法技术

技术编号:19343712 阅读:19 留言:0更新日期:2018-11-07 14:28
一种基于深层卷积神经网络的离线手写汉字体识别方法,包括以下步骤:1)对汉字图像采集以及读取;2)对图像进行处理,过程如下:2.1)首先要进行汉字分割,把图片中所有汉字分割成1张图片一个汉字;2.2)接着对图片进行压缩或者放大,因为分割出来的图片可能无法满足识别的输入,因此需要将图片进行归一化,统一大小为64*64像素;3)读入处理过之后的图片组,利用已经训练好的深层卷积神经网络识别,并输出结果本发明专利技术提供了一种提升识别效果的基于深层卷积神经网络的离线手写汉字体识别方法。

Recognition method of off-line handwritten Chinese character based on deep convolutional neural network

An offline handwritten Chinese character recognition method based on deep convolution neural network includes the following steps: 1) acquisition and reading of Chinese character images; 2) image processing, the process is as follows: 2.1) First, Chinese characters are segmented into one picture and one Chinese character; 2.2) Then, the picture is compressed. Or zoom in, because the segmented picture may not satisfy the input of recognition, it is necessary to normalize the picture to 64*64 pixels in uniform size; 3) read into the processed picture group, use the trained deep convolution neural network to recognize, and output the result, the present invention provides an improved recognition effect. An off-line handwritten Chinese character recognition method based on deep convolution neural network.

【技术实现步骤摘要】
基于深层卷积神经网络的离线手写汉字体识别方法
本专利技术属于图像分类
,具体是一种基于深层卷积神经网络的离线手写汉字体识别方法
技术介绍
离线手写汉字识别是模式识别领域中的一个子方向。离线是指所处理的手写文字是通过扫描仪或摄像头等图像捕捉设备采集到的手写文字二维图。在手写体研究领域中,Casey和Nag在1966年用模板匹配发成功识别出了1000个印刷体汉字。20世纪70年代末,离线手写体汉字识别研究已经引起了广泛的社会关注。不同于英文识别,汉字识别非常困难,其困难点有如下几点:汉字类别多(常用汉字就有6000多个),汉字结构体复杂(包括横竖撇点折),汉字字形变化多,相似汉字多等。对于汉字的识别,主要有两大类:特征提取和分类器设计。特征提取在20世纪学者研究的比较多,其主要有根据特征点提取、笔画结构等等方法分类识别。汉字识别中,除了对特征的提取,就是利用分类器进行汉字识别。有学者曾研究过SVM模型去分类,但其效果一般,在识别种类较多的情况下效果不佳。
技术实现思路
为了克服已有离线手写汉字体识别方法的识别效果不佳的不足,本专利技术提供了一种提升识别效果的基于深层卷积神经网络的离线手写汉字体识别方法。本专利技术解决其技术问题所采用的技术方案是:一种基于深层卷积神经网络的离线手写汉字体识别方法,包括以下步骤:1)对汉字图像采集以及读取;2)对图像进行处理,过程如下:2.1)首先要进行汉字分割,把图片中所有汉字分割成1张图片一个汉字;2.2)接着对图片进行压缩或者放大,因为分割出来的图片可能无法满足识别的输入,因此需要将图片进行归一化,统一大小为64*64像素;3)读入处理过之后的图片组,利用已经训练好的深层卷积神经网络识别,并输出结果;所述深层卷积神经网络包含3个卷积层、3个池化层、1个全连接层以及1个softmax层,输入一个64*64像素且含有单一汉字的图片,经过卷积层1产生64个64*64的矩阵,经过池化层1后产生64个32*32的矩阵,经过卷积层2、池化层2、卷积层3、池化层3后产生256个8*8的矩阵,再经过全连接层产生1个1*1024的矩阵,最后经过softmax层输出属于各种类别汉字的概率。进一步,所述步骤3)中,所述深层卷积神经网络中,在最后的输出种类做调整,因为在后面的训练数据库中包含3755个汉字种类,所以输出3755个汉字种类;Softmax函数表达式如下:其中,pi表示经过Softmax函数后,图片属于第i个类别的概率;M表示识别的种类数;ReLU激活函数表达式为:f(x)=max(x,0)池化方式中的max-pooling指采用最大值池化,在进行卷积的过程中,在图像边界进行填充,填充值为0,当进行卷积操作时会考虑周围填充的图像像素。更进一步,利用中科院的CASIA手写中文库中的HWDB1.1离线数据集对网络结构进行检验。进一步,所述方法还包括以下步骤:4)用户的结果反馈,根据用户反馈若干识别错的汉字,采用人工识别,并加入到网络的训练集中对网络进行更新训练,训练完成后可以对网络参数进行更新并传入识别系统中,设定一个更新周期等方式进行更新。所述步骤1)中,采用拍照技术进行汉字图像采集。本专利技术的有益效果主要表现在:提升识别效果,识别准确性较高。附图说明图1是基于深层卷积神经网络的离线手写汉字体识别方法的流程图。图2是深层卷积神经网络的网络结构图。具体实施方式下面结合附图对本专利技术作进一步描述。参照图1和图2,一种基于深层卷积神经网络的离线手写汉字体识别方法,包括以下步骤:1)对汉字图像采集以及读取;2)对图像进行处理,过程如下:2.1)首先要进行汉字分割,把图片中所有汉字分割成1张图片一个汉字;2.2)接着对图片进行压缩或者放大,因为分割出来的图片可能无法满足识别的输入,因此需要将图片进行归一化,统一大小为64*64像素;3)读入处理过之后的图片组,利用已经训练好的深层卷积神经网络识别,并输出结果;所述深层卷积神经网络包含3个卷积层、3个池化层、1个全连接层以及1个softmax层,输入一个64*64像素且含有单一汉字的图片,经过卷积层1产生64个64*64的矩阵,经过池化层1后产生64个32*32的矩阵,经过卷积层2、池化层2、卷积层3、池化层3后产生256个8*8的矩阵,再经过全连接层产生1个1*1024的矩阵,最后经过softmax层输出属于各种类别汉字的概率。进一步,所述步骤3)中,所述深层卷积神经网络中,在最后的输出种类做调整,因为在后面的训练数据库中包含3755个汉字种类,所以输出3755个汉字种类;Softmax函数表达式如下:其中,pi表示经过Softmax函数后,图片属于第i个类别的概率;M表示识别的种类数;ReLU激活函数表达式为:f(x)=max(x,0)池化方式中的max-pooling指采用最大值池化,在进行卷积的过程中,在图像边界进行填充,填充值为0,当进行卷积操作时会考虑周围填充的图像像素。更进一步,利用中科院的CASIA手写中文库中的HWDB1.1离线数据集对网络结构进行检验。进一步,所述方法还包括以下步骤:4)用户的结果反馈,根据用户反馈若干识别错的汉字,采用人工识别,并加入到网络的训练集中对网络进行更新训练,训练完成后可以对网络参数进行更新并传入识别系统中,设定一个更新周期等方式进行更新。所述步骤1)中,采用拍照技术进行汉字图像采集。本实施例中,在最后的输出种类我们可以做调整,因为在后面的训练数据库中包含3755个汉字种类,所以这里我们输出3755个汉字种类。其中softmax层也可以算作全连接层,它是一种特殊的全连接层,一般应用于最后的输出。全连接层的每一个节点都与上一层的所有节点相连,用来把前边提取到的特征综合起来。Softmax层与全连接层不同之处主要在于最后输出判断的图片类别时,我们往往利用Softmax函数计算当前图片属于该类别的概率。经过Softmax层,能够在一定程度上放大判断的概率,使判断更加肯定一些。深层卷积神经网络结构图参照图2,具体参数如下表1:表1利用中科院的CASIA手写中文库中的HWDB1.1离线数据集对我们的网络结构进行检验。数据集中包含了3755个汉字种类,训练集中每个汉字约有240个人书写,测试集中每个汉字约有60个人书写。我们利用训练集中的数据进行训练,对于损失函数采用交叉熵损失函数,训练的算法采用Adam算法,并加入了Dropout方法。我们在训练时以128为一个batch_size,学习率为0.0005并且每2000步学习率衰减0.98,在训练集上训练20w轮后,在测试集上的TOP1识别准确率达到了0.91,TOP3识别准确率达到了0.96。其中,TOP1准确率表示在识别概率得到的最高的种类正确,TOP3准确率表示在识别概率得到的最高的3个字中有1个字正确则识别正确。本实施例中,在实际识别汉字的过程中,往往不会识别单一汉字,而是识别多个汉字;本方案能够进行一个动态更新,能够让识别越来越准确。本文档来自技高网...

【技术保护点】
1.一种基于深层卷积神经网络的离线手写汉字体识别方法,其特征在于,包括以下步骤:1)对汉字图像采集以及读取;2)对图像进行处理,过程如下:2.1)首先要进行汉字分割,把图片中所有汉字分割成1张图片一个汉字;2.2)接着对图片进行压缩或者放大,因为分割出来的图片可能无法满足识别的输入,因此需要将图片进行归一化,统一大小为64*64像素;3)读入处理过之后的图片组,利用已经训练好的深层卷积神经网络识别,并输出结果;所述深层卷积神经网络包含3个卷积层、3个池化层、1个全连接层以及1个softmax层,输入一个64*64像素且含有单一汉字的图片,经过卷积层1产生64个64*64的矩阵,经过池化层1后产生64个32*32的矩阵,经过卷积层2、池化层2、卷积层3、池化层3后产生256个8*8的矩阵,再经过全连接层产生1个1*1024的矩阵,最后经过softmax层输出属于各种类别汉字的概率。

【技术特征摘要】
1.一种基于深层卷积神经网络的离线手写汉字体识别方法,其特征在于,包括以下步骤:1)对汉字图像采集以及读取;2)对图像进行处理,过程如下:2.1)首先要进行汉字分割,把图片中所有汉字分割成1张图片一个汉字;2.2)接着对图片进行压缩或者放大,因为分割出来的图片可能无法满足识别的输入,因此需要将图片进行归一化,统一大小为64*64像素;3)读入处理过之后的图片组,利用已经训练好的深层卷积神经网络识别,并输出结果;所述深层卷积神经网络包含3个卷积层、3个池化层、1个全连接层以及1个softmax层,输入一个64*64像素且含有单一汉字的图片,经过卷积层1产生64个64*64的矩阵,经过池化层1后产生64个32*32的矩阵,经过卷积层2、池化层2、卷积层3、池化层3后产生256个8*8的矩阵,再经过全连接层产生1个1*1024的矩阵,最后经过softmax层输出属于各种类别汉字的概率。2.如权利要求1所述的基于深层卷积神经网络的离线手写汉字体识别方法,其特征在于,所述步骤3)中,所述深层卷积神经网络中,在最后的输出种类做调整,因为在后面的训练数据库中...

【专利技术属性】
技术研发人员:陆成刚黄成斌
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1