一种脱机手写、印刷汉字识别方法及系统技术方案

技术编号:17562290 阅读:49 留言:0更新日期:2018-03-28 12:40
本发明专利技术公开了一种脱机手写、印刷汉字识别方法及系统,包括:制作训练集:载入训练集,载入模型进行训练,根据模型训练阶段训练出的权重,对训练集进行识别,找到训练集中的错误部分,并剔除,调整参数,得到最终训练集;识别脱机手写汉字:根据所述最终训练集,载入模型和参数,读取汉字图像进行二值化和灰度化处理,然后将二值化的图像和灰度化的图像像素取与,得到新的汉字图像。本发明专利技术的优点是:实现方法简单,适用范围广泛,模型采用神经卷积网络结构:共包含44个卷积层、10个池化层,9个融合层,9个批规范化层,2个dropout层、1个全连接层、1个输入层和1个输出层,脱机汉字识别精确。

A method and system for off-line handwritten and printed Chinese character recognition

The invention discloses a handwritten and printed Chinese characters recognition method and system, including: making the training set into the training set, loading model for training, training, training stage according to the weight of the model, the training set for recognition, find the wrong part, the training set and adjust the parameters to get the final elimination, the training set; recognition of handwritten Chinese characters: according to the final training set, load models and parameters, read Chinese characters image binarization and grayscale processing, and then the two value image pixel image and grayscale of the image and get the new Chinese characters. The invention has the advantages that the realizing method is simple and applicable to a wide range of convolution model based on neural network structure: a total of 44 volumes, 10 layer pool layer, 9 fusion layer, the 9 batch of standardized 2 layer, dropout layer, 1 layer, fully connected to 1 input layer and 1 the output layer, offline recognition precision Chinese characters.

【技术实现步骤摘要】
一种脱机手写、印刷汉字识别方法及系统
本专利技术涉及一种脱机手写、印刷汉字识别方法及系统。
技术介绍
目前,地质调查的野外工作是数据的重要来源,这部分人工记录的原始地质资料在地质大数据中占有相当大的比例,其蕴含着大量有价值的信息,但出于技术原因,这部分数据中的信息无法利用,成为了“暗数据”。汉字识别技术主要分为印刷体识别和手写体识别两大类。手写汉字的随意性大,比印刷体难识别。手写汉字识别根据数据采集的方式又可分为联机识别和脱机识别。在联机识别中,计算机能获得输入字符的笔画顺序,因此比脱机识别获得的信息更多,更容易识别。再加上拍照或扫描的过程中,不同的光照、分辨率、纸张等都会带来干扰。因此,脱机手写汉字识别远比联机识别要难。尽管一些现有技术声称脱机手写汉字识别率已经达到了99%,这些结果让人们误认为手写体汉字识别问题已经得到了很好的解决。如CN106408038A的专利文献公开了一种基于卷积神经网络的手写汉字旋转汉字识别方法,其包括在图形处理器上搭建基于包含多种卷积神经网络模型的Caffe深度学习框架的平台;准备训练数据集和带有标签的测试数据集,并利用上述数据集在图形处理器上训练上述卷积神经网络模型进行一级手写汉字的识别;将HCL2000数据库的手写汉字原始图像和随机旋转各个方向后的图像输入卷积神经网络模型,对网络进行训练。最后输入未知旋转汉字进行测试,得到对汉字图像的识别结果,但其显著缺点是采用链状网络,导致识别率大大降低。实际上,每当遇到真实的无限制的手写样本时,很多算法的识别率便会出现明显的降低。导致这些差距的潜在因素在于汉字的独特性和手写体汉字风格的多样性,这些因素给手写体汉字识别带来了很大的困难,在实际应用中尤其突出,主要表现在以下几个方面:第一,汉字数量多。按照我国汉字基本集GB2312-80的标准,常用的第一级汉字类别有3755个,第二级汉字类别有3008个,总计为6763个。因此,对于汉字识别系统来说,要能够正确识别如此多类别的汉字具有很大的挑战性。第二,结构复杂。汉字有各种笔划,笔划又组成各种字根,字根按照一定规律分布在各个子空间中,形成不同的字形。可以看出,这种构字方式相当复杂,笔划相互交错,给汉字识别带来很大的困难。第三,相似字多。汉字中有很多相似字,有的只差一“点”或一“捺”,这些相似字很容易混淆,因此在汉字特征提取和分类器设计上,对这些相似字必须给予特别的注意。第四,书写风格多变。每个人的书写风格千差万别,因此即使是同一个汉字,由不同的人写出来,差异也是非常明显的,要从成百上千种风格种提取出本质不变的特征并非易事。此外,书写纸张的好坏,字形的大小,扫描设备的优劣,噪声的干扰等,都会给汉字识别研究工作带来很大的干扰和困难。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种脱机手写、印刷汉字识别方法,其实现简单,能够显著提高脱机手写汉字的识别精准率。为达到上述目的,本专利技术的技术方案是这样实现的:一种脱机手写、印刷汉字识别方法,其特征在于,包括:制作训练集:载入训练集,载入模型进行训练,根据模型训练阶段训练出的权重,对训练集进行识别,找到训练集中的错误部分,并剔除,调整参数,得到最终训练集;识别脱机手写汉字:根据所述最终训练集,载入模型和参数,读取汉字图像进行二值化与灰度化处理,得到新的汉字图像。本专利技术的另一目的在于,提供一种脱机手写、印刷汉字识别系统,其特征在于,包括:训练单元,用于载入训练集,载入模型进行训练,根据模型训练阶段训练出的权重,对训练集进行识别,找到训练集中的错误部分,并剔除,调整参数,得到最终训练集;识别单元,用于根据所述最终训练集,载入模型和参数,读取汉字图像进行二值化和灰度化处理,然后将二值化的图像和灰度化的图像像素取与,得到新的汉字图像。本专利技术相对于现有技术具有以下突出的实质性特点和显著的进步:第一,实现方法简单,包括制作训练集与识别脱机手写汉字两个步骤,制作训练集来自HCL2000、HWDB1.1、印刷体字库和自行制作的地质行业高频汉字,共738份,约3201306个汉字样本。不同的训练样本加和使得模型的泛化能力增强,能识别更多书写风格的汉字。剔除了训练集中的错误,使得模型不被错误干扰。具体使用时,输入一张图片,先对图片进行预处理。之后将预处理得到的矩阵传入模型,进行预测,即可得到分类号。再将分类号解码为汉字。也可以将包含单个汉字的多张图片放在一个文件夹,批量识别。第二,脱机汉字识别精确,读取汉字图像进行二值化和灰度化处理,然后将二值化的图像和灰度化的图像像素取与,保留了笔画的轻重。模型采用神经卷积网络结构:共包含44个卷积层、10个池化层,9个融合层,9个批规范化层,2个dropout层、1个全连接层、1个输入层和1个输出层,从一层引出多层并最终汇聚成一层的9个inception模块,通过1×1卷积核、采用3×9和9×3的卷积核去识别笔画中的横和竖、小的卷积核叠加来减少参数、采用GridSizeReduction来缩小图片、采用LabelSmoothing来降低模型过度自信,使得识别精准率真正达到99.95%以上。第三,适用范围广泛,训练集中加入了地质行业常用字符训练集,包括汉字、英文字母、数字和常用标点符号,每个字符平均300份样本,这些整理加工自存量的地质资料、地质报告、原始记录等和不同地质工作者的手写样本。克服了现有技术不能识别地质行业高频汉字的缺点,根据试验,能够识别个地质行业常用汉字共559个,英文字母、数字和标点符号共79个,确保了在地质领域内字符集的高覆盖率。附图说明图1为本专利技术的脱机手写、印刷汉字识别方法的流程图;图2为本专利技术的模型结构示意图;图3为本专利技术的误差效果示意图;图4为本专利技术的脱机手写、印刷汉字识别系统的结构示意图;图5为地质行业常用字符训练集示意图;图6为英文字母、数字和标点符号示意图;图7至图12为本专利技术的实施例示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。请参照图1,本专利技术的脱机手写、印刷汉字识别方法包括:制作训练集:载入训练集,载入模型进行训练,根据模型训练阶段训练出的权重,对训练集进行识别,找到训练集中的错误部分,并剔除,调整参数,得到最终训练集;识别脱机手写汉字:根据所述最终训练集,载入模型和参数,读取汉字图像进行二值化和灰度化处理,然后将二值化的图像和灰度化的图像像素取与,得到新的汉字图像。优选地,所述训练集包括:HCL2000、HWDB1.1、自行采集的138份印刷体合计738份,559个地质高频汉字,每个汉字平均100个样本。作为具体的实施例,分别来自300份/字的HCL2000、300份/字的HWDB1.1、自行采集的138份/字的印刷体,合计738份/字;其它字符包括地质行业常用汉字和字母、数字及一些常用符号,共计730个,每个字符300个样本。不同的训练样本加和使得模型的泛化能力增强,能识别更多书写风格的汉字。剔除了训练集中的错误,使得模型不被错误干扰。加入定制的高频字训练集确保了在地质领域内字符集的高覆盖率。优选地,训练集统一保存为n×64×64×1的图像数组和n×1的标签数组,其中n为汉本文档来自技高网
...
一种脱机手写、印刷汉字识别方法及系统

【技术保护点】
一种脱机手写、印刷汉字识别方法,其特征在于,包括:制作训练集:载入训练集,载入模型进行训练,根据模型训练阶段训练出的权重,对训练集进行识别,找到训练集中的错误部分,并剔除,调整参数,得到最终训练集;识别脱机手写汉字:根据所述最终训练集,载入模型和参数,读取汉字图像进行二值化和灰度化处理,然后将二值化的图像和灰度化的图像像素取与,得到新的汉字图像。

【技术特征摘要】
1.一种脱机手写、印刷汉字识别方法,其特征在于,包括:制作训练集:载入训练集,载入模型进行训练,根据模型训练阶段训练出的权重,对训练集进行识别,找到训练集中的错误部分,并剔除,调整参数,得到最终训练集;识别脱机手写汉字:根据所述最终训练集,载入模型和参数,读取汉字图像进行二值化和灰度化处理,然后将二值化的图像和灰度化的图像像素取与,得到新的汉字图像。2.如权利要求1所述的脱机手写、印刷汉字识别方法,其特征在于,所述训练集包括:HCL2000、HWDB1.1、自行采集的138份印刷体合计738份一级汉字,3755个汉字,559个地质高频汉字,英文字母、数字和标点符号171个,每个地质高频汉字和符号300个样本。3.如权利要求2所述的脱机手写、印刷汉字识别方法,其特征在于,所述进行二值化与灰度化处理的步骤还包括:先对要识别的彩色汉字图像的所有像素点[r,g,b]聚类,得到两个类别;再根据图像4个角的类别区分背景类别和汉字内容类别,因为4个角往往是背景;之后根据聚类结果将图像二值化,同时将原始图像灰度化,将r、g、b三个通道采用算法:r×0.299+g×0.587+b×0.114得到灰度值。4.如权利要求1所述的脱机手写、印刷汉字识别方法,其特征在于,还包括将所述新的汉字图像的宽和高之间较大的那个缩放到64,另一个等比例缩放,然后两边填充为背景的步骤。5.如权利要求4所述的脱机手写、印刷汉字识别方法,其特征在于,还包括:将汉字图像数组调整为神经网络的输入维数的步骤。6.如权利要求1至5中任一项所述的脱机手写、印刷汉字识别方法,其特征在于,所述模型采用神经卷积网络结构:共包含44个卷积层、10个池化层,9个融合层,9个批规范层,2个dropout层、1个全连接层、1个输入层和1个输出层,从一层引出多层并最终汇聚成一层的9个inception模块;网络走向为从上往下,每一层的输入为上一层的输出,初始输入层大小为64×64×1,输入的图像大小是64×64,图像为灰度图,只有1个通道;首先使用64个7×7的卷积核对输入图像做卷积;然后做大小为5×5,步幅为3的池化,此时输出数组大小为22×22×64;下面是9个inception单元,第一个inception单元先接一个批规范层,将上一层的结果批规范化,然后批规范层的输出作为输入,分别引出3个分支,第一个分支是32个1×1的卷积、第二个分支为48个1×1的卷积然后接96个3×3的卷积、最后一个分支是3×3的池化然后接16个1×1的卷积,最后将3个分支的输出用concatenate层组合得到的输出数组大小为22×22×(32+96+16)=22×22×144,每个inception单元都是将几个大小不同的卷积结果和一个池化组合,每种卷积之前先接一个1×1的卷积,有一个单独的1×1卷积,池化则是在后面接一...

【专利技术属性】
技术研发人员:赛琳伟魏东琦
申请(专利权)人:中国地质调查局西安地质调查中心赛琳伟
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1