当前位置: 首页 > 专利查询>五邑大学专利>正文

一种无切分的脱机手写汉字文本识别方法技术

技术编号:18895379 阅读:23 留言:0更新日期:2018-09-08 11:22
本发明专利技术涉及一种无切分的脱机手写汉字文本识别方法,包括S1)对脱机手写汉字文本图像进行预处理;S2)构建空间变换网络模型;S3)构建深度卷积神经网络模型;S4)通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型;S5)通过分类器CTC输出序列征标签的概率分布;S6)采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果。本发明专利技术通过采用空间变换网络、深度卷积神经网络和循环神经网络相结合的模型,能够针对偏移较大文本行进行校正处理和无切分的识别,提高复杂文本行识别的准确性和鲁棒性;整个模型框架基于迭代算法求解,不需要复杂的过切分预处理,能够较好地减少过切分方法带来的损失,以及能够联合地优化整个模型参数,提高识别的准确率。

An off-line handwritten Chinese character text recognition method without segmentation

The invention relates to an off-line handwritten Chinese character text recognition method without segmentation, including S1) pre-processing offline handwritten Chinese character text images; S2) constructing spatial transformation network model; S3) constructing depth convolution neural network model; S4) constructing cyclic neural network model by depth features extracted from depth convolution neural network model. S5) outputs the probability distribution of sequential feature labels through the classifier CTC; S6) obtains the final text recognition results by greedy search and dictionary rule search. By adopting a model combining spatial transformation network, depth convolution neural network and cyclic neural network, the invention can correct and recognize large offset text lines without segmentation, and improve the accuracy and robustness of complex text line recognition. Over-segmentation pretreatment can reduce the loss caused by over-segmentation method, optimize the whole model parameters and improve the accuracy of recognition.

【技术实现步骤摘要】
一种无切分的脱机手写汉字文本识别方法
本专利技术涉及一种文本识别
,尤其是一种无切分的脱机手写汉字文本识别方法。
技术介绍
脱机手写体文本识别是目前文字识别领域的难题之一,与联机手写识别相比,缺少必要的的字符位置和轨迹信息,其中,后者可以根据字符位置和书写经验来近似获得,因此,字符位置的判定对脱机手写体文本识别效率的影响甚大,由于手写体字符书写随意性导致相邻字符之间的位置关系复杂,造成脱机手写文本中的字符位置定位要比印刷体字符定位困难很多,尤其是行倾斜、不规则行片段以及粘连字符的文本中的字符位置判断。目前,针对手写文本行的识别问题,传统方法主要是基于字符切分和单字符识别的解决方案,字符切分可以将手写汉字文本行切分为基本手写字符序列,然后将切分后的单字符送入单字符的分类器,得到整行的识别结果,常用的切分技术有基于统计分方法、基于字型结构切分和基于识别的汉字统计切分方法等,其中,基于统计的切分方法是根据字符的总体统计分别特征,确定字符之间的界限,判别时,以字符的平均宽度做辅助判别,统计分布特征的代表性和稳定性对切分的正确性及收敛性起到很重要的作用,该方法实用于字符间距较宽,无粘连字符的切分,并且由于手写汉字的笔画之间较为分散或者字符之间有连笔的情况出现,容易造成过度切分或者错误切分,这使得手写汉字的识别难度更大;而且针对单字符的手写汉字识别,由于汉字类别较多以及手写汉字书写的多样性,单字符手写汉字识别的难度也很大。
技术实现思路
针对现有技术的不足,本专利技术提供一种无切分的脱机手写汉字文本识别方法。本专利技术的技术方案为:一种无切分的脱机手写汉字文本识别方法,包括以下步骤:S1)、对脱机手写汉字文本图像进行预处理,预处理包括图像尺寸归一化处理、以及图像亮度值反转;S2)、构建空间变换网络模型,通过该空间变换网络模型校正文本图像的偏移,该空间变换网络模型由定位网络、采样栅格、采样器构成;S3)、构建深度卷积神经网络模型,通过该模型提取校正偏移文本图像的深度特征;S4)、通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型,通过该模型对深度序列特征建模;S5)、通过联结主义时间分类器CTC输出序列特征标签的概率分布,得到初步的识别结果;S6)、采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果。进一步的,所述的步骤S1)中,通过图像尺寸归一化处理将文本图像宽度处理为128,并通过图像亮度值反转将文本图像背景和汉字亮度进行反转,具体为:I(i,j)=255-X(i,j),其中,X(i,j)为文本图像第i行第j列像素位置对应的亮度值,I(i,j)为转后文本图像第i行第j列像素位置的亮度值。进一步的,上述技术方案中,步骤S2)中,具体包括以下步骤:S201)、将预处理后的文本图像输入定位网络中,计算得到仿射变换参数θ,即θ=floc(I),其中,floc(I)是一个2层的全连接网络,I为预处理后的文本行图像;S202)、通过仿射变换参数θ得到文本图像的坐标栅格坐标点的仿射变换如下:其中,是输入文本图像的采样点坐标,Aθ为仿射变换矩阵,为输出栅格的坐标,并且,和当仿射变换矩阵其中,s为缩放分量,tx,ty为输出栅格像素坐标的偏移量,该变换矩阵可以实现裁剪、缩放、平移、旋转和倾斜等变换操作,这些变换实现了空间的注意力机制,使得变换后的图像更关注主要内容信息;S203)、将文本图像的坐标栅格坐标与文本图像Y输入到采样器,得到校正偏移的文本图像V,即V=fsam(I,Tθ(G)),其中,fsam为采样器函数。进一步的,上述技术方案中,步骤S3)中,构建的深度卷积神经网络模型为一个18层的残差深度卷积神经网络,残差网络的学习表达式为:F(x)=H(x)-x,其中,F(x)为残差映射,H(x)为原始映射,从而根据残差网络结构y=F(x,{Wi})+x,提取图像特征y,其中,Wi为权值参数,x为输入。进一步的,上述技术方案中,步骤S4)中,所述的循环神经网络模型为2层双向的GRU(GateRecurrentUnit)网络。进一步的,上述技术方案中,步骤S5)中,分类器CTC的映射关系为:通过CTC层输出每一帧序列特征数据的识别概率分布,其中,p(k|y)为序列特征k在序列特征y下的条件概率,p(l|y)为序列特征l在序列特征y下的条件概率,β(k)=l为序列k到序列y的映射,y=y1,...,yT为输入的特征序列,每一个L′是包含所有识别的字符集和一个空白符号,CTC在输出序列时,移除重复项以及空白项。进一步的,上述技术方案中,步骤S6)中,通过在最大概率附近的几组数据中搜索最大概率路径l*=argmaxl∈DP(l|y)确定真实序列,其中,D是一个对应的字典;由于可以在最大概率路径附近搜索最佳输出序列,将搜索路径限制在一个范围Nδ(l′)内,其中,δ表示最大的搜索距离,l′是无字典规则的序列,在最大概率路径附近搜索的路径可以表示为从而得到最终的识别结果。进一步的,所述的18层的残差深度卷积神经网络模型由1个卷积层、16个残差单元和1个全局平均池化层构成。本专利技术的有益效果为:通过采用空间变换网络、深度卷积神经网络和循环神经网络相结合的模型,能够针对偏移较大文本行进行校正处理和无切分的识别,提高复杂文本行识别的准确性和鲁棒性;整个模型框架基于迭代算法求解,不需要复杂的过切分预处理,能够较好地减少过切分方法带来的损失,以及能够联合地优化整个模型参数,提高识别的准确率。附图说明图1为本专利技术的流程示意图;图2为本专利技术空间变换网络模型的流程图;图3为本专利技术残差网络的结构图,其中a为通道相加的残差单元结构图,b为通道串接的残差单元;图4为本专利技术18层残差网络的结构图;图5为本专利技术双向GRU循环神经网络的结构图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明:如图1所示,一种无切分的脱机手写汉字文本识别方法,包括以下步骤:S1)、对脱机手写汉字文本图像进行预处理,预处理包括图像尺寸归一化处理、以及图像亮度值反转,通过图像尺寸归一化处理将文本图像宽度处理为128,由于所采集的脱机手写汉字文本图像的背景颜色是白色,亮度值为255,为了减少计算量,通过图像亮度值反转将文本图像背景和汉字亮度进行反转,具体为:I(i,j)=255-X(i,j),其中,X(i,j)为文本图像第i行第j列像素位置对应的亮度值,I(i,j)为转后文本图像第i行第j列像素位置的亮度值,反转后的文本图像中更多的亮度值为0,图像矩阵更加稀疏,进而减少了计算量;S2)、构建空间变换网络模型,通过该空间变换网络模型校正文本图像的偏移,该空间变换网络模型由定位网络、采样栅格、采样器构成,如图2所示,其中,定位网络用于求解仿射变换的参数θ,具体包括以下步骤:S201)、将预处理后的文本图像输入定位网络中,计算得到仿射变换参数θ,即θ=floc(I),其中,floc(I)是一个2层的全连接网络,I为预处理后的文本行图像;S202)、通过仿射变换参数θ得到文本图像的坐标栅格坐标点的仿射变换如下:其中,是输入文本图像的采样点坐标,Aθ为仿射变换矩阵,为输出栅格的坐标,并且,和当仿射变换矩阵其中,s为缩放分量,tx,ty为输出栅格像素坐标的偏移量,该变换矩阵可以实现裁剪本文档来自技高网...

【技术保护点】
1.一种无切分的脱机手写汉字文本识别方法,其特征在于,包括以下步骤:S1)、对脱机手写汉字文本图像进行预处理,预处理包括图像尺寸归一化处理、以及图像亮度值反转;S2)、构建空间变换网络模型,通过该空间变换网络模型校正文本图像的偏移,该空间变换网络模型由定位网络、采样栅格、采样器构成;S3)、构建深度卷积神经网络模型,通过该模型提取校正偏移文本图像的深度特征;S4)、通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型,通过该模型对深度序列特征建模;S5)、通过联结主义时间分类器CTC输出序列特征标签的概率分布,得到初步的识别结果;S6)、采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果。

【技术特征摘要】
1.一种无切分的脱机手写汉字文本识别方法,其特征在于,包括以下步骤:S1)、对脱机手写汉字文本图像进行预处理,预处理包括图像尺寸归一化处理、以及图像亮度值反转;S2)、构建空间变换网络模型,通过该空间变换网络模型校正文本图像的偏移,该空间变换网络模型由定位网络、采样栅格、采样器构成;S3)、构建深度卷积神经网络模型,通过该模型提取校正偏移文本图像的深度特征;S4)、通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型,通过该模型对深度序列特征建模;S5)、通过联结主义时间分类器CTC输出序列特征标签的概率分布,得到初步的识别结果;S6)、采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果。2.根据权利要求1所述的一种无切分的脱机手写汉字文本识别方法,其特征在于:所述的步骤S1)中,通过图像尺寸归一化处理将文本图像宽度处理为128,并通过图像亮度值反转将文本图像背景和汉字亮度进行反转,具体为:I(i,j)=255-X(i,j),其中,X(i,j)为文本图像第i行第j列像素位置对应的亮度值,I(i,j)为转后文本图像第i行第j列像素位置的亮度值。3.根据权利要求1所述的一种无切分的脱机手写汉字文本识别方法,其特征在于:步骤S2)中,具体包括以下步骤:S201)、将预处理后的文本图像输入定位网络中,计算得到仿射变换参数θ,即θ=floc(I),其中,floc(I)是一个2层的全连接网络,I为预处理后的文本行图像;S202)、通过仿射变换参数θ得到文本图像的坐标栅格坐标点的仿射变换如下:其中,是输入文本图像的采样点坐标,Aθ为仿射变换矩阵,为输出栅格的坐标,并且,和当仿射变换矩阵其中,s为缩放分量,tx,ty为输出栅格像素坐标的偏移量,该变换矩阵可以实现裁剪、缩放、平移、旋转和倾斜等变换操作,这些变换实现了空间的注意力机制,使得变换后的图像更关注主要内容信息;S203)、将文本图像的坐标栅格坐标与文本...

【专利技术属性】
技术研发人员:应自炉陈鹏飞朱健菲陈俊娟甘俊英翟懿奎
申请(专利权)人:五邑大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1