The invention relates to an off-line handwritten Chinese character text recognition method without segmentation, including S1) pre-processing offline handwritten Chinese character text images; S2) constructing spatial transformation network model; S3) constructing depth convolution neural network model; S4) constructing cyclic neural network model by depth features extracted from depth convolution neural network model. S5) outputs the probability distribution of sequential feature labels through the classifier CTC; S6) obtains the final text recognition results by greedy search and dictionary rule search. By adopting a model combining spatial transformation network, depth convolution neural network and cyclic neural network, the invention can correct and recognize large offset text lines without segmentation, and improve the accuracy and robustness of complex text line recognition. Over-segmentation pretreatment can reduce the loss caused by over-segmentation method, optimize the whole model parameters and improve the accuracy of recognition.
【技术实现步骤摘要】
一种无切分的脱机手写汉字文本识别方法
本专利技术涉及一种文本识别
,尤其是一种无切分的脱机手写汉字文本识别方法。
技术介绍
脱机手写体文本识别是目前文字识别领域的难题之一,与联机手写识别相比,缺少必要的的字符位置和轨迹信息,其中,后者可以根据字符位置和书写经验来近似获得,因此,字符位置的判定对脱机手写体文本识别效率的影响甚大,由于手写体字符书写随意性导致相邻字符之间的位置关系复杂,造成脱机手写文本中的字符位置定位要比印刷体字符定位困难很多,尤其是行倾斜、不规则行片段以及粘连字符的文本中的字符位置判断。目前,针对手写文本行的识别问题,传统方法主要是基于字符切分和单字符识别的解决方案,字符切分可以将手写汉字文本行切分为基本手写字符序列,然后将切分后的单字符送入单字符的分类器,得到整行的识别结果,常用的切分技术有基于统计分方法、基于字型结构切分和基于识别的汉字统计切分方法等,其中,基于统计的切分方法是根据字符的总体统计分别特征,确定字符之间的界限,判别时,以字符的平均宽度做辅助判别,统计分布特征的代表性和稳定性对切分的正确性及收敛性起到很重要的作用,该方法实用于字符间距较宽,无粘连字符的切分,并且由于手写汉字的笔画之间较为分散或者字符之间有连笔的情况出现,容易造成过度切分或者错误切分,这使得手写汉字的识别难度更大;而且针对单字符的手写汉字识别,由于汉字类别较多以及手写汉字书写的多样性,单字符手写汉字识别的难度也很大。
技术实现思路
针对现有技术的不足,本专利技术提供一种无切分的脱机手写汉字文本识别方法。本专利技术的技术方案为:一种无切分的脱机手写汉字文本识别方 ...
【技术保护点】
1.一种无切分的脱机手写汉字文本识别方法,其特征在于,包括以下步骤:S1)、对脱机手写汉字文本图像进行预处理,预处理包括图像尺寸归一化处理、以及图像亮度值反转;S2)、构建空间变换网络模型,通过该空间变换网络模型校正文本图像的偏移,该空间变换网络模型由定位网络、采样栅格、采样器构成;S3)、构建深度卷积神经网络模型,通过该模型提取校正偏移文本图像的深度特征;S4)、通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型,通过该模型对深度序列特征建模;S5)、通过联结主义时间分类器CTC输出序列特征标签的概率分布,得到初步的识别结果;S6)、采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果。
【技术特征摘要】
1.一种无切分的脱机手写汉字文本识别方法,其特征在于,包括以下步骤:S1)、对脱机手写汉字文本图像进行预处理,预处理包括图像尺寸归一化处理、以及图像亮度值反转;S2)、构建空间变换网络模型,通过该空间变换网络模型校正文本图像的偏移,该空间变换网络模型由定位网络、采样栅格、采样器构成;S3)、构建深度卷积神经网络模型,通过该模型提取校正偏移文本图像的深度特征;S4)、通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型,通过该模型对深度序列特征建模;S5)、通过联结主义时间分类器CTC输出序列特征标签的概率分布,得到初步的识别结果;S6)、采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果。2.根据权利要求1所述的一种无切分的脱机手写汉字文本识别方法,其特征在于:所述的步骤S1)中,通过图像尺寸归一化处理将文本图像宽度处理为128,并通过图像亮度值反转将文本图像背景和汉字亮度进行反转,具体为:I(i,j)=255-X(i,j),其中,X(i,j)为文本图像第i行第j列像素位置对应的亮度值,I(i,j)为转后文本图像第i行第j列像素位置的亮度值。3.根据权利要求1所述的一种无切分的脱机手写汉字文本识别方法,其特征在于:步骤S2)中,具体包括以下步骤:S201)、将预处理后的文本图像输入定位网络中,计算得到仿射变换参数θ,即θ=floc(I),其中,floc(I)是一个2层的全连接网络,I为预处理后的文本行图像;S202)、通过仿射变换参数θ得到文本图像的坐标栅格坐标点的仿射变换如下:其中,是输入文本图像的采样点坐标,Aθ为仿射变换矩阵,为输出栅格的坐标,并且,和当仿射变换矩阵其中,s为缩放分量,tx,ty为输出栅格像素坐标的偏移量,该变换矩阵可以实现裁剪、缩放、平移、旋转和倾斜等变换操作,这些变换实现了空间的注意力机制,使得变换后的图像更关注主要内容信息;S203)、将文本图像的坐标栅格坐标与文本...
【专利技术属性】
技术研发人员:应自炉,陈鹏飞,朱健菲,陈俊娟,甘俊英,翟懿奎,
申请(专利权)人:五邑大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。