汉字模型训练方法、手写字识别方法、装置、设备及介质制造方法及图纸

技术编号:19635509 阅读:32 留言:0更新日期:2018-12-01 16:10
本发明专利技术公开了一种汉字模型训练方法、手写字识别方法、装置、设备及介质,该汉字模型训练方法,包括:获取字体图像训练样本,采用中文二级字库对字体图像训练样本进行标注,并按预设分配规则将字体图像训练样本分为训练集和测试集;将训练集输入到卷积循环神经网络模型中,采用基于小批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取初始手写字识别模型;将测试集输入到初始手写字识别模型中,获取每一手写字图像对应的识别汉字,基于识别汉字和标签汉字获取识别准确率,若识别准确率大于预设准确率,则确定初始手写字识别模型为目标手写字识别模型。该目标手写字识别模型可以较准确地识别手写字。

Chinese Character Model Training Method, Handwriting Recognition Method, Device, Equipment and Media

The invention discloses a Chinese character model training method, a handwriting recognition method, a device, a device and a medium. The Chinese character model training method includes acquiring training samples of font image, labeling training samples of font image with Chinese secondary font library, and dividing training samples of font image into training samples according to preset allocation rules. The training set and test set are input into the convolution cyclic neural network model, and the weights and biases of the convolution cyclic neural network model are updated by the back propagation algorithm based on small batch gradient descent to obtain the initial handwriting recognition model. The test set is input into the initial handwriting recognition model to obtain each one. The recognition accuracy of Chinese characters corresponding to handwritten images is obtained based on the recognition of Chinese characters and labeled Chinese characters. If the recognition accuracy is higher than the preset accuracy, the initial handwritten recognition model is determined as the target handwritten recognition model. The target handwriting recognition model can recognize handwriting more accurately.

【技术实现步骤摘要】
汉字模型训练方法、手写字识别方法、装置、设备及介质
本专利技术涉及手写字识别领域,尤其涉及一种汉字模型训练方法、手写字识别方法、装置、设备及介质。
技术介绍
传统汉字的识别方法大多会采用OCR(OpticalCharacterRecognition,光学字符识别)技术进行识别。由于汉字的类别繁多,比如“宋体、楷体、姚体和仿宋”,而且部分汉字的结构比较复杂,比如“魑、魅”,并且汉字中存在着较多的结构相似的字,比如“受和爱”,使得汉字识别准确性无法保证。对标准的、书写简单且规范的句子,采用OCR(光学字符识别)技术可以识别,但是对于手写的字组成的句子,由于每个人的书写习惯不相同且不是标准的横竖撇捺组成的汉字,采用OCR技术识别时,会存在识别不准确的情况,极大限制了识别系统的性能,造成识别的精确度不高,使得识别效果不理想。
技术实现思路
基于此,有必要针对上述技术问题,提供一种可以提高识别准确度的汉字模型训练方法、装置、设备及介质。一种汉字模型训练方法,包括:初始化卷积循环神经网络模型的权值和偏置;获取字体图像训练样本,采用中文二级字库对所述字体图像训练样本进行标注,并按预设分配规则将所述字体图像训练样本分为训练集和测试集;将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于小批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取初始手写字识别模型;将所述测试集输入到所述初始手写字识别模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述初始手写字识别模型为目标手写字识别模型。一种汉字模型训练装置,包括:模型初始化模块,用于初始化卷积循环神经网络模型的权值和偏置;训练样本处理模块,用于获取字体图像训练样本,采用中文二级字库对所述字体图像训练样本进行标注,并按预设分配规则将所述字体图像训练样本分为训练集和测试集;初始模型获取模块,用于将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于小批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取初始手写字识别模型;目标模型获取模块,用于将所述测试集输入到所述初始手写字识别模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述初始手写字识别模型为目标手写字识别模型。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述汉字模型训练方法的步骤。一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述汉字模型训练方法的步骤。基于此,有必要针对上述技术问题,提供一种识别准确度较高的手写字识别方法、装置、设备及介质。一种手写字识别方法,包括:获取原始图像,所述原始图像包括手写字和背景图像;对所述原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;采用垂直投影方法对所述目标图像进行单字体切割,获取单手写字图像;将所述单手写字图像输入到目标手写字识别模型中进行识别,获取所述单手写字图像对应的识别结果,所述目标手写字识别模型是采用上述汉字模型训练方法获取到的;基于所述识别结果查询语义库,获取所述单手写字图像对应的目标汉字。一种手写字识别装置,包括:原始图像获取模块,用于获取原始图像,所述原始图像包括手写字和背景图像;有效图像获取模块,用于对所述原始图像进行预处理,获取有效图像;目标图像获取模块,用于采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;单手写字图像获取模块,用于采用垂直投影方法对所述目标图像进行单字体切割,获取单手写字图像;识别结果获取模块,用于将所述单手写字图像输入到目标手写字识别模型中进行识别,获取所述单手写字图像对应的识别结果,所述目标手写字识别模型是采用上述汉字模型训练方法获取到的;目标汉字确认模块,用于基于所述识别结果查询语义库,获取所述单手写字图像对应的目标汉字。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述手写字识别方法的步骤。一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述手写字识别方法的步骤。上述汉字模型训练方法、装置、设备及介质,首先对卷积循环神经网络模型进行初始化设置,然后对字体图像训练样本进行分割,获取训练集和测试集不同的字体图像训练样本,使用训练集对卷积循环神经网络模型进行训练,并采用基于小批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置,获取初始手写字识别模型,使得初始手写字识别模型在使用一部分字体图像训练样本进行训练的情况下,保证模型训练的准确性和速度。最后将测试集输入到初始手写字识别模型中进行测试,若初始手写字识别模型对字体图像训练样本的识别准确率大于预设准确率,则表示初始手写字识别模型对字体图像训练样本的识别准确率达到了要求,将该初始手写字识别模型确定为用于识别手写字图像的目标手写字识别模型,以使获得的目标手写字识别模型对手写字进行识别,具有较高的识别准确性。上述手写字识别方法、装置、设备及介质,通过对原始图像进行放大和灰度化处理,获取灰度图像,然后对灰度图像进行价差标准化处理,获取有效图像。方便后续步骤采用高斯核密度估计算法对有效图像进行分层、二值化、腐蚀和叠加处理,去除背景图像,保留只含有手写字的目标图像。采用垂直投影方法对目标图像进行单字体切割,获取单手写字图像,将获取的单手写字图像输入到目标手写字识别模型中识别,基于单手写字图像对应的识别概率值,获取识别结果。基于识别结果查询语义库,根据语义库中存储的中文句子获取单手写字图像对应的目标汉字,通过目标手写字识别模型和语义库的判断筛选可以提高手写字识别的精准度。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中汉字模型训练方法的一应用场景图;图2是本专利技术一实施例中汉字模型训练方法的一流程图;图3是图2中步骤S30的一具体流程图;图4是本专利技术一实施例中汉字模型训练装置的一示意图;图5是本专利技术一实施例中手写字识别方法的一流程图;图6是图5中步骤S52的一具体流程图;图7是图5中步骤S53的一具体流程图;图8是图7中步骤S534的一具体流程图;图9是本专利技术一实施例中手写字识别装置的一示意图;图10是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本文档来自技高网...

【技术保护点】
1.一种汉字模型训练方法,其特征在于,包括:初始化卷积循环神经网络模型的权值和偏置;获取字体图像训练样本,采用中文二级字库对所述字体图像训练样本进行标注,并按预设分配规则将所述字体图像训练样本分为训练集和测试集;将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于小批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取初始手写字识别模型;将所述测试集输入到所述初始手写字识别模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述初始手写字识别模型为目标手写字识别模型。

【技术特征摘要】
1.一种汉字模型训练方法,其特征在于,包括:初始化卷积循环神经网络模型的权值和偏置;获取字体图像训练样本,采用中文二级字库对所述字体图像训练样本进行标注,并按预设分配规则将所述字体图像训练样本分为训练集和测试集;将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于小批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取初始手写字识别模型;将所述测试集输入到所述初始手写字识别模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述初始手写字识别模型为目标手写字识别模型。2.如权利要求1所述的汉字模型训练方法,其特征在于,所述卷积循环神经网络模型包括卷积神经网络模型及循环神经网络模型;所述将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型前向输出,采用基于小批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取初始手写字识别模型,包括:将所述训练集输入到卷积神经网络模型中,获取训练集中手写字图像对应的手写字图像特征;将所述训练集中手写字图像对应的手写字图像特征输入到循环神经网络模型中进行训练,获取所述循环神经网络模型的前向输出;根据所述循环神经网络模型的前向输出和所述标签汉字,构建损失函数,所述损失函数的具体表达式为:其中,N表示字体图像训练样本中手写字图像的个数,Eloss(θ)表示n个字体图像训练样本中手写字图像对应的总误差的平均值,1≤n≤N,M表示手写字训练样本中手写字图像携带的顺序标签的个数,表示第n个字体图像训练样本中第m个顺序标签对应的手写字图像的前向输出,表示第n个字体图像训练样本中第m个顺序标签对应的标签汉字,θ表示权值和偏置的集合;根据所述损失函数,采用基于小批量梯度下降的反向传播算法更新调整所述循环神经网络模型和所述卷积神经网络模型中的权值和偏置,获取初始手写字识别模型。3.一种手写字识别方法,其特征在于,包括:获取原始图像,所述原始图像包括手写字和背景图像;对所述原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;采用垂直投影方法对所述目标图像进行单字体切割,获取单手写字图像;将所述单手写字图像输入到目标手写字识别模型中进行识别,获取所述单手写字图像对应的识别结果,所述目标手写字识别模型是采用权利要求1或2所述汉字模型训练方法获取到的;基于所述识别结果查询语义库,获取所述单手写字图像对应的目标汉字。4.如权利要求3所述的手写字识别方法,其特征在于,所述对所述原始图像进行预处理,获取有效图像,包括:对所述原始图像进行放大和灰度化处理,获取灰度图像;对所述灰度图像对应的像素矩阵进行极差标准化处理,获取有效图像,其中,所述极差标准化处理的公式为x是标准化前有效图像的像素,x'是标准化后有效图像的像素,Mmin是所述灰度图像对应的像素矩阵M中最小的像素,Mmax是所述灰度图像对应的像素矩阵M中最大的像素。5.如权利要求3所述的手写字识别方法,其特...

【专利技术属性】
技术研发人员:吴启周罡
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1