【技术实现步骤摘要】
手写字模型训练方法、汉字识别方法、装置、设备及介质
本专利技术涉及手写字识别领域,尤其涉及一种手写字模型训练方法、汉字识别方法、装置、设备及介质。
技术介绍
传统汉字的识别方法大多会采用OCR(OpticalCharacterRecognition,光学字符识别)技术进行识别。由于汉字的类别繁多,比如“宋体、楷体、姚体和仿宋”,而且部分汉字的结构比较复杂,比如“魑、魅”,并且汉字中存在着较多的结构相似的字,比如“受和爱”,使得汉字识别准确性无法保证。对标准的、书写简单且规范的句子,采用OCR(光学字符识别)技术可以识别,但是对于手写的字组成的句子,由于每个人的书写习惯不相同且不是标准的横竖撇捺组成的汉字,采用OCR技术识别时,会存在识别不准确的情况,极大限制了识别系统的性能,造成识别的精确度不高,使得识别效果不理想。
技术实现思路
基于此,有必要针对上述技术问题,提供一种可以提高识别准确度的手写字模型训练方法、装置、设备及介质。一种手写字模型训练方法,包括:获取手写字训练样本,所述手写字训练样本包括手写字图像和与所述手写字图像关联的标签汉字;将所述手写字训练样本划分成训练集和测试集;将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;将所述测试集输入到所述手写字训练模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述手写字 ...
【技术保护点】
1.一种手写字模型训练方法,其特征在于,包括:获取手写字训练样本,所述手写字训练样本包括手写字图像和与所述手写字图像关联的标签汉字;将所述手写字训练样本划分成训练集和测试集;将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;将所述测试集输入到所述手写字训练模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述手写字训练模型为手写字识别模型。
【技术特征摘要】
1.一种手写字模型训练方法,其特征在于,包括:获取手写字训练样本,所述手写字训练样本包括手写字图像和与所述手写字图像关联的标签汉字;将所述手写字训练样本划分成训练集和测试集;将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取手写字训练模型;将所述测试集输入到所述手写字训练模型中,获取每一手写字图像对应的识别汉字,基于所述识别汉字和所述标签汉字获取识别准确率,若所述识别准确率大于预设准确率,则确定所述手写字训练模型为手写字识别模型。2.如权利要求1所述的手写字模型训练方法,其特征在于,所述卷积循环神经网络模型包括卷积神经网络模型及循环神经网络模型;所述将所述训练集输入到卷积循环神经网络模型中,获取卷积循环神经网络模型的前向输出,根据所述卷积循环神经网络模型的前向输出,采用基于批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置,获取手写字训练模型,包括:将所述训练集输入到卷积神经网络模型中,获取训练集中手写字图像对应的图像特征;将所述训练集中手写字图像对应的图像特征输入到循环神经网络模型中进行训练,获取所述循环神经网络模型的前向输出;根据所述循环神经网络模型的前向输出和所述标签汉字,构建损失函数,所述损失函数的具体表达式为:其中,N表示手写字训练样本中手写字图像的个数,Eloss(θ)表示N个手写字训练样本中所有手写字图像对应的总误差的平均值,M表示手写字训练样本中手写字图像携带的顺序标签的个数,表示第n个手写字训练样本中第m个顺序标签对应的手写字图像的前向输出,表示第n个手写字训练样本中第m个顺序标签对应的标签汉字,θ表示权值和偏置的集合;根据所述损失函数,采用基于批量梯度下降的反向传播算法更新调整所述循环神经网络模型和所述卷积神经网络模型中的权值和偏置,获取手写字训练模型。3.一种汉字识别方法,其特征在于,包括:获取原始图像,所述原始图像包括手写字和背景图像;对所述原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;采用垂直投影方法对所述目标图像进行单字体切割,获取单字体图像;将所述单字体图像输入到手写字识别模型中进行识别,获取所述单字体图像对应的识别结果,所述手写字识别模型是采用权利要求1或2所述手写字模型训练方法获取到的;基于所述识别结果查询语义库,获取所述单字体图像对应的目标汉字。4.如权利要求3所述的汉字识别方法,其特征在于,所述对所述原始图像进行预处理,获取有效图像,包括:对所述原始图像进行放大和灰度化处理,获取灰度图像;对所述灰度图像对应的像素矩阵进行极差标准化处理,获取有效图像,其中,所述极差标准化处理的公式为x是标准化前有效图像的像素,x'是标准化后有效图像的像素,Mmin是所述灰度图像对应的像素矩阵M中最小的像素,Mmax是所述灰度图像对应的像素矩阵M中最大的像素。5.如权利要求3所述的汉字识别方...
【专利技术属性】
技术研发人员:吴启,周罡,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。