汉字模型训练方法、手写字识别方法、装置、设备及介质制造方法及图纸

技术编号：19635509 阅读：32 留言：0更新日期：2018-12-01 16:10

本发明专利技术公开了一种汉字模型训练方法、手写字识别方法、装置、设备及介质，该汉字模型训练方法，包括：获取字体图像训练样本，采用中文二级字库对字体图像训练样本进行标注，并按预设分配规则将字体图像训练样本分为训练集和测试集；将训练集输入到卷积循环神经网络模型中，采用基于小批量梯度下降的反向传播算法更新卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型；将测试集输入到初始手写字识别模型中，获取每一手写字图像对应的识别汉字，基于识别汉字和标签汉字获取识别准确率，若识别准确率大于预设准确率，则确定初始手写字识别模型为目标手写字识别模型。该目标手写字识别模型可以较准确地识别手写字。

Chinese Character Model Training Method, Handwriting Recognition Method, Device, Equipment and Media

The invention discloses a Chinese character model training method, a handwriting recognition method, a device, a device and a medium. The Chinese character model training method includes acquiring training samples of font image, labeling training samples of font image with Chinese secondary font library, and dividing training samples of font image into training samples according to preset allocation rules. The training set and test set are input into the convolution cyclic neural network model, and the weights and biases of the convolution cyclic neural network model are updated by the back propagation algorithm based on small batch gradient descent to obtain the initial handwriting recognition model. The test set is input into the initial handwriting recognition model to obtain each one. The recognition accuracy of Chinese characters corresponding to handwritten images is obtained based on the recognition of Chinese characters and labeled Chinese characters. If the recognition accuracy is higher than the preset accuracy, the initial handwritten recognition model is determined as the target handwritten recognition model. The target handwriting recognition model can recognize handwriting more accurately.

全部详细技术资料下载

【技术实现步骤摘要】
汉字模型训练方法、手写字识别方法、装置、设备及介质
本专利技术涉及手写字识别领域，尤其涉及一种汉字模型训练方法、手写字识别方法、装置、设备及介质。
技术介绍
传统汉字的识别方法大多会采用OCR(OpticalCharacterRecognition，光学字符识别)技术进行识别。由于汉字的类别繁多，比如“宋体、楷体、姚体和仿宋”，而且部分汉字的结构比较复杂，比如“魑、魅”，并且汉字中存在着较多的结构相似的字，比如“受和爱”，使得汉字识别准确性无法保证。对标准的、书写简单且规范的句子，采用OCR(光学字符识别)技术可以识别，但是对于手写的字组成的句子，由于每个人的书写习惯不相同且不是标准的横竖撇捺组成的汉字，采用OCR技术识别时，会存在识别不准确的情况，极大限制了识别系统的性能，造成识别的精确度不高，使得识别效果不理想。
技术实现思路
基于此，有必要针对上述技术问题，提供一种可以提高识别准确度的汉字模型训练方法、装置、设备及介质。一种汉字模型训练方法，包括：初始化卷积循环神经网络模型的权值和偏置；获取字体图像训练样本，采用中文二级字库对所述字体图像训练样本进行标注，并按预设分配规则将所述字体图像训练样本分为训练集和测试集；将所述训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出，根据所述卷积循环神经网络模型的前向输出，采用基于小批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型；将所述测试集输入到所述初始手写字识别模型中，获取每一手写字图像对应的识别汉字，基于所述识别汉字和所述标签汉字获取识别准确率，若...

【技术保护点】
1.一种汉字模型训练方法，其特征在于，包括：初始化卷积循环神经网络模型的权值和偏置；获取字体图像训练样本，采用中文二级字库对所述字体图像训练样本进行标注，并按预设分配规则将所述字体图像训练样本分为训练集和测试集；将所述训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出，根据所述卷积循环神经网络模型的前向输出，采用基于小批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型；将所述测试集输入到所述初始手写字识别模型中，获取每一手写字图像对应的识别汉字，基于所述识别汉字和所述标签汉字获取识别准确率，若所述识别准确率大于预设准确率，则确定所述初始手写字识别模型为目标手写字识别模型。

【技术特征摘要】
1.一种汉字模型训练方法，其特征在于，包括：初始化卷积循环神经网络模型的权值和偏置；获取字体图像训练样本，采用中文二级字库对所述字体图像训练样本进行标注，并按预设分配规则将所述字体图像训练样本分为训练集和测试集；将所述训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出，根据所述卷积循环神经网络模型的前向输出，采用基于小批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型；将所述测试集输入到所述初始手写字识别模型中，获取每一手写字图像对应的识别汉字，基于所述识别汉字和所述标签汉字获取识别准确率，若所述识别准确率大于预设准确率，则确定所述初始手写字识别模型为目标手写字识别模型。2.如权利要求1所述的汉字模型训练方法，其特征在于，所述卷积循环神经网络模型包括卷积神经网络模型及循环神经网络模型；所述将所述训练集输入到卷积循环神经网络模型中，获取卷积循环神经网络模型的前向输出，根据所述卷积循环神经网络模型前向输出，采用基于小批量梯度下降的反向传播算法更新所述卷积循环神经网络模型中的权值和偏置，获取初始手写字识别模型，包括：将所述训练集输入到卷积神经网络模型中，获取训练集中手写字图像对应的手写字图像特征；将所述训练集中手写字图像对应的手写字图像特征输入到循环神经网络模型中进行训练，获取所述循环神经网络模型的前向输出；根据所述循环神经网络模型的前向输出和所述标签汉字，构建损失函数，所述损失函数的具体表达式为：其中，N表示字体图像训练样本中手写字图像的个数，Eloss(θ)表示n个字体图像训练样本中手写字图像对应的总误差的平均值,1≤n≤N，M表示手写字训练样本中手写字图像携带的顺序标签的个数，表示第n个字体图像训练样本中第m个顺序标签对应的手写字图像的前向输出，表示第n个字体图像训练样本中第m个顺序标签对应的标签汉字，θ表示权值和偏置的集合；根据所述损失函数，采用基于小批量梯度下降的反向传播算法更新调整所述循环神经网络模型和所述卷积神经网络模型中的权值和偏置，获取初始手写字识别模型。3.一种手写字识别方法，其特征在于，包括：获取原始图像，所述原始图像包括手写字和背景图像；对所述原始图像进行预处理，获取有效图像；采用核密度估计算法和腐蚀方法对所述有效图像进行处理，去除背景图像，获取包括所述手写字的目标图像；采用垂直投影方法对所述目标图像进行单字体切割，获取单手写字图像；将所述单手写字图像输入到目标手写字识别模型中进行识别，获取所述单手写字图像对应的识别结果，所述目标手写字识别模型是采用权利要求1或2所述汉字模型训练方法获取到的；基于所述识别结果查询语义库，获取所述单手写字图像对应的目标汉字。4.如权利要求3所述的手写字识别方法，其特征在于，所述对所述原始图像进行预处理，获取有效图像，包括：对所述原始图像进行放大和灰度化处理，获取灰度图像；对所述灰度图像对应的像素矩阵进行极差标准化处理，获取有效图像，其中，所述极差标准化处理的公式为x是标准化前有效图像的像素，x'是标准化后有效图像的像素，Mmin是所述灰度图像对应的像素矩阵M中最小的像素，Mmax是所述灰度图像对应的像素矩阵M中最大的像素。5.如权利要求3所述的手写字识别方法，其特...

【专利技术属性】
技术研发人员：吴启，周罡，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人