文字识别模型的训练方法及装置制造方法及图纸

技术编号:31982620 阅读:23 留言:0更新日期:2022-01-20 01:56
本申请提供文字识别模型的训练方法及装置,其中所述文字识别模型的训练方法包括:获取样本数据,并确定所述样本数据中的形近字;在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。足训练停止条件的目标文字识别模型。足训练停止条件的目标文字识别模型。

【技术实现步骤摘要】
文字识别模型的训练方法及装置


[0001]本申请涉及机器学习
,特别涉及文字识别模型的训练方法及装置。

技术介绍

[0002]随着互联网技术的发展,文字识别技术在越来越多的场景中得以应用,通过文字识别技术不仅可以减少人工识别成本,还能够提高识别效率,因此文字识别技术的识别精准度是衡量识别效果好坏的重要因素。而目前的OCR识别技术,大多使用检测和识别两个阶段组成的方式进行识别任务的处理。其中文字识别阶段大多使用CRNN+LSTM+CTC的模型结构,其中CRNN是用于从包含待识别文字的图像中进行特征提取,LSTM是用于对特征解码得到文本输出,CTC作为损失函数可以对齐OCR的识别结果,从而保证对图像中的文字进行识别。然而,由于不同语种的文字中可能包含大量的形近字,如汉语、韩语等,很大程度会提高文字识别难度,尤其是在一些证件识别、签名识别场景中,如果将文字识别错误,会严重影响业务正常进行,因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种文字识别模型的训练方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文字识别模型的训练装置,一种文字识别方法,一种文字识别装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种文字识别模型的训练方法,包括:
[0005]获取样本数据,并确定所述样本数据中的形近字;
[0006]在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;
[0007]基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;
[0008]通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
[0009]可选地,所述确定所述样本数据中的形近字,包括:
[0010]提取所述样本数据中包含的文本信息,并对所述文本信息进行预处理获得多个字单元;
[0011]将各个字单元分别与所述预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字。
[0012]可选地,所述将各个字单元分别与预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字,包括:
[0013]获取各个字单元分别对应的字符特征;
[0014]基于所述字符特征查询所述预设的字典,根据查询结果确定在所述预设的字典中存在字单元集合的目标字符特征;
[0015]将所述目标字符特征对应的字单元作为所述形近字。
[0016]可选地,所述在预设的字典中提取所述形近字对应的替换形近字,包括:
[0017]在所述预设的字典中确定所述形近字对应的字单元集合;
[0018]将所述字单元集合中包含的各个字单元作为所述替换形近字。
[0019]可选地,所述基于所述替换形近字对所述样本数据进行更新,获得负样本数据,包括:
[0020]提取所述样本数据中包含的文本信息,并确定所述形近字在所述文本信息中的替换位置;
[0021]基于所述替换形近字对位于所述替换位置的所述形近字进行替换,根据替换结果获得目标文本信息;
[0022]基于所述目标文本信息生成所述负样本数据。
[0023]可选地,所述预设的字典通过如下方式创建:
[0024]获取初始形近字,并提取所述初始形近字对应的形近字特征;
[0025]基于所述形近字特征对所述初始形近字进行聚类处理,根据聚类处理结果获得至少一个字单元集合;
[0026]基于所述至少一个字单元集合创建所述预设的字典。
[0027]可选地,所述基于所述负样本数据和所述样本数据对初始文字识别模型进行训练,包括:
[0028]基于所述样本数据和所述负样本数据构建样本特征;
[0029]将所述样本特征输入至所述初始文字识别模型,通过所述初始文字识别模型中的卷积模块确定所述样本特征对应的卷积特征;
[0030]将所述卷积特征输入至所述初始文字识别模型中的解码模块进行处理,获得解码特征;
[0031]将所述解码特征输入至所述初始文字识别模型中的输出模块进行处理,获得所述初始文字识别模型输出的文字识别结果。
[0032]可选地,所述通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型,包括:
[0033]基于所述第一损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第一损失值,以及
[0034]基于所述第二损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第二损失值;
[0035]根据所述第一损失值和所述第二损失值对所述初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
[0036]根据本申请实施例的第二方面,提供了一种文字识别模型的训练装置,包括:
[0037]获取样本模块,被配置为获取样本数据,并确定所述样本数据中的形近字;
[0038]更新样本模块,被配置为在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;
[0039]训练模型模块,被配置为基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;
[0040]优化模型模块,被配置为通过预设的第一损失函数和第二损失函数对训练后的初
始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
[0041]根据本申请实施例的第三方面,提供了一种文字识别方法,包括:
[0042]获取文字图片;
[0043]对所述文字图片进行标准化处理,获得所述文字图片对应的图片特征;
[0044]将所述图片特征输入至如上方法所述的目标文字识别模型进行处理,获得所述文字图片中的目标文字。
[0045]根据本申请实施例的第四方面,提供了一种文字识别装置,包括:
[0046]获取图片模块,被配置为获取文字图片;
[0047]处理图片模块,被配置为对所述文字图片进行标准化处理,获得所述文字图片对应的图片特征;
[0048]模型处理模块,被配置为将所述图片特征输入至如上方法所述的目标文字识别模型进行处理,获得所述文字图片中的目标文字。
[0049]根据本申请实施例的第五方面,提供了一种计算设备,包括:
[0050]存储器和处理器;
[0051]所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文字识别模型的训练方法或所述文字识别方法的步骤。
[0052]根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文字识别模型的训练方法或所述文字识别方法的步骤。
[0053本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文字识别模型的训练方法,其特征在于,包括:获取样本数据,并确定所述样本数据中的形近字;在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。2.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述确定所述样本数据中的形近字,包括:提取所述样本数据中包含的文本信息,并对所述文本信息进行预处理获得多个字单元;将各个字单元分别与所述预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字。3.根据权利要求2所述的文字识别模型的训练方法,其特征在于,所述将各个字单元分别与预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字,包括:获取各个字单元分别对应的字符特征;基于所述字符特征查询所述预设的字典,根据查询结果确定在所述预设的字典中存在字单元集合的目标字符特征;将所述目标字符特征对应的字单元作为所述形近字。4.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述在预设的字典中提取所述形近字对应的替换形近字,包括:在所述预设的字典中确定所述形近字对应的字单元集合;将所述字单元集合中包含的各个字单元作为所述替换形近字。5.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述基于所述替换形近字对所述样本数据进行更新,获得负样本数据,包括:提取所述样本数据中包含的文本信息,并确定所述形近字在所述文本信息中的替换位置;基于所述替换形近字对位于所述替换位置的所述形近字进行替换,根据替换结果获得目标文本信息;基于所述目标文本信息生成所述负样本数据。6.根据权利要求1至5任意一项所述的文字识别模型的训练方法,其特征在于,所述预设的字典通过如下方式创建:获取初始形近字,并提取所述初始形近字对应的形近字特征;基于所述形近字特征对所述初始形近字进行聚类处理,根据聚类处理结果获得至少一个字单元集合;基于所述至少一个字单元集合创建所述预设的字典。7.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述基于所述负样本数据和所述样本数据对初始文字识别模型进行训练,包括:基于所述样本数据和所述负样本数据构建样本特征;
将所述样本特征输入至所述初始文字识别模型...

【专利技术属性】
技术研发人员:宋振旗李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1