文本检错模型训练方法、文本检错方法及装置制造方法及图纸

技术编号:34275605 阅读:59 留言:0更新日期:2022-07-24 17:04
本申请提供文本检错模型训练方法、文本检错方法及装置,其中所述文本检错模型训练方法包括:获取测试集,其中,测试集包括多个无标签的测试文本,将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型,通过根据各测试文本以及各测试文本对应的错误标签,生成目标样本集,扩充了初始文本检错模型的训练数据,提高了训练得到的文本检错模型的准确性,进一步提高了基于文本检错模型进行文本检错的准确性。错模型进行文本检错的准确性。错模型进行文本检错的准确性。

Text error detection model training method, text error detection method and device

【技术实现步骤摘要】
文本检错模型训练方法、文本检错方法及装置


[0001]本申请涉及计算机
,特别涉及一种文本检错模型训练方法。本申请同时涉及一种文本检错模型训练装置,一种文本检错方法,一种文本检错装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,日常办公中对文本检错越来越多地依赖于互联网进行,文本检错是对文本进行智能检测,从而获得该文本中的错误数据,可以有效提高办公效率。
[0003]当前,通常采用基于规则匹配的方法进行文本检错:人工预先搜集大量的错字、正确字构建规则库,将待处理文本与预先构建的规则库进行匹配,获得待处理文本中的错字。然而,上述基于规则匹配的方法中,需要人工设置大量规则,人工势必会引入不确定因素,导致文本检错的准确性较差。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种文本检错模型训练方法及一种文本检错方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本检错模型训练装置,一种文本检错装置、一种计算设备,以及一种计算机可读存储介质。
[0005]根据本申请实施例的第一方面,提供了一种文本检错模型训练方法,包括:
[0006]获取测试集,其中,测试集包括多个无标签的测试文本;
[0007]将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签;
[0008]根据各测试文本以及各测试文本对应的错误标签,生成目标样本集;
[0009]利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。
[0010]可选地,标签确定模型的训练方式,包括:
[0011]获取初始样本集,其中,初始样本集包括多个样本文本以及各样本文本对应的错误标签;
[0012]提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,第一样本文本为初始样本集中的任一样本文本;
[0013]根据第一预测错误信息和第一样本文本对应的错误标签,计算第一损失值;
[0014]若第一损失值大于第一预设阈值,则调整初始标签确定模型的模型参数,并返回执行提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息的步骤;
[0015]若第一损失值小于或等于第一预设阈值,则停止训练,获得训练后的标签确定模型。
[0016]可选地,根据各测试文本以及各测试文本对应的错误标签,生成目标样本集的步
骤,包括:
[0017]在初始样本集中,添加各测试文本以及各测试文本对应的错误标签,生成目标样本集。
[0018]可选地,获取初始样本集的步骤,包括:
[0019]获取多个样本文本;
[0020]分别对多个样本文本进行图片转换,获得多个样本文本分别对应的样本图片;
[0021]识别各样本图片的文本内容;
[0022]针对任一样本图片,将该样本图片的文本内容与该样本图片对应的样本文本进行对比,确定该样本图片的文本内容对应的错误标签;
[0023]根据各样本图片的文本内容以及各样本图片的文本内容对应的错误标签,生成初始样本集。
[0024]可选地,获取初始样本集的步骤,包括:
[0025]获取多个样本文本;
[0026]利用预设音频转换工具,将多个样本文本分别转换为对应的样本音频;
[0027]识别各样本音频的文本内容;
[0028]针对任一样本音频,将该样本音频的文本内容与该样本音频对应的样本文本进行对比,确定该样本音频的文本内容对应的错误标签;
[0029]根据各样本音频的文本内容以及各样本音频的文本内容对应的错误标签,生成初始样本集。
[0030]可选地,获取初始样本集的步骤,包括:
[0031]获取多个样本文本;
[0032]将多个样本文本和预设错误数据库进行匹配,对多个样本文本分别进行随机错字替换,生成各样本文本分别对应的错字替换文本;
[0033]针对任一样本文本,将该样本文本与该样本文本对应的错字替换文本进行对比,确定该错字替换文本对应的错误标签;
[0034]根据各错字替换文本以及各错字替换文本对应的错误标签,生成初始样本集。
[0035]可选地,初始文本检错模型通过对初始标签确定模型进行裁剪得到。
[0036]可选地,利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型的步骤,包括:
[0037]从目标样本集中提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息,其中,第二样本文本为目标样本集中的任一文本;
[0038]根据第二预测错误信息和第二样本文本对应的错误标签,计算第二损失值;
[0039]若第二损失值大于第二预设阈值,则调整初始文本检错模型的模型参数,并返回执行从目标样本集中提取第二样本文本,将第二样本文本输入初始文本检错模型,获得第二样本文本的第二预测错误信息的步骤;
[0040]若第二损失值小于或等于第二预设阈值,则停止训练,获得训练后的文本检错模型。
[0041]根据本申请实施例的第二方面,提供了一种文本检错方法,包括:
[0042]获取待处理文本;
[0043]将待处理文本输入利用本申请实施例第一方面提供的方法训练得到的文本检错模型,得到待处理文本的检错结果。
[0044]根据本申请实施例的第三方面,提供了一种文本检错模型训练装置,包括:
[0045]测试集获取模块,被配置为获取测试集,其中,测试集包括多个无标签的测试文本;
[0046]错误标签生成模块,被配置为将各测试文本分别输入预先训练的标签确定模型,获得各测试文本对应的错误标签;
[0047]目标样本集生成模块,被配置为根据各测试文本以及各测试文本对应的错误标签,生成目标样本集;
[0048]模型生成模块,被配置为利用目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。
[0049]可选地,该装置还包括:
[0050]标签确定模型训练模块,被配置为获取初始样本集,其中,初始样本集包括多个样本文本以及各样本文本对应的错误标签;
[0051]提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息,其中,第一样本文本为初始样本集中的任一样本文本;
[0052]根据第一预测错误信息和第一样本文本对应的错误标签,计算第一损失值;
[0053]若第一损失值大于第一预设阈值,则调整初始标签确定模型的模型参数,并返回执行提取第一样本文本,将第一样本文本输入初始标签确定模型,获得第一样本文本的第一预测错误信息的步骤;
[0054]若第一损失值小于或等于第一预设阈值,则停止训练,获得训练后的标签确定模型。
[0055]可选地,目标样本集生成模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检错模型训练方法,其特征在于,包括:获取测试集,所述测试集包括多个无标签的测试文本;将各测试文本分别输入预先训练的标签确定模型,获得所述各测试文本对应的错误标签;根据所述各测试文本以及所述各测试文本对应的错误标签,生成目标样本集;利用所述目标样本集对初始文本检错模型进行迭代训练,得到训练后的文本检错模型。2.根据权利要求1所述的方法,其特征在于,所述标签确定模型的训练方式,包括:获取初始样本集,所述初始样本集包括多个样本文本以及各样本文本对应的错误标签;提取第一样本文本,将所述第一样本文本输入初始标签确定模型,获得所述第一样本文本的第一预测错误信息,其中,所述第一样本文本为所述初始样本集中的任一样本文本;根据所述第一预测错误信息和所述第一样本文本对应的错误标签,计算第一损失值;若所述第一损失值大于第一预设阈值,则调整所述初始标签确定模型的模型参数,并返回执行所述提取第一样本文本,将所述第一样本文本输入初始标签确定模型,获得所述第一样本文本的第一预测错误信息的步骤;若所述第一损失值小于或等于所述第一预设阈值,则停止训练,获得训练后的标签确定模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述各测试文本以及所述各测试文本对应的错误标签,生成目标样本集的步骤,包括:在所述初始样本集中,添加所述各测试文本以及所述各测试文本对应的错误标签,生成目标样本集。4.根据权利要求2所述的方法,其特征在于,所述获取初始样本集的步骤,包括:获取多个样本文本;分别对所述多个样本文本进行图片转换,获得所述多个样本文本分别对应的样本图片;识别各样本图片的文本内容;针对任一样本图片,将该样本图片的文本内容与该样本图片对应的样本文本进行对比,确定该样本图片的文本内容对应的错误标签;根据所述各样本图片的文本内容以及各样本图片的文本内容对应的错误标签,生成初始样本集。5.根据权利要求2所述的方法,其特征在于,所述获取初始样本集的步骤,包括:获取多个样本文本;利用预设音频转换工具,将所述多个样本文本分别转换为对应的样本音频;识别各样本音频的文本内容;针对任一样本音频,将该样本音频的文本内容与该样本音频对应的样本文本进行对比,确定该样本音频的文本内容对应的错误标签;根据所述各样本音频的文本内容以及各样本音频的文本内容对应的错误标签,生成初始样本集。
6.根据权利要求2所述的方法,其特征在于,所述获取初始样本集的步骤,包括:获取多个样本文本;将所述多个样本文本和预设错误数据库进行匹配,对所述多个样本文本分别进行随机错字替换,生成各样本文本分别对应的错字替换文...

【专利技术属性】
技术研发人员:赵硕丰李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1