文本纠错模型的训练方法及装置、文本纠错方法及装置制造方法及图纸

技术编号:34456789 阅读:26 留言:0更新日期:2022-08-06 17:03
本申请提供了一种文本纠错模型的训练方法及装置、文本纠错方法及装置,所述训练方法包括:先使用通用文本数据对语言模型进行基本训练,再使用目标领域下的专有文本数据对语言模型进行微调训练,然后,通过与目标服务对象之间进行数据交互的方式,使用目标领域下较为成熟的目标服务对象,来对文本纠错模型进行交互辅助性训练。这样,本申请可以在不损失泛化文本纠错能力的前提下,训练模型快速适应复杂而独特的语言环境,从而提高模型在目标领域下的文本纠错准确率。与之相应的,本申请中训练好的文本纠错模型可以对目标服务对象应用过程中涉及的文本数据进行文本纠错处理,有利于提高目标服务对象的运行效率以及输出结果的准确程度。准确程度。准确程度。

【技术实现步骤摘要】
文本纠错模型的训练方法及装置、文本纠错方法及装置


[0001]本申请涉及深度学习
,具体而言,涉及一种文本纠错模型的训练方法及装置、文本纠错方法及装置。

技术介绍

[0002]随着人工智能技术的发展,自动化的文本纠错技术也在各大行业不断涌现并取得了显著的成果。然而随着文化多样性的出现,在不同业务领域下也衍生出了具有各自领域特色的语言表达方式,例如,以游戏领域为例,玩家在游戏过程中常常会通过“谐音梗”的方式,使用看似错误的文字表达来达到一个幽默而不失游戏领域特色的语言效果。
[0003]结合上述内容可以看出,由于语言表达在通用领域的泛化性与特殊业务领域的针对性之间存在矛盾,因此,使得原本单纯用于纠正错别字的传统文本纠错模型已经无法适用于执行特殊业务领域下的文本纠错任务。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种文本纠错模型的训练方法及装置、文本纠错方法及装置,以在不损失泛化文本纠错能力的前提下,训练模型快速适应更加复杂而独特的语言环境,从而提高模型在目标领域下的文本纠错准确率。
[0005]第一方面,本申请实施例提供了一种文本纠错模型的训练方法,所述文本纠错模型用于为目标领域下的目标服务对象提供文本纠错服务;其中,所述目标服务对象属于所述目标领域下已收敛的成熟算法模型;所述训练方法包括:
[0006]利用无语义标记的第一训练文本对语言模型进行预训练,得到第一语言表征模型;其中,所述第一训练文本包括所述目标领域下的特定文本数据以及所述目标领域之外的通用文本数据;
[0007]利用所述目标领域下已语义标记的第二训练文本对所述第一语言表征模型进行训练,得到具备目标文本特征识别能力的第二语言表征模型;其中,所述目标文本特征用于表征文本数据在所述目标领域下特有的语义特征和/或文字表达特征;
[0008]将所述目标服务对象在训练过程中输入或者输出的第三训练文本输入至所述第二语言表征模型中,得到所述第二语言表征模型输出的对所述第三训练文本进行文本纠错处理后的更正训练文本;
[0009]根据所述目标服务对象基于所述第三训练文本得到的更正前输出结果以及所述目标服务对象基于所述更正训练文本得到的更正后输出结果,获取所述目标服务对象的模型输出结果在更正前后产生的正向偏差/负向偏差,并根据所述正向偏差/负向偏差对所述第二语言表征模型的模型参数进行调整,得到包括调整好的模型参数的文本纠错模型。
[0010]在一种可选的实施方式中,所述利用无语义标记的第一训练文本对语言模型进行预训练,得到第一语言表征模型,包括:
[0011]通过随机采样的方式,对所述第一训练文本中第一目标数量的分词进行掩码遮
蔽,得到包括第一目标数量遮蔽词的第一遮蔽训练文本;其中,所述第一目标数量是根据所述随机采样的采样比例与所述第一训练文本中包括的分词数量确定的;
[0012]将所述第一遮蔽训练文本输入至所述语言模型中,得到所述语言模型输出的包括第一目标数量遮蔽词的预测结果的第一遮蔽预测文本;
[0013]利用所述第一遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损失,调整所述语言模型的模型参数,直至所述语言模型达到收敛,并将达到收敛后的所述语言模型作为所述第一语言表征模型。
[0014]在一种可选的实施方式中,所述利用无语义标记的第一训练文本对语言模型进行预训练,得到第一语言表征模型,还包括:
[0015]按照第一预设采样比例,对所述第一训练文本中属于所述特定文本数据的第二目标数量的分词进行掩码遮蔽,得到包括第二目标数量遮蔽词的第二遮蔽训练文本;其中,所述第二目标数量是根据所述第一预设采样比例与所述第一训练文本中属于所述特定文本数据的分词数量确定的;
[0016]将所述第二遮蔽训练文本输入至所述语言模型中,得到所述语言模型输出的包括第二目标数量遮蔽词的预测结果的第二遮蔽预测文本;
[0017]利用所述第二遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损失,调整所述语言模型的模型参数,直至所述语言模型达到收敛,并将达到收敛后的所述语言模型作为所述第一语言表征模型。
[0018]在一种可选的实施方式中,所述利用所述目标领域下已语义标记的第二训练文本对所述第一语言表征模型进行训练至少包括:利用所述目标领域下已语义标记的第二训练文本对所述第一语言表征模型进行粗粒度训练和/或细粒度训练;其中,所述粗粒度训练用于训练所述第一语言表征模型根据所述目标领域下同一语义概念对应的不同文字表达方式,对所述第二训练文本中同一所述语义概念下的不同语句进行分类;所述细粒度训练用于训练所述第一语言表征模型根据所述第二训练文本中每一语句在所述目标领域下的分词序列标记结果,对每一语句在所述目标领域下的文字表达方式进行识别。
[0019]在一种可选的实施方式中,通过以下方法对所述第一语言表征模型进行所述粗粒度训练:
[0020]针对所述第二训练文本中的任意两个语句,将所述任意两个语句去除已有的所述语义标记后的原始版本语句输入至所述第一语言表征模型中,通过所述第一语言表征模型对所述任意两个语句是否对应所述目标领域下的同一语义概念进行分类预测,得到所述任意两个语句的分类预测结果;
[0021]根据所述任意两个语句在所述第二训练文本中已有的所述语义标记,确定所述任意两个语句的真实分类结果;其中,所述真实分类结果用于表征所述任意两个语句是否对应所述目标领域下的同一语义概念;
[0022]利用所述分类预测结果与所述真实分类结果之间的交叉熵损失,调整所述第一语言表征模型的模型参数,直至所述第一语言表征模型达到收敛。
[0023]在一种可选的实施方式中,通过以下方法对所述第一语言表征模型进行所述细粒度训练:
[0024]针对所述第二训练文本中的每一语句,将该语句去除已有的所述语义标记后的原
始版本语句输入至所述第一语言表征模型中,通过所述第一语言表征模型对该语句在所述目标领域下的句子成分进行分析,得到该语句在所述目标领域下的语句分析结果;其中,所述句子成分至少包括:属于所述目标领域下定义的实体的第一目标分词,以及能够表征所述目标领域下不同语义概念的第二目标分词;
[0025]根据所述目标领域下定义的多个实体以及该语句中已有的所述语义标记,对该语句中包括的多个分词进行序列标记,得到该语句的分词序列标记结果;
[0026]利用所述语句分析结果与所述分词序列标记结果之间的交叉熵损失,调整所述第一语言表征模型的模型参数,直至所述第一语言表征模型达到收敛。
[0027]在一种可选的实施方式中,所述将所述目标服务对象在训练过程中输入或者输出的第三训练文本输入至所述第二语言表征模型中,得到所述第二语言表征模型输出的对所述第三训练文本进行文本纠错处理后的更正训练文本,包括:
[0028]针对所述第三训练文本中的每一语句,将该语句输入至所述第二语言表征模型中,得到所述第二语言表征模型针对该语句的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错模型的训练方法,其特征在于,所述文本纠错模型用于为目标领域下的目标服务对象提供文本纠错服务;其中,所述目标服务对象属于所述目标领域下已收敛的成熟算法模型;所述训练方法包括:利用无语义标记的第一训练文本对语言模型进行预训练,得到第一语言表征模型;其中,所述第一训练文本包括所述目标领域下的特定文本数据以及所述目标领域之外的通用文本数据;利用所述目标领域下已语义标记的第二训练文本对所述第一语言表征模型进行训练,得到具备目标文本特征识别能力的第二语言表征模型;其中,所述目标文本特征用于表征文本数据在所述目标领域下特有的语义特征和/或文字表达特征;将所述目标服务对象在训练过程中输入或者输出的第三训练文本输入至所述第二语言表征模型中,得到所述第二语言表征模型输出的对所述第三训练文本进行文本纠错处理后的更正训练文本;根据所述目标服务对象基于所述第三训练文本得到的更正前输出结果以及所述目标服务对象基于所述更正训练文本得到的更正后输出结果,获取所述目标服务对象的模型输出结果在更正前后产生的正向偏差/负向偏差,并根据所述正向偏差/负向偏差对所述第二语言表征模型的模型参数进行调整,得到包括调整好的模型参数的文本纠错模型。2.根据权利要求1所述的训练方法,其特征在于,所述利用无语义标记的第一训练文本对语言模型进行预训练,得到第一语言表征模型,包括:通过随机采样的方式,对所述第一训练文本中第一目标数量的分词进行掩码遮蔽,得到包括第一目标数量遮蔽词的第一遮蔽训练文本;其中,所述第一目标数量是根据所述随机采样的采样比例与所述第一训练文本中包括的分词数量确定的;将所述第一遮蔽训练文本输入至所述语言模型中,得到所述语言模型输出的包括第一目标数量遮蔽词的预测结果的第一遮蔽预测文本;利用所述第一遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损失,调整所述语言模型的模型参数,直至所述语言模型达到收敛,并将达到收敛后的所述语言模型作为所述第一语言表征模型。3.根据权利要求1所述的训练方法,其特征在于,所述利用无语义标记的第一训练文本对语言模型进行预训练,得到第一语言表征模型,还包括:按照第一预设采样比例,对所述第一训练文本中属于所述特定文本数据的第二目标数量的分词进行掩码遮蔽,得到包括第二目标数量遮蔽词的第二遮蔽训练文本;其中,所述第二目标数量是根据所述第一预设采样比例与所述第一训练文本中属于所述特定文本数据的分词数量确定的;将所述第二遮蔽训练文本输入至所述语言模型中,得到所述语言模型输出的包括第二目标数量遮蔽词的预测结果的第二遮蔽预测文本;利用所述第二遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损失,调整所述语言模型的模型参数,直至所述语言模型达到收敛,并将达到收敛后的所述语言模型作为所述第一语言表征模型。4.根据权利要求1所述的训练方法,其特征在于,所述利用所述目标领域下已语义标记的第二训练文本对所述第一语言表征模型进行训练至少包括:利用所述目标领域下已语义
标记的第二训练文本对所述第一语言表征模型进行粗粒度训练和/或细粒度训练;其中,所述粗粒度训练用于训练所述第一语言表征模型根据所述目标领域下同一语义概念对应的不同文字表达方式,对所述第二训练文本中同一所述语义概念下的不同语句进行分类;所述细粒度训练用于训练所述第一语言表征模型根据所述第二训练文本中每一语句在所述目标领域下的分词序列标记结果,对每一语句在所述目标领域下的文字表达方式进行识别。5.根据权利要求4所述的训练方法,其特征在于,通过以下方法对所述第一语言表征模型进行所述粗粒度训练:针对所述第二训练文本中的任意两个语句,将所述任意两个语句去除已有的所述语义标记后的原始版本语句输入至所述第一语言表征模型中,通过所述第一语言表征模型对所述任意两个语句是否对应所述目标领域下的同一语义概念进行分类预测,得到所述任意两个语句的分类预测结果;根据所述任意两个语句在所述第二训练文本中已有的所述语义标记,确定所述任意两个语句的真实分类结果;其中,所述真实分类结果用于表征所述任意两个语句是否对应所述目标领域下的同一语义概念;利用所述分类预测结果与所述真实分类结果之间的交叉熵损失,调整所述第一语言表征模型的模型参数,直至所述第一语言表征模型达到收敛。6.根据权利要求4所述的训练方法,其特征在于,通过以下方法对所述第一语言表征模型进行所述细粒度训练:针对所述第二训练文本中的每一语句,将该语句去除已有的所述语义标记后的原始版本语句输入至所述第一语言表征模型中,通过所述第一语言表征模型对该语句在所述目标领域下的句子成分进行分析,得到该语句在所述目标领域下的语句分析结果;其中,所述句子成分至少包括:属于所述目标领域下定义的实体的第一目标分词,以及能够表征所述目标领域下不同语义概念的第二目标分词;根据所述目标领域下定义的多个实体以及该语句中已有的所述语义标记,对该语句中包括的多个分词进行序列标记,得到该语句的分词序列标记结果;利用所述语句分析结果与所述分词序列标记结果之间的交叉熵损失,调整所述第一语言表征模型的模型参数,直至所述第一语言表征模型达到收敛。7.根据权利要求1所述的训练方法,其特征在于,所述将所述目标服务对象在训练过程中输入或者输出的第三训练文本输入至所述第二语言表征模型中,得到所述第二语言表征模型输出的对所述第三训练文本进行文本纠错处理后的更正训练文本,包括:针对所述第三训练文本中的每一语句,将该语句输入至所述第二语言表征模型中,得到所述第二语言表征模型针对该语句的第一输出结果;在检测到所述第一输出结果与该语句存在差异的情况下,确定所述第二语言表征模型对该语句进行了所述文本纠错处理,并将所述第一输出结果作为所述更正训练文本;在检测到所述第一输出结果与该语句相同的情况下,则从所述第三训练文本中获取下一语句,重复上述针对该语句的处理步骤,直至得到所述更正训练文本为止。8.根据权利要求1所述的训练方法,其特征在于,在所述得到所述第二语言表征模型输出的对所述第三训练文本进行文本纠错处理后的更正训练文本之后,所述训练方法还包
括:当所述第三训练文本属于所述目标服务对象在训练过程中输入的文本数据时,将所述第三训练文本输入至所述目标服务对象中,输出得到所述更正前输出结果;将所述更正训练文本输入至所述目标服务对象中,输出得到所述更正后输出结果。9.根据权利要求8所述的训练方法,其特征在于,所述将所述第三训练文本输入至所述目标服务对象中,输出得到所述更正前输出结果,包括:将所述第三训练文本输入至所述目标服务对象中,通过所述目标服务对象对所述第三训练文本的输出类别进行预测,得到所述更正前输出结果;其中,所述更正前输出结果用于表征所述第三训练文本的输出类别属于每一预设类别的概率;所述将所述更正训练文本输入至所述目标服务对象中,输出得到所述更正后输出结果,包括:将所述更正训练文本输入至所述目标服务对象中,通过所述目标服务对象对所述更正训练文本的输出类别进行预测,得到所述更正后输出结果;其中,所述更正后输出结果用于表征所述更正训练文本的输出类别属于每一预设类别的概率。10.根据权利要求9所述的训练方法,其特征在于,所述获取所述目标服务对象的模型输出结果在更正前后产生的正向偏差/负向偏差,包括:按照第一偏差计算策略,计算所述目标服务对象的模型输出结果在更正前后产生的第一偏差;基于所述第一偏差确定所述第一偏差属于所述正向偏差还是属于所述负向偏差。11.根据权利要求10所述的训练方法,其特征在于,所述按照第一偏差计算策略,计算所述目标服务对象的模型输出结果在更正前后产生的第一偏差,包括:计算所述更正后输出结果与所述更正前输出结果在同一预设类别上的概率偏差值,将计算结果作为所述第一偏差。12.根据权利要求1所述的训练方法,其特征在于,在所述得到所述第二语言表征模型输出的对所述第三训练文本进行文本纠错处理后的更...

【专利技术属性】
技术研发人员:蔡子健陈泽
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1