文本纠错模型的训练方法、装置、设备以及存储介质制造方法及图纸

技术编号:39438089 阅读:9 留言:0更新日期:2023-11-19 16:21
本申请实施例公开了一种文本纠错模型的训练方法、装置、设备以及存储介质,可适用于人工智能、计算机以及区块链等领域。该方法包括:确定多个训练样本对,每个所述训练样本对包括样本字符序列、以及对所述样本字符序列进行纠错后得到的目标字符序列;将每个样本字符序列输入初始模型,得到预测字符序列:基于每个所述样本字符序列对应的目标字符序列和预测字符序列确定总训练损失值,基于所述总训练损失值和各所述训练样本对对所述初始模型进行迭代训练,直至所述总训练损失值符合训练结束条件时停止训练,并将停止训练时的模型确定为所述文本纠错模型。采用本申请实施例,可训练得到纠错准确性较高的文本纠错模型,适用性高。适用性高。适用性高。

【技术实现步骤摘要】
文本纠错模型的训练方法、装置、设备以及存储介质


[0001]本申请涉及人工智能领域,尤其涉及一种文本纠错模型的训练方法、装置、设备以及存储介质。

技术介绍

[0002]随着网络技术的飞速发展,信息资源越来越广泛,而大多数的信息是以语言文字为载体。为了提升信息内容质量,对信息内容进行文本纠错从而成为必要的文本处理环节。
[0003]现有的文本纠错方式往往是采用预训练的文本纠错模型进行,但是现有的文本纠错模型的纠错效果有限,准确性较差。因此如何训练出准确性较高的文本纠错模型成为亟需解决的问题。

技术实现思路

[0004]本申请实施例提供一种文本纠错模型的训练方法、装置、设备以及存储介质,可训练得到纠错准确性较高的文本纠错模型,适用性高。
[0005]一方面,本申请实施例提供一种文本纠错模型的训练方法,该方法包括:
[0006]确定多个训练样本对,每个上述训练样本对包括样本字符序列、以及对上述样本字符序列进行纠错后得到的目标字符序列;
[0007]将每个样本字符序列输入初始模型,得到对该样本字符序列进行纠错后的预测字符序列,上述预测字符序列中的各预测字符由上述初始模型基于以下方式确定:
[0008]基于该样本字符序列的每个样本字符的第一隐状态特征,确定各上述样本字符对应的预测编辑标签和预测排序标签,每个上述样本字符的预测编辑标签和预测排序标签分别表征该样本字符的预测编辑操作和预测排列顺序;
[0009]基于各上述预测编辑标签和各上述预测排序标签对该样本字符序列进行处理得到待预测字符序列,基于上述待预测字符序列的每个待预测字符的第二隐状态特征,确定各上述待预测字符对应的预测字符标签,每个上述待预测字符对应的预测字符标签表征该待预测字符对应的预测字符,基于各上述待预测字符对应的预测字符标签,确定该样本序列对应的预测字符序列;
[0010]基于各上述样本字符序列对应的预测字符序列所对应的各上述预测字符标签、以及各上述样本字符序列对应的各实际字符标签,确定总训练损失值,每个上述样本字符序列对应的各上述实际字符标签分别表征该样本字符序列对应的目标字符序列的各目标字符,基于上述总训练损失值和各上述训练样本对对上述初始模型进行迭代训练,直至上述总训练损失值符合训练结束条件时停止训练,并将停止训练时的模型确定为上述文本纠错模型。
[0011]另一方面,本申请实施例提供了一种文本纠错模型的训练装置,该装置包括:
[0012]样本确定模块,用于确定多个训练样本对,每个上述训练样本对包括样本字符序列、以及对上述样本字符序列进行纠错后得到的目标字符序列;
[0013]序列预测模块,用于将每个样本字符序列输入初始模型,得到对该样本字符序列进行纠错后的预测字符序列,上述预测字符序列由上述初始模型基于以下方式确定:
[0014]基于该样本字符序列的每个样本字符的第一隐状态特征,确定各上述样本字符对应的预测编辑标签和预测排序标签,每个上述样本字符的预测编辑标签和预测排序标签分别表征该样本字符的预测编辑操作和预测排列顺序;
[0015]基于各上述预测编辑标签和各上述预测排序标签对该样本字符序列进行处理得到待预测字符序列,基于上述待预测字符序列的每个待预测字符的第二隐状态特征,确定各上述待预测字符对应的预测字符标签,每个上述待预测字符对应的预测字符标签表征该待预测字符对应的预测字符,基于各上述待预测字符对应的预测字符标签,确定该样本序列对应的预测字符序列;
[0016]模型确定模块,用于基于各上述样本字符序列对应的预测字符序列所对应的各上述预测字符标签、以及各上述样本字符序列对应的各实际字符标签,确定总训练损失值,每个上述样本字符序列对应的各上述实际字符标签分别表征该样本字符序列对应的目标字符序列的各目标字符,基于上述总训练损失值和各上述训练样本对对上述初始模型进行迭代训练,直至上述总训练损失值符合训练结束条件时停止训练,并将停止训练时的模型确定为上述文本纠错模型。
[0017]另一方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
[0018]上述存储器用于存储计算机程序;
[0019]上述处理器被配置用于在调用上述计算机程序时,执行本申请实施例提供的文本纠错模型的训练方法。
[0020]另一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本申请实施例提供的文本纠错模型的训练方法。
[0021]另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行时实现本申请实施例提供的文本纠错模型的训练方法。
[0022]在本申请实施例中,通过多个训练样本对初始模型进行训练,可得到具有预测编辑操作、预测排列顺序以及确定待预测字符序列等处理多个任务的能力的文本纠错模型,文本纠错模型能够处理复杂的文本纠错任务,且具有较高的准确性和稳定性。如文本纠错模型可确定输入的任一文本序列的各字符的预测编辑操作以及预测排列顺序,从而基于各字符的预测编辑操作以及预测排序顺序对该文本序列进行纠错得到目标字符序列。
附图说明
[0023]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]图1是本申请实施例提供的文本纠错模型的训练方法的流程示意图;
[0025]图2是本申请实施例提供的确定训练样本对的流程示意图;
[0026]图3是本申请实施例提供的确定预测字符序列的流程示意图;
[0027]图4是本申请实施例提供的操作预测网络的结构示意图;
[0028]图5是本申请实施例提供的顺序预测网络的结构示意图;
[0029]图6是本申请实施例提供的字符预测网络的结构示意图;
[0030]图7是本申请实施例提供的初始模型的网络结构示意图;
[0031]图8是本申请实施例提供的文本纠错流程示意图;
[0032]图9是本申请实施例提供的文本纠错模型的训练装置的结构示意图;
[0033]图10是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0035]本申请实施例提供的文本纠错模型的训练方法可适用于任何文本纠错场景,如基于本申请实施例提供的训练方法训练得到的文本纠错模型可对语音识别后的文本进行文本纠错,使得纠错后的文本与语音内容保持一致本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错模型的训练方法,其特征在于,所述方法包括:确定多个训练样本对,每个所述训练样本对包括样本字符序列、以及对所述样本字符序列进行纠错后得到的目标字符序列;将每个样本字符序列输入初始模型,得到对该样本字符序列进行纠错后的预测字符序列,所述预测字符序列由所述初始模型基于以下方式确定:基于该样本字符序列的每个样本字符的第一隐状态特征,确定各所述样本字符对应的预测编辑标签和预测排序标签,每个所述样本字符的预测编辑标签和预测排序标签分别表征该样本字符的预测编辑操作和预测排列顺序;基于各所述预测编辑标签和各所述预测排序标签对该样本字符序列进行处理得到待预测字符序列,基于所述待预测字符序列的每个待预测字符的第二隐状态特征,确定各所述待预测字符对应的预测字符标签,每个所述待预测字符对应的预测字符标签表征该待预测字符对应的预测字符,基于各所述待预测字符对应的预测字符标签,确定该样本序列对应的预测字符序列;基于各所述样本字符序列对应的预测字符序列所对应的各所述预测字符标签、以及各所述样本字符序列对应的各实际字符标签,确定总训练损失值,每个所述样本字符序列对应的各所述实际字符标签分别表征该样本字符序列对应的目标字符序列的各目标字符,基于所述总训练损失值和各所述训练样本对对所述初始模型进行迭代训练,直至所述总训练损失值符合训练结束条件时停止训练,并将停止训练时的模型确定为所述文本纠错模型。2.根据权利要求1所述的方法,其特征在于,基于各所述第一隐状态特征确定各所述样本字符对应的预测编辑标签,包括:对于每个所述样本字符,基于该样本字符的第一隐状态特征,确定该样本字符对应的预测编辑标签属于各预设编辑标签的第一概率,基于该样本字符对应的各所述第一概率,确定该样本字符的预测编辑标签;每个所述预测编辑标签表征一种预设编辑操作,每种所述预设编辑操作为删除字符、替换字符、插入字符或者保留字符中的任意一项。3.根据权利要求1所述的方法,其特征在于,基于各所述第一隐状态特征确定各所述样本字符对应的预测排序标签,包括:对于每个所述样本字符,确定该样本字符对应的预测编辑标签的编辑特征、以及该样本字符在该样本字符序列中的位置特征,基于该样本字符对应的第一隐状态特征、编辑特征以及位置特征,确定该样本字符的融合特征;基于各所述样本字符的融合特征,确定各所述样本字符对应的预测排序标签。4.根据权利要求3所述的方法,其特征在于,所述基于各所述样本字符的融合特征,确定各所述样本字符对应的预测排序标签,包括:基于每个所述样本字符的融合特征,确定该样本字符对应的预测排序标签为各所述预设排序标签的第二概率,各所述预设排序标签分别表征不用的排列顺序;基于各所述样本字符对应的各所述第二概率,确定各所述样本字符对应的预测排序标签。5.根据权利要求4所述的方法,其特征在于,所述基于每个所述样本字符的融合特征,确定该样本字符对应的预测排序标签为各所述预设排序标签的第二概率,包括:
基于每个所述样本字符的融合特征,确定该样本字符对应的注意力特征;基于每个所述样本字符的融合特征、以及各所述样本字符对应的注意力特征,确定该样本字符序列中该样本字符的下一个字符对应的预测排序标签为各所述预设排序标签的第二概率,其中,该样本字符序列中的第一个样本字符对应的各所述第二概率是基于第一预设字符的融合特征确定的。6.根据权利要求2所述的方法,其特征在于,所述基于各所述预测编辑标签和各所述预测排序标签对该样本字符序列进行处理得到待预测字符序列,包括:基于各所述预测排序标签对各所述样本字符进行排列得到第一字符序列;对于所述第一字符序列的每个所述样本字符,响应于基于该样本字符对应的预测编辑标签确定在该样本字符之后插入字符,确定在该样本字符之后所插入的字符的字符数量,并将该字符数量的第二预设字符插入到该样本字符之后得到第二字符序列;将所述第二字符序列中的目标字符进行标记得到待预测字符序列,所述目标字符为基于对应的预测编辑标签确定删除的字符。7.根据权利要求1所述的方法,其特征在于,所述基于各所述第二隐状态特征确定各所述待预测字符对应的预测字符标签,包括:对于所述待预测字符序列中的每个待预测字符,基于该待预测字符的第二隐状态特征确定该待预测字符对应的预测字符标签为各预设字符标签的第三概率,基于该待预测字符对应的各所述第三概率,确定该待预测字符对应的预测字符标签,各所述预设字...

【专利技术属性】
技术研发人员:赵昂
申请(专利权)人:腾讯科技武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1