文本纠错模型的训练方法、装置、设备以及存储介质制造方法及图纸

技术编号：39438089 阅读：9 留言：0更新日期：2023-11-19 16:21

本申请实施例公开了一种文本纠错模型的训练方法、装置、设备以及存储介质，可适用于人工智能、计算机以及区块链等领域。该方法包括：确定多个训练样本对，每个所述训练样本对包括样本字符序列、以及对所述样本字符序列进行纠错后得到的目标字符序列；将每个样本字符序列输入初始模型，得到预测字符序列：基于每个所述样本字符序列对应的目标字符序列和预测字符序列确定总训练损失值，基于所述总训练损失值和各所述训练样本对对所述初始模型进行迭代训练，直至所述总训练损失值符合训练结束条件时停止训练，并将停止训练时的模型确定为所述文本纠错模型。采用本申请实施例，可训练得到纠错准确性较高的文本纠错模型，适用性高。适用性高。适用性高。

全部详细技术资料下载

【技术实现步骤摘要】
文本纠错模型的训练方法、装置、设备以及存储介质

[0001]本申请涉及人工智能领域，尤其涉及一种文本纠错模型的训练方法、装置、设备以及存储介质。

技术介绍

[0002]随着网络技术的飞速发展，信息资源越来越广泛，而大多数的信息是以语言文字为载体。为了提升信息内容质量，对信息内容进行文本纠错从而成为必要的文本处理环节。
[0003]现有的文本纠错方式往往是采用预训练的文本纠错模型进行，但是现有的文本纠错模型的纠错效果有限，准确性较差。因此如何训练出准确性较高的文本纠错模型成为亟需解决的问题。

技术实现思路

[0004]本申请实施例提供一种文本纠错模型的训练方法、装置、设备以及存储介质，可训练得到纠错准确性较高的文本纠错模型，适用性高。
[0005]一方面，本申请实施例提供一种文本纠错模型的训练方法，该方法包括：
[0006]确定多个训练样本对，每个上述训练样本对包括样本字符序列、以及对上述样本字符序列进行纠错后得到的目标字符序列；
[0007]将每个样本字符序列输入初始模型，得到对该样本字符序列进行纠错后的预测字符序列，上述预测字符序列中的各预测字符由上述初始模型基于以下方式确定：
[0008]基于该样本字符序列的每个样本字符的第一隐状态特征，确定各上述样本字符对应的预测编辑标签和预测排序标签，每个上述样本字符的预测编辑标签和预测排序标签分别表征该样本字符的预测编辑操作和预测排列顺序；
[0009]基于各上述预测编辑标签和各上述预测排序标签对该样本字符序列...

【技术保护点】

【技术特征摘要】
1.一种文本纠错模型的训练方法，其特征在于，所述方法包括：确定多个训练样本对，每个所述训练样本对包括样本字符序列、以及对所述样本字符序列进行纠错后得到的目标字符序列；将每个样本字符序列输入初始模型，得到对该样本字符序列进行纠错后的预测字符序列，所述预测字符序列由所述初始模型基于以下方式确定：基于该样本字符序列的每个样本字符的第一隐状态特征，确定各所述样本字符对应的预测编辑标签和预测排序标签，每个所述样本字符的预测编辑标签和预测排序标签分别表征该样本字符的预测编辑操作和预测排列顺序；基于各所述预测编辑标签和各所述预测排序标签对该样本字符序列进行处理得到待预测字符序列，基于所述待预测字符序列的每个待预测字符的第二隐状态特征，确定各所述待预测字符对应的预测字符标签，每个所述待预测字符对应的预测字符标签表征该待预测字符对应的预测字符，基于各所述待预测字符对应的预测字符标签，确定该样本序列对应的预测字符序列；基于各所述样本字符序列对应的预测字符序列所对应的各所述预测字符标签、以及各所述样本字符序列对应的各实际字符标签，确定总训练损失值，每个所述样本字符序列对应的各所述实际字符标签分别表征该样本字符序列对应的目标字符序列的各目标字符，基于所述总训练损失值和各所述训练样本对对所述初始模型进行迭代训练，直至所述总训练损失值符合训练结束条件时停止训练，并将停止训练时的模型确定为所述文本纠错模型。2.根据权利要求1所述的方法，其特征在于，基于各所述第一隐状态特征确定各所述样本字符对应的预测编辑标签，包括：对于每个所述样本字符，基于该样本字符的第一隐状态特征，确定该样本字符对应的预测编辑标签属于各预设编辑标签的第一概率，基于该样本字符对应的各所述第一概率，确定该样本字符的预测编辑标签；每个所述预测编辑标签表征一种预设编辑操作，每种所述预设编辑操作为删除字符、替换字符、插入字符或者保留字符中的任意一项。3.根据权利要求1所述的方法，其特征在于，基于各所述第一隐状态特征确定各所述样本字符对应的预测排序标签，包括：对于每个所述样本字符，确定该样本字符对应的预测编辑标签的编辑特征、以及该样本字符在该样本字符序列中的位置特征，基于该样本字符对应的第一隐状态特征、编辑特征以及位置特征，确定该样本字符的融合特征；基于各所述样本字符的融合特征，确定各所述样本字符对应的预测排序标签。4.根据权利要求3所述的方法，其特征在于，所述基于各所述样本字符的融合特征，确定各所述样本字符对应的预测排序标签，包括：基于每个所述样本字符的融合特征，确定该样本字符对应的预测排序标签为各所述预设排序标签的第二概率，各所述预设排序标签分别表征不用的排列顺序；基于各所述样本字符对应的各所述第二概率，确定各所述样本字符对应的预测排序标签。5.根据权利要求4所述的方法，其特征在于，所述基于每个所述样本字符的融合特征，确定该样本字符对应的预测排序标签为各所述预设排序标签的第二概率，包括：
基于每个所述样本字符的融合特征，确定该样本字符对应的注意力特征；基于每个所述样本字符的融合特征、以及各所述样本字符对应的注意力特征，确定该样本字符序列中该样本字符的下一个字符对应的预测排序标签为各所述预设排序标签的第二概率，其中，该样本字符序列中的第一个样本字符对应的各所述第二概率是基于第一预设字符的融合特征确定的。6.根据权利要求2所述的方法，其特征在于，所述基于各所述预测编辑标签和各所述预测排序标签对该样本字符序列进行处理得到待预测字符序列，包括：基于各所述预测排序标签对各所述样本字符进行排列得到第一字符序列；对于所述第一字符序列的每个所述样本字符，响应于基于该样本字符对应的预测编辑标签确定在该样本字符之后插入字符，确定在该样本字符之后所插入的字符的字符数量，并将该字符数量的第二预设字符插入到该样本字符之后得到第二字符序列；将所述第二字符序列中的目标字符进行标记得到待预测字符序列，所述目标字符为基于对应的预测编辑标签确定删除的字符。7.根据权利要求1所述的方法，其特征在于，所述基于各所述第二隐状态特征确定各所述待预测字符对应的预测字符标签，包括：对于所述待预测字符序列中的每个待预测字符，基于该待预测字符的第二隐状态特征确定该待预测字符对应的预测字符标签为各预设字符标签的第三概率，基于该待预测字符对应的各所述第三概率，确定该待预测字符对应的预测字符标签，各所述预设字...

【专利技术属性】
技术研发人员：赵昂，
申请(专利权)人：腾讯科技武汉有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人