基于强化学习的文本纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:34266943 阅读:70 留言:0更新日期:2022-07-24 15:08
本申请公开了一种基于强化学习的文本纠错方法、装置、设备及存储介质,属于自然语言处理技术领域。本申请通过对训练语料中的文本进行发音相似遮掩和字形相似遮掩,利用遮掩后的训练语料构建第一训练样本,将第一训练样本导入预训练语言模型,输出第一预训练文本纠错结果,对第一训练样本进行调整,生成第二训练样本,利用第二训练样本对预训练语言模型进行迭代训练,得到文本纠错模型,最后将待纠错文本导入文本纠错模型,输出文本纠错结果。本申请在训练纠错模型时引入发音信息和字形信息,通过发音相似遮掩和字形相似遮掩构造拥有丰富噪声的训练样本,并进一步通过强化学习技术训练纠错模型,使得模型能够更好地识别拼写错误,泛化性能更强。泛化性能更强。泛化性能更强。

Text error correction method, device, device and storage medium based on Reinforcement Learning

【技术实现步骤摘要】
基于强化学习的文本纠错方法、装置、设备及存储介质


[0001]本申请属于自然语言处理
,具体涉及一种基于强化学习的文本纠错方法、装置、设备及存储介质。

技术介绍

[0002]文本纠错的目的是检测和纠正文本中的拼写错误,是自然语言处理中的重要任务,在信息检索、智能写作、智能客服等诸多领域都有应用。传统文本纠错采取的方法多为:设定包含大量容易被拼写错误汉字的混淆文字集,当待纠错的文档中文字与混淆文字集中文字匹配时,用混淆文字集中的文字替换,但这种机械地匹配方式未考虑上下文语义,效果不甚理想。
[0003]近年来,有研究者基于已有预训练语言模型Bert+微调方式进行文本纠错。在实施中,将容易出错的文字用错误文字进行遮掩(mask)替换来构造负训练样本,例如在样本“中国是一个拥有5000年历史的文明古国”中,将“历史”替换为“厉史”,然后在对预训练语言模型进行微调训练,以此识别错误文字并纠正。但由于预训练语言模型在训练时并非专门为文字纠错任务而设计,因此,微调后地模型中也很少能学习到如何进行纠错的知识,实践效果仍有较大提升空间。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的文本纠错方法,其特征在于,包括:收集训练语料,并按照预设的文本遮掩比例对所述训练语料中的文本进行发音相似遮掩和字形相似遮掩;利用遮掩后的所述训练语料构建第一训练样本;对所述第一训练样本进行向量转化,得到第一样本嵌入向量;将所述第一样本嵌入向量导入预训练语言模型,输出第一预训练文本纠错结果;基于所述第一预训练文本纠错结果对所述第一训练样本进行调整,生成第二训练样本;利用所述第二训练样本对所述预训练语言模型进行迭代训练,得到文本纠错模型;接收文本纠错指令,获取待纠错文本,将所述待纠错文本导入所述文本纠错模型,输出文本纠错结果。2.如权利要求1所述的基于强化学习的文本纠错方法,其特征在于,所述收集训练语料,并按照预设的文本遮掩比例对所述训练语料中的文本进行发音相似遮掩和字形相似遮掩的步骤,具体包括:收集训练语料,并对所述训练语料进行划分,得到若干个训练语料片段;按照预设的文本遮掩比例在所述训练语料片段中的确定目标遮掩文本;在预设的文本混淆集中确定与所述目标遮掩文本对应的发音相似文本和字形相似文本;基于所述发音相似文本和字形相似文本对所述目标遮掩文本进行发音相似遮掩和字形相似遮掩。3.如权利要求2所述的基于强化学习的文本纠错方法,其特征在于,所述利用遮掩后的所述训练语料构建第一训练样本的步骤,具体包括:组合完成所述发音相似遮掩的训练语料片段和完成所述字形相似遮掩的训练语料片段,形成所述第一训练样本。4.如权利要求2所述的基于强化学习的文本纠错方法,其特征在于,所述利用遮掩后的所述训练语料构建第一训练样本的步骤,具体包括:从预设词汇表获取随机文本,并利用所述随机文本对所述目标遮掩文本进行文本随机遮掩;组合完成所述发音相似遮掩的训练语料片段、完成所述字形相似遮掩的训练语料片段、完成所述文本随机遮掩的训练语料片段以及未进行文本遮掩的训练语料片段,形成所述第一训练样本。5.如权利要求3或4所述的基于强化学习的文本纠错方法,其特征在于,所述基于所述第一预训练文本纠错结果对所述第一训练样本进行调整,生成第二训练样本的步骤,具体包括:基于所述第一预训练文本纠错结果计算所述第一训练样本中各个训练语料片段的行动价值得分;基于所述各个训练语料片段的行动价值得分调整所述第一训练样本中各个训练语料片段的占比,得到所述第二训练样本。6.如权利要求5所述的基于强化学习的文本纠错方法,其特征在于,所述基于所述第一
预训练文本纠错结果计算所述第一训练样本中各个训练语料片段的行动价值得分的步骤,具体包括:基于所述第一预训练文本纠错结果确定所述预训练语言模型的F1值;获取所述预训练语言模型的训练开销;基于所述预训练语言模型的F1值和所述训练开销计算所述第一训练样本中各个训练语料片段的行动价值得分。7.如权利要求...

【专利技术属性】
技术研发人员:王伟黄勇其张黔
申请(专利权)人:润联软件系统深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1