中文纠错模型的训练方法、中文纠错方法及装置制造方法及图纸

技术编号：27281456 阅读：21 留言：0更新日期：2021-02-06 11:48

本发明专利技术实施例提供一种中文纠错模型的训练方法、中文纠错方法及装置，所述训练方法包括：基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；基于第一训练数据集和第二训练数据集对第一预训练模型进行精调，得到中文纠错模型；第一训练数据集包括多个样本四元组，样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的；第二训练数据集包括多个相似样本四元组，相似样本四元组是基于任一中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。本发明专利技术实施例提供的中文纠错模型的训练方法、中文纠错方法及装置，提高了训练数据的生成效率和丰富性，使得训练出来的中文纠错模型纠错效果较好。好。好。

全部详细技术资料下载

【技术实现步骤摘要】
中文纠错模型的训练方法、中文纠错方法及装置

[0001]本专利技术涉及自然语言处理
，尤其涉及一种中文纠错模型的训练方法、中文纠错方法及装置。

技术介绍

[0002]中文纠错是自然语言处理中一项非常重要的课题，纠错模型将文本潜在的语法错误自动找出并给予纠正，并保持纠正后的语义不变，纠错模型不但可以提升文本的质量，还可以使程序中的下游模块更加易于处理文本。
[0003]然而，纠错模型的构建面临着一些挑战，当前纠错模型的构建往往参考了机器翻译的训练方法。机器翻译模型的输入是一种语言的原文句子，输出则是另一种语言且语义保持的译文句子；类似地，语法纠错模型的输入是语法可能错误的句子，输出则是语法正确且语义保持不变的句子。不仅如此，机器翻译模型往往需要大量的双语平行语料，语法纠错模型的构建中也需要许多包括语法可能错误的句子以及语法正确的句子的平行语料对作为训练样本，而获取这些数据往往需要高昂的人工打标签的成本费用。因此，如何在平行语料较为稀缺的情况下训练出效果较好的模型，是智能纠错的第一个挑战。
[0004]此外，现有技术中对于智能纠错的方法主要集中在英文语言的研究方向上，英文的语法错误主要包括介词，定冠词，单词拼写错误，动词(例如，时态、第三人称加s等)，名词单复数，英文符号等方面。而英文和中文的语法错误有着很大的差别，中文语法错误主要集中在错别字的误用，因为拼音输入法和五笔输入法会分别导致相同或相似音(例如，联连链等)和偏旁部首字形相似(例如，桅姽脆诡跪等)的字和词...

【技术保护点】

【技术特征摘要】
1.一种中文纠错模型的训练方法，其特征在于，包括：基于第一训练数据集对初始模型进行预训练，得到第一预训练模型；基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调，得到中文纠错模型；所述第一训练数据集包括多个样本四元组，所述样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的；所述第二训练数据集包括多个相似样本四元组，所述相似样本四元组是基于任一中文语料中的相似字对所述任一中文语料中与其对应的字进行替换得到的。2.根据权利要求1所述的中文纠错模型的训练方法，其特征在于，所述基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调，得到中文纠错模型，包括：基于所述第二训练数据集对所述第一预训练模型进行精调，得到第二预训练模型；基于第三训练数据集对所述第二预训练模型进行精调，得到所述中文纠错模型，所述第三训练数据集是基于所述第一训练数据和所述第二训练数据确定的。3.根据权利要求1或2所述的中文纠错模型的训练方法，其特征在于，所述第一训练数据集包括错误样本四元组，所述错误样本四元组为包括错误拼音序列、错误笔画序列和错误图片序列中至少一种的四元组；所述错误样本四元组是通过对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑得到的。4.根据权利要求3所述的中文纠错模型的训练方法，其特征在于，所述对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑，包括：对所述任一中文语料对应的拼音序列或笔画序列采用删除、替换和调序中的至少一项进行编辑；和/或，对所述任一中文语料对应的图片序列中的若干个图片的像素值随机进行更改和/或替换。5.根据权利要求1或2任一项所述的中文纠错模型的训练方法，其特征在于，所述中文纠错模型包括三个编码器和一个解码器，所述三个编码器分别...

【专利技术属性】
技术研发人员：张睦，
申请(专利权)人：语联网武汉信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人