中文纠错模型的训练方法、中文纠错方法及装置制造方法及图纸

技术编号:27281456 阅读:21 留言:0更新日期:2021-02-06 11:48
本发明专利技术实施例提供一种中文纠错模型的训练方法、中文纠错方法及装置,所述训练方法包括:基于第一训练数据集对初始模型进行预训练,得到第一预训练模型;基于第一训练数据集和第二训练数据集对第一预训练模型进行精调,得到中文纠错模型;第一训练数据集包括多个样本四元组,样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;第二训练数据集包括多个相似样本四元组,相似样本四元组是基于任一中文语料中的相似字对该中文语料中与其对应的字进行替换得到的。本发明专利技术实施例提供的中文纠错模型的训练方法、中文纠错方法及装置,提高了训练数据的生成效率和丰富性,使得训练出来的中文纠错模型纠错效果较好。好。好。

【技术实现步骤摘要】
中文纠错模型的训练方法、中文纠错方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种中文纠错模型 的训练方法、中文纠错方法及装置。

技术介绍

[0002]中文纠错是自然语言处理中一项非常重要的课题,纠错模型将文 本潜在的语法错误自动找出并给予纠正,并保持纠正后的语义不变, 纠错模型不但可以提升文本的质量,还可以使程序中的下游模块更加 易于处理文本。
[0003]然而,纠错模型的构建面临着一些挑战,当前纠错模型的构建往 往参考了机器翻译的训练方法。机器翻译模型的输入是一种语言的原 文句子,输出则是另一种语言且语义保持的译文句子;类似地,语法 纠错模型的输入是语法可能错误的句子,输出则是语法正确且语义保 持不变的句子。不仅如此,机器翻译模型往往需要大量的双语平行语 料,语法纠错模型的构建中也需要许多包括语法可能错误的句子以及 语法正确的句子的平行语料对作为训练样本,而获取这些数据往往需 要高昂的人工打标签的成本费用。因此,如何在平行语料较为稀缺的 情况下训练出效果较好的模型,是智能纠错的第一个挑战。
[0004]此外,现有技术中对于智能纠错的方法主要集中在英文语言的研 究方向上,英文的语法错误主要包括介词,定冠词,单词拼写错误, 动词(例如,时态、第三人称加s等),名词单复数,英文符号等方 面。而英文和中文的语法错误有着很大的差别,中文语法错误主要集 中在错别字的误用,因为拼音输入法和五笔输入法会分别导致相同或 相似音(例如,联连链等)和偏旁部首字形相似(例如,桅姽脆诡跪 等)的字和词的使用错误。因此,如何根据中文语言的特殊性构建纠 错模型是第二个需要解决的问题。

技术实现思路

[0005]本专利技术实施例提供一种中文纠错模型的训练方法、中文纠错方法 及装置,用以解决现有技术中人为标记成本高、纠错模型对中文的适 应性较差的缺陷。
[0006]本专利技术实施例提供一种中文纠错模型的训练方法,包括:
[0007]基于第一训练数据集对初始模型进行预训练,得到第一预训练模 型;
[0008]基于所述第一训练数据集和第二训练数据集对所述第一预训练 模型进行精调,得到中文纠错模型;
[0009]所述第一训练数据集包括多个样本四元组,所述样本四元组是由 中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;所述 第二训练数据集包括多个相似样本四元组,所述相似样本四元组是基 于任一中文语料中的相似字对所述任一中文语料中与其对应的字进 行替换得到的。
[0010]根据本专利技术一个实施例的中文纠错模型的训练方法,所述基于所 述第一训练数据集和第二训练数据集对所述第一预训练模型进行精 调,得到中文纠错模型,包括:
[0011]基于所述第二训练数据集对所述第一预训练模型进行精调,得到 第二预训练模
型;
[0012]基于第三训练数据集对所述第二预训练模型进行精调,得到所述 中文纠错模型,所述第三训练数据集是基于所述第一训练数据和所述 第二训练数据确定的。
[0013]根据本专利技术一个实施例的中文纠错模型的训练方法,所述第一训 练数据集包括错误样本四元组,所述错误样本四元组为包括错误拼音 序列、错误笔画序列和错误图片序列中至少一种的四元组;所述错误 样本四元组是通过对任一中文语料对应的拼音序列、笔画序列和图片 序列中的至少一种进行编辑得到的。
[0014]根据本专利技术一个实施例的中文纠错模型的训练方法,所述对任一 中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编 辑,包括:
[0015]对所述任一中文语料对应的拼音序列或笔画序列采用删除、替换 和调序中的至少一项进行编辑;
[0016]和/或,
[0017]对所述任一中文语料对应的图片序列中的若干个图片的像素值 随机进行更改和/或替换。
[0018]根据本专利技术一个实施例的中文纠错模型的训练方法,所述中文纠 错模型包括三个编码器和一个解码器,所述三个编码器分别用于对拼 音序列的拼音特征向量、笔画序列的笔画特征向量和图片序列的图片 特征向量进行编码,所述解码器用于对拼音特征编码、笔画特征编码 和图片特征编码进行解码,并生成中文纠正结果。
[0019]本专利技术实施例提供一种中文纠错方法,包括:
[0020]确定待纠错的文本;
[0021]将所述文本输入至中文纠错模型,得到所述中文纠错模型输出的 所述文本的中文纠正结果;
[0022]其中,所述中文纠错模型是基于上述任一实施例提供的训练方法 训练得到的。
[0023]本专利技术实施例提供还一种中文纠错模型的训练装置,包括:
[0024]预训练单元,用于基于第一训练数据集对初始模型进行预训练, 得到第一预训练模型;
[0025]精调单元,用于基于所述第一训练数据集和第二训练数据集对所 述第一预训练模型进行精调,得到中文纠错模型;
[0026]所述第一训练数据集包括多个样本四元组,所述样本四元组是由 中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;所述 第二训练数据集包括多个相似样本四元组,所述相似样本四元组是基 于任一中文语料中的相似字对所述任一中文语料中与其对应的字进 行替换得到的。
[0027]本专利技术实施例提供还一种中文纠错装置,包括:
[0028]文本确定单元,用于确定待纠错的文本;
[0029]中文纠错单元,用于将所述文本输入至中文纠错模型,得到所述 中文纠错模型输出的所述文本的中文纠正结果;
[0030]其中,所述中文纠错模型是基于上述任一实施例提供的训练方法 训练得到的。
[0031]本专利技术实施例还提供一种电子设备,包括存储器、处理器及存储 在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述 程序时实现如上述任一种所述中文
纠错模型的训练方法或中文纠错 方法的步骤。
[0032]本专利技术实施例还提供一种非暂态计算机可读存储介质,其上存储 有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述 中文纠错模型的训练方法或中文纠错方法的步骤。
[0033]本专利技术实施例提供的一种中文纠错模型的训练方法、中文纠错方 法及装置,基于包括多个样本四元组的第一训练数据集对初始模型进 行预训练,得到第一预训练模型,并结合包括多个相似样本四元组的 第二训练数据集对第一预训练模型进行精调,得到中文纠错模型,节 省了人工标记带来的成本,提高了训练数据的生成效率,大量扩充了 训练数据,提高了训练数据的丰富性,使得训练出来的中文纠错模型 具有较好的纠错效果,而且有效地解决了中文的同音字、音近字和形 近字的纠错。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显 而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附 图获得其他的附图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文纠错模型的训练方法,其特征在于,包括:基于第一训练数据集对初始模型进行预训练,得到第一预训练模型;基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调,得到中文纠错模型;所述第一训练数据集包括多个样本四元组,所述样本四元组是由中文语料、拼音序列、笔画序列以及图片序列四个元素组成的;所述第二训练数据集包括多个相似样本四元组,所述相似样本四元组是基于任一中文语料中的相似字对所述任一中文语料中与其对应的字进行替换得到的。2.根据权利要求1所述的中文纠错模型的训练方法,其特征在于,所述基于所述第一训练数据集和第二训练数据集对所述第一预训练模型进行精调,得到中文纠错模型,包括:基于所述第二训练数据集对所述第一预训练模型进行精调,得到第二预训练模型;基于第三训练数据集对所述第二预训练模型进行精调,得到所述中文纠错模型,所述第三训练数据集是基于所述第一训练数据和所述第二训练数据确定的。3.根据权利要求1或2所述的中文纠错模型的训练方法,其特征在于,所述第一训练数据集包括错误样本四元组,所述错误样本四元组为包括错误拼音序列、错误笔画序列和错误图片序列中至少一种的四元组;所述错误样本四元组是通过对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑得到的。4.根据权利要求3所述的中文纠错模型的训练方法,其特征在于,所述对任一中文语料对应的拼音序列、笔画序列和图片序列中的至少一种进行编辑,包括:对所述任一中文语料对应的拼音序列或笔画序列采用删除、替换和调序中的至少一项进行编辑;和/或,对所述任一中文语料对应的图片序列中的若干个图片的像素值随机进行更改和/或替换。5.根据权利要求1或2任一项所述的中文纠错模型的训练方法,其特征在于,所述中文纠错模型包括三个编码器和一个解码器,所述三个编码器分别...

【专利技术属性】
技术研发人员:张睦
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1