语法纠错方法及训练方法、装置、电子设备、存储介质制造方法及图纸

技术编号:32829139 阅读:14 留言:0更新日期:2022-03-26 20:37
语法纠错方法及训练方法、装置、电子设备、存储介质,其中,训练方法包括:分别获取包含标注信息的第一训练语料集和第二单语语料集,其中,标注信息用于表征所述第一训练语料集中各训练语料的语法错误对,语法错误对包括错误形式的源片段和与错误形式的源片段对应的正确形式的目标片段;提取所述第一训练语料集中各训练语料的语法错误对,构建语法错误对参考集;基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集;将所述伪错误语料集和所述第一训练语料集输入至预设的神经网络模型,对所述预设的神经网络模型进行训练,得到语法纠错模型。采用上述方案,能够提高语法纠错的准确率。法纠错的准确率。法纠错的准确率。

【技术实现步骤摘要】
语法纠错方法及训练方法、装置、电子设备、存储介质


[0001]本说明书实施例涉及计算机自然语言处理
,尤其涉及一种语法纠错方法及训练方法、装置、电子设备、存储介质。

技术介绍

[0002]随着深度学习技术的发展,文本语法纠错技术得到快速发展。目前,常使用语法纠错模型对用户的输入文本(邮件、作文、论文等)进行语法检查,并将其中的语法错误部分进行纠正。
[0003]然而,现有的文本语法纠错模型只能在文本句子中一个词发生语法错误时,对其进行纠正,当文本句子中一个语法错误包含多个相邻词时,得到的语法纠错结果的准确率较低,达不到纠错要求。

技术实现思路

[0004]有鉴于此,本说明书实施例提供一种语法纠错方法及训练方法、装置、电子设备、存储介质,能够提高语法纠错的准确率。
[0005]首先,本说明书实施例提供一种语法纠错方法,包括:
[0006]分别获取包含标注信息的第一训练语料集和第二单语语料集,其中,所述标注信息用于表征所述第一训练语料集中各训练语料的语法错误对,所述语法错误对包括错误形式的源片段和与所述错误形式的源片段对应的正确形式的目标片段;
[0007]提取所述第一训练语料集中各训练语料的语法错误对,构建语法错误对参考集;
[0008]基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集;
[0009]将所述伪错误语料集和所述第一训练语料集输入至预设的神经网络模型,对所述预设的神经网络模型进行训练,得到语法纠错模型。
[0010]本说明书实施例还提供一种语法纠错方法,包括:
[0011]获取待纠错语料;
[0012]将所述待纠错语料输入至语法纠错模型,生成语法纠错结果并输出;
[0013]其中,所述语法纠错模型是通过依次将伪错误语料集和第一训练语料集输入至预设的神经网络模型,对所述预设的神经网络模型进行训练得到的;所述伪错误语料集是基于语法错误对参考集,对第二单语语料集进行腐化处理得到的;所述语法错误对参考集是通过对包含标注信息的第一训练语料集提取语法错误对得到的。
[0014]相应地,本说明书实施例提供了一种语法纠错训练装置,包括:
[0015]训练语料获取模块,适于获取包含标注信息的第一训练语料集和第二单语语料集,其中,所述标注信息用于表征所述第一训练语料集中各训练语料的语法错误对,所述语法错误对包括错误形式的源片段和与所述错误形式的源片段对应的正确形式的目标片段;
[0016]语法错误对参考集构建模块,适于提取所述第一训练语料集中各训练语料的语法
错误对,构建语法错误对参考集;
[0017]处理模块,适于基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集;
[0018]训练模块,适于将所述伪错误语料集和所述第一训练语料集输入至预设的神经网络模型,对所述预设的神经网络模型进行训练,得到语法纠错模型。
[0019]本说明书实施例还提供了一种语法纠错装置,包括:
[0020]语料获取模块,适于获取待纠错语料;
[0021]纠错模块,适于将所述待纠错语料输入至语法纠错模型,生成语法纠错结果并输出;
[0022]其中,所述语法纠错模型是通过依次将伪错误语料集和第一训练语料集输入至预设的神经网络模型,对所述预设的神经网络模型进行训练得到的;所述伪错误语料集是基于语法错误对参考集,对第二单语语料集进行腐化处理得到的;所述语法错误对参考集是通过对包含标注信息的第一训练语料集提取语法错误对得到的。
[0023]本说明书实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器适于存储一条或多条计算机指令,所述处理器运行所述计算机指令时,执行前述任一实施例所述的训练方法的步骤;或者执行前述实施例所述的语法纠错方法的步骤。
[0024]本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行前述任一实施例所述的训练方法的步骤;或者执行前述实施例所述的语法纠错方法的步骤。
[0025]采用本说明书实施例中的语法纠错的训练方法,以语法错误对参考集作为基准,并对第二单语语料集进行腐化处理,能够得到具有一个或者多个相邻词的伪错误语料集,且能够增加得到的伪错误语料集的数据量,在采用所述伪错误语料集和所述第一训练语料集对预设的神经网络模型进行训练,得到的语法纠错模型具有更好的通用性,从而在使用所述语法纠错模型对语料进行语法纠错时,能够提高语法纠错的准确率。
[0026]进一步地,提取所述第一训练语料集中各训练语料对应的语法错误对,并统计所述语法错误对中各语法错误对出现的频次;按照所述各语法错误对出现的频次,对所述各语法错误对进行权重赋值,得到所述语法错误对参考集。通过根据各语法错误对出现的频次,对其进行权重赋值,相比于直接随机的对语法错误对进行权重赋值,得到的语法错误对的权重值更加精确。
[0027]进一步地,将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表;以第一预设概率从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行语法错误对替换处理,得到与所述第二单语语料集中各语料对应的错误语料;以第二预设概率从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行词插入处理,得到与所述第二单语语料集中各语料对应的错误语料;将所述第二单语语料集中各语料和与其相对应的错误语料进行组合,得到所述伪错误语料集。采用上述方案,通过以不同的概率从语法错误对列表选取语法错误对,并对第二单语语料集采用不同的腐化处理方式,能够扩充得到的伪错误语料集的数量,且得到的伪错误语料集能够包括多种不同类型的语法错误对,进而能够增加语法纠错模型的准确性。
附图说明
[0028]为了更清楚地说明本说明书实施例的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1示出了本说明书实施例中一种语法纠错的训练方法的流程图。
[0030]图2示出了本说明书实施例中一种得到伪错误语料的流程图。
[0031]图3示出了本说明书实施例中另一种得到伪错误语料的流程图。
[0032]图4示出了本说明书实施例中又一种得到伪错误语料的流程图。
[0033]图5示出了本说明书实施例中又一种得到伪错误语料的流程图。
[0034]图6示出了本说明书实施例中一种语法纠错模型的训练方法的流程图。
[0035]图7示出了本说明书实施例中一种语法纠错方法的流程图。
[0036]图8示出了本说明书实施例中一种语法纠错训练装置的结构示意图。
[0037]图9示出了本说明书本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语法纠错的训练方法,其特征在于,包括:分别获取包含标注信息的第一训练语料集和第二单语语料集,其中,所述标注信息用于表征所述第一训练语料集中各训练语料的语法错误对,所述语法错误对包括错误形式的源片段和与所述错误形式的源片段对应的正确形式的目标片段;提取所述第一训练语料集中各训练语料的语法错误对,构建语法错误对参考集;基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集;将所述伪错误语料集和所述第一训练语料集输入至预设的神经网络模型,对所述预设的神经网络模型进行训练,得到语法纠错模型。2.根据权利要求1所述的训练方法,其特征在于,所述提取所述第一训练语料集中各训练语料的语法错误对,构建语法错误对参考集,包括:提取所述第一训练语料集中各训练语料对应的语法错误对,并统计所述语法错误对中各语法错误对出现的频次;按照所述各语法错误对出现的频次,对所述各语法错误对进行权重赋值,得到所述语法错误对参考集。3.根据权利要求2所述的训练方法,其特征在于,所述基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集,包括:将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表;以第一预设概率从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行语法错误对替换处理,得到与所述第二单语语料集中各语料对应的错误语料;以第二预设概率从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行语法错误对插入处理,得到与所述第二单语语料集中各语料对应的错误语料;将所述第二单语语料集中各语料和与其相对应的错误语料进行组合,得到所述伪错误语料集。4.根据权利要求3所述的训练方法,其特征在于,所述第一预设概率和所述第二预设概率的和为1,且所述第一预设概率大于所述第二预设概率。5.根据权利要求2所述的训练方法,其特征在于,所述基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集,包括:将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表;从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行语法错误对替换处理,得到与所述第二单语语料集中各语料对应的错误语料;将所述第二单语语料集中各语料和与其相对应的错误语料进行组合,得到所述伪错误语料集。6.根据权利要求2所述的训练方法,其特征在于,所述基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集,
包括:将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表;从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行语法错误对插入处理,得到与所述第二单语语料集中各语料对应的错误语料;将所述第二单语语料集中各语料和与其相对应的错误语料进行组合,得到所述伪错误语料集。7.根据权利要求2所述的训练方法,其特征在于,所述基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集,包括:将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表;从所述语法错误对列表选取语法错误对,并对所述第二单语语料集中的第一部分训练语料进行语法错误对替换处理,得到与所述第二单语语料集中的第一部分训练语料对应的第一错误语料,以及对所述第二单语语料集中的第二部分训练语料进行语法错误对插入处理,得到与所述第二单语语料集中的第二部分训练语料对应的第二错误语料;将所述第二单语语料集中的第一部分训练语料与所述第一错误语料进行组合,以及将所述第二单语语料集中的第二部分训练语料与所述第二错误语料进行组合,得到所述伪错误语料集。8.根据权利要求3至7任一项所述的训练方法,其特征在于,所述将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表,包括:对所述第二单语语料集中的各语料进行分词处理,得到所述第二单语语料集中各语料对应的词单元;将所述第二单语语料集中各语料对应的词单元进行组合,得到所述第二单语语料集中各语料对应的子区间;将所述第二单语语料集中各语料对应的子区间与所述语法错误对参考集进行匹配操作,得到所述第二单语语料集中各语料对应的第一语法错误对列表,并作为所述语法错误对列表。9.根据权利要求8所述的训练方法,其特征在于,所述对所述第二单语语料集进行语法错误对替换处理,得到与所述第二单语语料集中各语料对应的错误语料,包括:获取所述第一语法错误对列表中各语法错误对的权重;按照所述各语法错误对权重值,从所述第一语法错误对列表中随机选取任意一个语法错误对,并将所述第二单语语料集对应语料的相应部分替换为所述任意一个语法错误对中错误形式的源片段,得到与所述第二单语语料集中各语料对应的错误语料。10...

【专利技术属性】
技术研发人员:余勇宏
申请(专利权)人:上海流利说信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1