【技术实现步骤摘要】
语法纠错方法及训练方法、装置、电子设备、存储介质
[0001]本说明书实施例涉及计算机自然语言处理
,尤其涉及一种语法纠错方法及训练方法、装置、电子设备、存储介质。
技术介绍
[0002]随着深度学习技术的发展,文本语法纠错技术得到快速发展。目前,常使用语法纠错模型对用户的输入文本(邮件、作文、论文等)进行语法检查,并将其中的语法错误部分进行纠正。
[0003]然而,现有的文本语法纠错模型只能在文本句子中一个词发生语法错误时,对其进行纠正,当文本句子中一个语法错误包含多个相邻词时,得到的语法纠错结果的准确率较低,达不到纠错要求。
技术实现思路
[0004]有鉴于此,本说明书实施例提供一种语法纠错方法及训练方法、装置、电子设备、存储介质,能够提高语法纠错的准确率。
[0005]首先,本说明书实施例提供一种语法纠错方法,包括:
[0006]分别获取包含标注信息的第一训练语料集和第二单语语料集,其中,所述标注信息用于表征所述第一训练语料集中各训练语料的语法错误对,所述语法错误对包括错误形式的源片段和与所述错误形式的源片段对应的正确形式的目标片段;
[0007]提取所述第一训练语料集中各训练语料的语法错误对,构建语法错误对参考集;
[0008]基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集;
[0009]将所述伪错误语料集和所述第一训练语料集输入至预设的神经网络模型,对所述预设的神经网络模型进行训练 ...
【技术保护点】
【技术特征摘要】
1.一种语法纠错的训练方法,其特征在于,包括:分别获取包含标注信息的第一训练语料集和第二单语语料集,其中,所述标注信息用于表征所述第一训练语料集中各训练语料的语法错误对,所述语法错误对包括错误形式的源片段和与所述错误形式的源片段对应的正确形式的目标片段;提取所述第一训练语料集中各训练语料的语法错误对,构建语法错误对参考集;基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集;将所述伪错误语料集和所述第一训练语料集输入至预设的神经网络模型,对所述预设的神经网络模型进行训练,得到语法纠错模型。2.根据权利要求1所述的训练方法,其特征在于,所述提取所述第一训练语料集中各训练语料的语法错误对,构建语法错误对参考集,包括:提取所述第一训练语料集中各训练语料对应的语法错误对,并统计所述语法错误对中各语法错误对出现的频次;按照所述各语法错误对出现的频次,对所述各语法错误对进行权重赋值,得到所述语法错误对参考集。3.根据权利要求2所述的训练方法,其特征在于,所述基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集,包括:将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表;以第一预设概率从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行语法错误对替换处理,得到与所述第二单语语料集中各语料对应的错误语料;以第二预设概率从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行语法错误对插入处理,得到与所述第二单语语料集中各语料对应的错误语料;将所述第二单语语料集中各语料和与其相对应的错误语料进行组合,得到所述伪错误语料集。4.根据权利要求3所述的训练方法,其特征在于,所述第一预设概率和所述第二预设概率的和为1,且所述第一预设概率大于所述第二预设概率。5.根据权利要求2所述的训练方法,其特征在于,所述基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集,包括:将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表;从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行语法错误对替换处理,得到与所述第二单语语料集中各语料对应的错误语料;将所述第二单语语料集中各语料和与其相对应的错误语料进行组合,得到所述伪错误语料集。6.根据权利要求2所述的训练方法,其特征在于,所述基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集,
包括:将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表;从所述语法错误对列表选取语法错误对,并对所述第二单语语料集进行语法错误对插入处理,得到与所述第二单语语料集中各语料对应的错误语料;将所述第二单语语料集中各语料和与其相对应的错误语料进行组合,得到所述伪错误语料集。7.根据权利要求2所述的训练方法,其特征在于,所述基于所述语法错误对参考集,对所述第二单语语料集进行腐化处理,得到与所述第二单语语料集相对应的伪错误语料集,包括:将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表;从所述语法错误对列表选取语法错误对,并对所述第二单语语料集中的第一部分训练语料进行语法错误对替换处理,得到与所述第二单语语料集中的第一部分训练语料对应的第一错误语料,以及对所述第二单语语料集中的第二部分训练语料进行语法错误对插入处理,得到与所述第二单语语料集中的第二部分训练语料对应的第二错误语料;将所述第二单语语料集中的第一部分训练语料与所述第一错误语料进行组合,以及将所述第二单语语料集中的第二部分训练语料与所述第二错误语料进行组合,得到所述伪错误语料集。8.根据权利要求3至7任一项所述的训练方法,其特征在于,所述将所述第二单语语料集中各语料与所述语法错误对参考集进行检索操作,得到语法错误对列表,包括:对所述第二单语语料集中的各语料进行分词处理,得到所述第二单语语料集中各语料对应的词单元;将所述第二单语语料集中各语料对应的词单元进行组合,得到所述第二单语语料集中各语料对应的子区间;将所述第二单语语料集中各语料对应的子区间与所述语法错误对参考集进行匹配操作,得到所述第二单语语料集中各语料对应的第一语法错误对列表,并作为所述语法错误对列表。9.根据权利要求8所述的训练方法,其特征在于,所述对所述第二单语语料集进行语法错误对替换处理,得到与所述第二单语语料集中各语料对应的错误语料,包括:获取所述第一语法错误对列表中各语法错误对的权重;按照所述各语法错误对权重值,从所述第一语法错误对列表中随机选取任意一个语法错误对,并将所述第二单语语料集对应语料的相应部分替换为所述任意一个语法错误对中错误形式的源片段,得到与所述第二单语语料集中各语料对应的错误语料。10...
【专利技术属性】
技术研发人员:余勇宏,
申请(专利权)人:上海流利说信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。