语法错误识别模型的训练及识别方法、装置、介质及程序制造方法及图纸

技术编号:33700154 阅读:25 留言:0更新日期:2022-06-06 08:07
本发明专利技术提供一种语法错误识别模型的训练及识别方法、装置、介质及程序。方法包括:使用第一样本语句、第一样本语句包括的词语的词性、第一样本语句的依存句法分析结果和语法错误,对初始语法错误识别模型进行训练,得到训练好的初始语法错误识别模型;使用第二样本语句,以及,第二样本语句基于文字序列标注的语法错误,对目标语法错误识别模型进行训练,得到训练好的目标语法错误识别模型;其中,目标语法错误识别模型包括训练好的初始语法错误识别模型;初始语法错误识别模型可以输出待识别语句中词语的词性、依存句法分析结果,以及,语法错误;目标语法错误识别模型可以识别待识别语句中语法错误的位置。本发明专利技术可以提高语法错误识别效率。错误识别效率。错误识别效率。

【技术实现步骤摘要】
语法错误识别模型的训练及识别方法、装置、介质及程序


[0001]本专利技术涉及自然语言处理技术,尤其涉及一种语法错误识别模型的训练及识别方法、装置、介质及程序。

技术介绍

[0002]人们在写作过程中,很难达到不出现任何语法错误。语法错误可能会导致语句产生歧义,以及,读者难以理解写作内容等问题。当写作内容较多时,通过人工来查找写作内容中的语法错误的效率较低,且准确度较差。因此,人们提出了自动化语法错误检测的方法。
[0003]目前,现有的自动化语法错误识别的方法主要为模板识别法。在使用模板识别法识别语句中的语法错误时,需要针对不同种类的语法错误,设置不同的识别模板。即,一种识别模板只能识别出一种类型的语法错误。例如,用于识别语句中宾语缺失的模板,只能识别出一句话中的宾语是否缺失。若该句话中的宾语缺失,通过模板识别,可以确定该句话存在语法错误。然而,若该句话不缺失宾语,但是存在其他类型的语法错误(例如语句成分顺序不当等),通过上述模板,则不能识别出该句话存在语句成分顺序不当的问语法错误。若要识别语句中成分顺序不当的语法错误,需要另外设置新的模板。
[0004]因此,通过模板识别法识别语句中的语法错误的效率较低。

技术实现思路

[0005]本专利技术提供一种语法错误识别模型的训练及识别方法、装置、介质及程序,以达到提高语法错误识别效率的技术效果。
[0006]第一方面,本专利技术提供一种语法错误识别模型的训练方法,所述方法包括:
[0007]获取第一样本数据集和第二样本数据集;其中,所述第一样本数据集包括:至少一组第一样本数据,每组所述第一样本数据包括:第一样本语句、所述第一样本语句包括的词语的词性、所述第一样本语句的依存句法分析结果和语法错误;所述第二样本数据集包括:至少一组第二样本数据,所述第二样本数据包括:第二样本语句,以及,所述第二样本语句基于文字序列标注的语法错误;
[0008]使用所述第一样本数据集对初始语法错误识别模型进行训练,得到训练好的初始语法错误识别模型;其中,所述初始语法错误识别模型用于基于输入的待识别语句,输出待识别语句包括的词语的词性、待识别语句的依存句法分析结果、待识别语句的语法错误;
[0009]使用所述第二样本数据集对目标语法错误识别模型进行训练,得到训练好的目标语法错误识别模型;其中,所述目标语法错误识别模型包括训练好的初始语法错误识别模型;所述目标语法错误识别模型用于基于输入的待识别语句,识别待识别语句基于文字序列标注的语法错误。
[0010]可选的,所述获取所述第一样本数据集,包括:
[0011]从数据源中获取初始样本语句集,所述初始样本语句集包括多个初始样本语句;
[0012]对所述初始样本语句集进行数据清洗,得到清洗后的初始样本语句集;
[0013]获取各所述初始样本语句包括的词语的词性、各所述初始样本语句的依存句法分析结果;
[0014]将各所述初始样本语句修改为存在语法错误的所述第一样本语句,并获取各所述第一样本语句的语法错误;
[0015]基于所述各所述初始样本语句包括的词语的词性、各所述初始样本语句的依存句法分析结果、各所述第一样本语句,以及,各所述第一样本语句的语法错误,构建所述第一样本数据集。
[0016]可选的,所述方法还包括:
[0017]获取各所述初始样本语句的命名实体;
[0018]所述将各所述初始样本语句修改为存在语法错误的所述第一样本语句,并获取各所述第一样本语句的语法错误,包括:
[0019]基于预设的约束条件,将各所述初始样本语句修改为含有至少一种语法错误的所述第一样本语句;
[0020]所述预设的约束条件包括下述至少一项:
[0021]不修改所述初始样本语句中的命名实体;所述第一样本语句中的语法错误数量小于或等于第一预设阈值;不修改所述初始样本语句中的依存关系的距离大于或等于第二预设阈值的词语;每种所述语法错误在所述第一样本数据集中的数量小于或等于第三预设阈值。
[0022]可选的,所述对所述初始样本语句集进行数据清洗,包括:
[0023]删除所述初始样本语句集中语句长度大于第四预设阈值,或者,小于第五预设阈值的初始样本语句;和/或,
[0024]删除所述初始样本语句集中特殊字符的数目大于或等于第六预设阈值的初始样本语句;和/或,
[0025]将所述初始样本语句集中初始样本语句中的特殊字符删除;和/或,
[0026]将所述初始样本语句集中初始样本语句中除第一类型的字体之外的字体修改为第一类型的字体;和/或,
[0027]将所述初始样本语句集中初始样本语句中除第二类型的符号之外的符号修改为第二类型的符号。
[0028]第二方面,本专利技术提供一种语法错误识别方法,所述方法包括:
[0029]接收待识别的语句;
[0030]将所述语句输入至训练好的目标语法错误识别模型,得到所述语句基于文字序列标注的语法错误;其中,所述目标语法错误识别模型为采用如第一方面任一项所述的方法训练得到的语法错误识别模型;
[0031]输出所述语句基于文字序列标注的语法错误。
[0032]第三方面,本专利技术提供一种语法错误识别模型的训练装置,所述装置包括:
[0033]获取模块,用于获取第一样本数据集和第二样本数据集;其中,所述第一样本数据集包括:至少一组第一样本数据,每组所述第一样本数据包括:第一样本语句、所述第一样本语句包括的词语的词性、所述第一样本语句的依存句法分析结果和语法错误;所述第二
样本数据集包括:至少一组第二样本数据,所述第二样本数据包括:第二样本语句,以及,所述第二样本语句基于文字序列标注的语法错误;
[0034]第一训练模块,用于使用所述第一样本数据集对初始语法错误识别模型进行训练,得到训练好的初始语法错误识别模型;其中,所述初始语法错误识别模型用于基于输入的待识别语句,输出待识别语句包括的词语的词性、待识别语句的依存句法分析结果、待识别语句的语法错误;
[0035]第二训练模块,用于使用所述第二样本数据集对目标语法错误识别模型进行训练,得到训练好的目标语法错误识别模型;其中,所述目标语法错误识别模型包括训练好的初始语法错误识别模型;所述目标语法错误识别模型用于基于输入的待识别语句,识别待识别语句基于文字序列标注的语法错误。
[0036]第四方面,本专利技术提供一种语法错误识别装置,所述装置包括:
[0037]接收模块,用于接收待识别的语句;
[0038]获取模块,用于将所述语句输入至训练好的目标语法错误识别模型,得到所述语句基于文字序列标注的语法错误;其中,所述目标语法错误识别模型为采用如第一方面任一项所述的方法训练得到的语法错误识别模型;
[0039]输出模块,用于输出所述语句基于文字序列标注的语法错误。
[0040]第五方面,本专利技术提供一种电子设备,包括:至少一个处理器、存储器;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语法错误识别模型的训练方法,其特征在于,所述方法包括:获取第一样本数据集和第二样本数据集;其中,所述第一样本数据集包括:至少一组第一样本数据,每组所述第一样本数据包括:第一样本语句、所述第一样本语句包括的词语的词性、所述第一样本语句的依存句法分析结果和语法错误;所述第二样本数据集包括:至少一组第二样本数据,所述第二样本数据包括:第二样本语句,以及,所述第二样本语句基于文字序列标注的语法错误;使用所述第一样本数据集对初始语法错误识别模型进行训练,得到训练好的初始语法错误识别模型;其中,所述初始语法错误识别模型用于基于输入的待识别语句,输出待识别语句包括的词语的词性、待识别语句的依存句法分析结果、待识别语句的语法错误;使用所述第二样本数据集对目标语法错误识别模型进行训练,得到训练好的目标语法错误识别模型;其中,所述目标语法错误识别模型包括训练好的初始语法错误识别模型;所述目标语法错误识别模型用于基于输入的待识别语句,识别待识别语句基于文字序列标注的语法错误。2.根据权利要求1所述的方法,其特征在于,所述获取所述第一样本数据集,包括:从数据源中获取初始样本语句集,所述初始样本语句集包括多个初始样本语句;对所述初始样本语句集进行数据清洗,得到清洗后的初始样本语句集;获取各所述初始样本语句包括的词语的词性、各所述初始样本语句的依存句法分析结果;将各所述初始样本语句修改为存在语法错误的所述第一样本语句,并获取各所述第一样本语句的语法错误;基于所述各所述初始样本语句包括的词语的词性、各所述初始样本语句的依存句法分析结果、各所述第一样本语句,以及,各所述第一样本语句的语法错误,构建所述第一样本数据集。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取各所述初始样本语句的命名实体;所述将各所述初始样本语句修改为存在语法错误的所述第一样本语句,并获取各所述第一样本语句的语法错误,包括:基于预设的约束条件,将各所述初始样本语句修改为含有至少一种语法错误的所述第一样本语句;所述预设的约束条件包括下述至少一项:不修改所述初始样本语句中的命名实体;所述第一样本语句中的语法错误数量小于或等于第一预设阈值;不修改所述初始样本语句中的依存关系的距离大于或等于第二预设阈值的词语;每种所述语法错误在所述第一样本数据集中的数量小于或等于第三预设阈值。4.根据权利要求2-3任一项所述的方法,其特征在于,所述对所述初始样本语句集进行数据清洗,包括:删除所述初始样本语句集中语句长度大于第四预设阈值,或者,小于第五预设阈值的初始样本语句;和/或,删除所述初始样本语句集中特殊字符的数目大于或等于第六预设阈值的初始样本语句;和/或,
将所述初...

【专利技术属性】
技术研发人员:陈志优程静谢海华
申请(专利权)人:北大方正信息产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1