【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种基于指令调优增强的无监督语法纠错方法。
技术介绍
1、语法错误纠正任务是自动检测和纠正给定文本中包含的语法错误,如时态、介词和错别字词,可应用于社交媒体平台,以关注参与者的内容是否有误,并帮助避免错误信息的扩散。语法错误纠正任务的输入是一个可能包含语法错误的语句,其输出是一个纠正后没有语法错误的句子。
2、近年以来,语法错误纠正通常被视为机器翻译问题,它将错误的句子视为源语言,将纠正后的句子视为目标语言,这使得神经机器翻译的序列到序列架构能够被用于语法错误纠正任务,目前,基于transformer的序列对序列架构是语法错误纠正模型的主流选择。
3、然而,基于transformer的序列到序列的语法错误纠正方法仍然存在一些问题。首先,获取人工标注的高质量错误-正确句子对需要耗费大量的人力和物力,时间成本和人力成本较高,获取困难。而序列到序列模型需要大量的数据。现有的方法基本上都是在已有的少量人工标注的高质量数据集上进行语法纠错任务,而忽略了在无监督数据集上对于语法纠错任务的研
...【技术保护点】
1.一种基于指令调优增强的无监督语法纠错方法,其特征在于,包括:
2.根据权利要求1所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤S1进一步包括:
3.根据权利要求2所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤S13中的所述构造规则包括对语句中单词的插入、修改、删除及位置交换。
4.根据权利要求1所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤S2中,对正误语句样本对中的正确语句及错误语句进行标注通过莱文斯坦工具实现。
5.根据权利要求1所述的一种基于指令调优增强的无
...【技术特征摘要】
1.一种基于指令调优增强的无监督语法纠错方法,其特征在于,包括:
2.根据权利要求1所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤s1进一步包括:
3.根据权利要求2所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤s13中的所述构造规则包括对语句中单词的插入、修改、删除及位置交换。
4.根据权利要求1所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤s2中,对正误语句样本对中...
【专利技术属性】
技术研发人员:陈晨,邓嘉仪,韩宁,郭天勇,侯春燕,袁晓洁,
申请(专利权)人:南开大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。