当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于指令调优增强的无监督语法纠错方法技术

技术编号:41920001 阅读:24 留言:0更新日期:2024-07-05 14:20
本发明专利技术提供一种基于指令调优增强的无监督语法纠错方法,属于自然语言处理技术领域,具体为:基于开源数据集收集源数据,根据源数据生成包括多个正误语句样本对的纠正数据集;对其中的正确语句及错误语句分别进行标注,获得标注指令和标注提示;构建序列标注模型,将纠正数据集中的错误语句作为输入,将标注指令作为输出,训练序列标注模型并获得预测提示;分别对标注提示及预测提示进行掩码,将经过掩码后的标注提示及预测提示作为输入,训练获得语法纠错模型;通过语法纠错模型对待纠错语句进行纠错,获得纠错结果,本发明专利技术提升了模型的语义理解及语法错误定位能力,从而在很大程度上提高了无监督设置下语法纠错方法任务的准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种基于指令调优增强的无监督语法纠错方法


技术介绍

1、语法错误纠正任务是自动检测和纠正给定文本中包含的语法错误,如时态、介词和错别字词,可应用于社交媒体平台,以关注参与者的内容是否有误,并帮助避免错误信息的扩散。语法错误纠正任务的输入是一个可能包含语法错误的语句,其输出是一个纠正后没有语法错误的句子。

2、近年以来,语法错误纠正通常被视为机器翻译问题,它将错误的句子视为源语言,将纠正后的句子视为目标语言,这使得神经机器翻译的序列到序列架构能够被用于语法错误纠正任务,目前,基于transformer的序列对序列架构是语法错误纠正模型的主流选择。

3、然而,基于transformer的序列到序列的语法错误纠正方法仍然存在一些问题。首先,获取人工标注的高质量错误-正确句子对需要耗费大量的人力和物力,时间成本和人力成本较高,获取困难。而序列到序列模型需要大量的数据。现有的方法基本上都是在已有的少量人工标注的高质量数据集上进行语法纠错任务,而忽略了在无监督数据集上对于语法纠错任务的研究。其次复制现象在自本文档来自技高网...

【技术保护点】

1.一种基于指令调优增强的无监督语法纠错方法,其特征在于,包括:

2.根据权利要求1所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤S1进一步包括:

3.根据权利要求2所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤S13中的所述构造规则包括对语句中单词的插入、修改、删除及位置交换。

4.根据权利要求1所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤S2中,对正误语句样本对中的正确语句及错误语句进行标注通过莱文斯坦工具实现。

5.根据权利要求1所述的一种基于指令调优增强的无监督语法纠错方法,其...

【技术特征摘要】

1.一种基于指令调优增强的无监督语法纠错方法,其特征在于,包括:

2.根据权利要求1所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤s1进一步包括:

3.根据权利要求2所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤s13中的所述构造规则包括对语句中单词的插入、修改、删除及位置交换。

4.根据权利要求1所述的一种基于指令调优增强的无监督语法纠错方法,其特征在于,步骤s2中,对正误语句样本对中...

【专利技术属性】
技术研发人员:陈晨邓嘉仪韩宁郭天勇侯春燕袁晓洁
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1