一种增加拼写纠错功能的语法纠错方法技术

技术编号:25043391 阅读:24 留言:0更新日期:2020-07-29 05:33
本发明专利技术公开了一种增加拼写纠错功能的语法纠错方法,包括:获取待纠错的文本;对所述待纠错的文本中的单词进行检测和纠正拼写错误,得到候选文本集合,根据预设语言模型计算候选文本集合中每个文本的出现概率,选取前预设数目个概率的文本并构造候选文本子集合;对所述候选文本子集合进行语法纠错,得到候选结果集合,并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本。本发明专利技术公开了一种增加拼写纠错功能的语法纠错方法可有效检查和纠正待纠错文本中的拼写错误,降低因拼写错误而使语法纠错发生误判的可能性,提高语法纠错的性能;还可在输出结果中可同时体现待纠错文本中的拼写错误和语法错误,提供更好的用户体验。

【技术实现步骤摘要】
一种增加拼写纠错功能的语法纠错方法
本专利技术涉及数据挖掘与自然语言处理术领域,更具体地说,本专利技术涉及一种增加拼写纠错功能的语法纠错方法。
技术介绍
训练语法纠错模型前先对平行训练语料进行拼写纠错,提高训练语料的质量,进而提高语法纠错模型的性能。如现有技术中没有对待纠错文本进行拼写检查和纠错,当待纠错文本中出现拼写错误时会有降低语法纠错性能的风险,比如“Thisplacehasawarmmanddrysummers”,语法纠错模块可能会把“warmm”误当做名词,而不去批改“warmm”前面的冠词“a”,得到错误的结果“Thisplacehasawarmmanddrysummers”,对拼写错误和语法错误均未做出纠错。也就是说,存在如下问题:1)没有将待纠错的文本进行拼写检查和纠错,如果待纠错文本有拼写错误时会有降低语法纠错性能的风险;2)纠错结果中只能体现语法错误,无法同时体现拼写错误。因此,有必要提出一种增加拼写纠错功能的语法纠错方法,以至少部分地解决现有技术中存在的问题。
技术实现思路

技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。为至少部分地解决上述问题,本专利技术提供了一种增加拼写纠错功能的语法纠错方法,包括如下步骤:步骤一,获取待纠错的文本;步骤二,对所述待纠错的文本中的单词进行检测和纠正拼写错误,得到候选文本集合,根据预设语言模型计算候选文本集合中每个文本的出现概率,选取前预设数目个概率的文本并构造候选文本子集合;步骤三,对所述候选文本子集合中的每个文本进行语法纠错,得到候选结果集合,并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本,进行输出。优选的是,其中,所述预设语言模型为预先训练的n-gram语言模型。优选的是,其中,步骤三中还包括预设机器学习模型,根据所述预设机器学习模型对所述候选文本子集合进行语法纠错,以得到所述候选结果集合。优选的是,其中,所述预设机器学习模型为Transformer语法纠错模型。一种增加拼写纠错功能的语法纠错装置,包括:获取模块,用于获取待纠错的文本;检测纠正模块,用于对所述待纠错的文本中的单词进行检测和纠正拼写错误,并得到候选文本集合,根据预设语言模型计算候选文本集合中每个文本的出现概率,选取前三位概率的文本并构造候选文本子集合;语法纠正模块,用于对所述候选文本子集合进行语法纠错,得到候选结果集合,并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本。优选的是,其中,所述检测纠正模块包括检测模块和拼写纠正模块,所述检测模块用于对所述待纠错的文本中的单词进行检测,所述拼写纠正模块用于对所述待纠错的文本中的单词进行纠正拼写错误。优选的是,其中,所述检测纠正模块还包括预设语言模块,所述预设语言模块用于计算候选文本集合中每个文本的出现概率,选取前三位概率的文本并构造候选文本子集合。优选的是,其中,所述语法纠正模块内还包括概率模块,所述概率模块用于获取所述候选结果集合中的每个文本的后验概率。优选的是,其中,所述语法纠正模块内还包括调整模块,所述调整模块用于调整每个文本的后验概率,以提高每个文本的后验概率的准确性。本专利技术所述的增加拼写纠错功能的语法纠错方法,本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术所述的增加拼写纠错功能的语法纠错方法的流程图。图2为本专利技术所述的增加拼写纠错功能的语法纠错方法的实例流程图。图3为本专利技术所述的增加拼写纠错功能的语法纠错装置的结构示意图。图4为本专利技术所述的增加拼写纠错功能的语法纠错装置的另一结构示意图具体实施方式下面结合附图以及实施例对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。本专利技术提供了一种增加拼写纠错功能的语法纠错方法,该方法可用于书写程序、系统或装置中,且该方法对应的执行主体可以是手机、平板、计算机等各种终端或者还可以是服务器,如图1、图2所示,该方法包括步骤S101至步骤S103:在步骤S101中,获取待纠错的文本;在步骤S102中,对所述待纠错的文本中的单词进行检测和纠正拼写错误,得到候选文本集合,根据预设语言模型计算候选文本集合中每个文本的出现概率,选取前预设数目个概率的文本并构造候选文本子集合;在步骤S103中,对所述候选文本子集合进行语法纠错,得到候选结果集合,并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本。上述技术方案的工作原理:在步骤S101中,设定获取待纠错的文本为Thisplacehaswarmmanddrysummers;在步骤S102中,对Thisplacehaswarmmanddrysummers中的单词进行检测和纠正拼写错误,也就是,查询词典,找到待纠错文本中拼写错误的单词“warmm”,利用编辑距离从词典中找出“warmm”的最佳候选词集合W:{“warm”,“warms”,“swarm”,“warman”,“warmer”,……}。将W中每个单词分别代替待纠错文本中拼写错误的单词“warmm”,组成待纠错候选文本集合S:{“Thisplacehasawarmanddrysummers”,“Thisplacehasawarmsanddrysummers”,“Thisplacehasaswarmanddrysummers”,……},并根据预设语言模型计算候选文本集合S中每个文本的出现概率,选取前预设数目个概率的文本,预设数目为3,也就是概率最大的前3个,构造候选文本子集合S`:{“Thisplacehasawarmanddrysummers”,“Thisplacehasawarmsanddrysummers”,“Thisplacehasaswarmanddrysummers”},作为拼写纠错后的输出,同时送入步骤S103;在步骤S103对候选文本子集合S`进行语法纠正计算,得出候选结果集合M:{“Thisplacehaswarmanddrysummers”,“Thisplacehaswarmsanddrysummers”,“Thisplacehasaswarmanddrysummers”},并将候选结果集合M中具有最大后验概率的文本作为最终语法纠错的文本,即,输出“Thisplacehaswarmanddrysummers本文档来自技高网...

【技术保护点】
1.一种增加拼写纠错功能的语法纠错方法,其特征在于,包括如下步骤:/n步骤一,获取待纠错的文本;/n步骤二,对所述待纠错的文本中的单词进行检测和纠正拼写错误,得到候选文本集合,根据预设语言模型计算候选文本集合中每个文本的出现概率,选取前预设数目个概率的文本并构造候选文本子集合;/n步骤三,对所述候选文本子集合中的每个文本进行语法纠错,得到候选结果集合,并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本,进行输出。/n

【技术特征摘要】
1.一种增加拼写纠错功能的语法纠错方法,其特征在于,包括如下步骤:
步骤一,获取待纠错的文本;
步骤二,对所述待纠错的文本中的单词进行检测和纠正拼写错误,得到候选文本集合,根据预设语言模型计算候选文本集合中每个文本的出现概率,选取前预设数目个概率的文本并构造候选文本子集合;
步骤三,对所述候选文本子集合中的每个文本进行语法纠错,得到候选结果集合,并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本,进行输出。


2.根据权利要求1所述的增加拼写纠错功能的语法纠错方法,其特征在于,所述预设语言模型为预先训练的n-gram语言模型。


3.根据权利要求1所述的增加拼写纠错功能的语法纠错方法,其特征在于,步骤三中还包括预设机器学习模型,根据所述预设机器学习模型对所述候选文本子集合进行语法纠错,以得到所述候选结果集合。


4.根据权利要求3所述的增加拼写纠错功能的语法纠错方法,其特征在于,所述预设机器学习模型为Transformer语法纠错模型。


5.一种增加拼写纠错功能的语法纠错装置,其特征在于,还包括:
获取模块,用于获取待纠错的文本;
检测纠正模块,用于对所述待纠错的文本中的单词进行检测和纠正拼...

【专利技术属性】
技术研发人员:孙科郭伟
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1