一种中文错别字纠错处理方法、系统及存储介质技术方案

技术编号:35156659 阅读:23 留言:0更新日期:2022-10-05 10:39
本发明专利技术提出一种中文错别字纠错处理方法、系统及存储介质,该方法将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率。此外,本发明专利技术利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。有效减少了纠错耗时。有效减少了纠错耗时。

【技术实现步骤摘要】
一种中文错别字纠错处理方法、系统及存储介质


[0001]本专利技术涉及文字处理
,特别涉及一种中文错别字纠错处理方法、系统及存储介质。

技术介绍

[0002]随着拼音输入法和语音识别的广泛应用,出现了越来越多因为音似产生的中文文本错误,同时手写输入法的使用会出现大量的形似字。纠错这些中文文本里字、词级别的书写错误是一个具有挑战性的课题。举个例子,给定一个句子“我对这局话进行了一些修改了”,显然“局”是这句话的目标错误,而句尾的

了”则是个语法错误。
[0003]现有的一部分纠错模型会在尝试修改目标错误时改变语义,例如Transformers模型,它们的训练数据集的单元是句子对。Transformers模型直接将原句转化为另一个句子。这可能会将这句话转化为“我对这句话进行了一些修改”、“我对这句话进行了修改”,“我修改了这句话”。这在句子层面的纠错任务上是很好的方法,但是这样会改变句子结构,可能改出病句,同时因为改变词语甚至会改变句子含义,显然这种方法在工业实践上还不够成熟。
[0004]另一部分纠错模型通过穷举法验证目标错误并修改,虽然性能优秀,但十分耗时,不太适用于大规模的文本纠错。例如macbert模型,它们的训练数据集的单元是句子。它不改变句子,只是评估句子的合理性给出分数。但是它不具备探测错误位置的能力,所以它要把句子中的字遍历出来,把这些字依次替换成词典中的字。假如这句话有x个字,模型的字典中有y个字,我们就会得到x*y个句子,也就是说完成一个10个字的句子纠错的背后需要模型评估1000

100000个句子的得分,最后选取最好的几个句子作为参考,这是非常耗时的一个过程。
[0005]因此,如何在中文错别字纠错时,减小改变原句意思的概率,同时减少耗时,是本领域技术人员需要解决的技术问题。

技术实现思路

[0006]为此,本专利技术的实施例提出一种中文错别字纠错处理方法、系统及存储介质,以实现在中文错别字纠错时,减小改变原句意思的概率,同时减少耗时。
[0007]根据本专利技术实施例的中文错别字纠错处理方法,包括以下步骤:步骤1,通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;步骤2,通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;步骤3,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;步骤4,采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
步骤5,获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;步骤6,采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵,并查找替换句子集合中各个元素的句子信息熵中的最大者;步骤7,若,则将目标短句修改为对应的句子,其中,表示信息熵阈值。
[0008]根据本专利技术实施例的中文错别字纠错处理方法,将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率。此外,本专利技术利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。
[0009]另外,根据本专利技术上述实施例的中文错别字纠错处理方法,还可以具有如下附加的技术特征:进一步的,步骤2中,n元组集合表示为,其中,表示目标短句中文字的字数,分别表示n元组集合中第1个元素、第2个元素、第3个元素、第个元素;步骤3中,n元组集合中各个元素的n元组信息熵表示为,其中,分别表示n元组集合中第1个元素、第2个元素、第3个元素、第个元素的n元组信息熵;目标短句中各个文字的初始字级评分分别为:;其中,分别表示目标短句中第1个文字、第2个文字、第个文字、第个文字的初始字级评分。
[0010]进一步的,步骤4中,采用平均绝对离差对各个文字的初始字级评分进行修正计算的公式为:其中,表示修正字级评分,为初始字级评分的通式表达,表示
可调参数,表示取中位数。
[0011]进一步的,步骤4中,根据各个文字的修改字级评分确定目标短句中的错别字具体包括:若目标短句中的某一目标字的修正字级评分大于评分阈值t,且该目标字的初始字级评分小于,则确定该目标字为错别字。
[0012]进一步的,步骤4中,所述方法还包括:扫描原始文本中是否存在混淆词典中的收纳词;若是,则在扫描原始文本中将收纳词替换为混淆词典中指定的替换词。
[0013]进一步的,步骤6中,目标短句的句子信息熵的计算公式为:。
[0014]进一步的,所述方法还包括:若,则认定目标短句合理,不进行修改。
[0015]进一步的,步骤1具体为:通过文本过滤器采用正则表达式将原始文本中的非中文部分剔除,获得只含中文部分的中间文本。
[0016]本专利技术还提出一种中文错别字纠错处理系统,其中,所述系统包括:文本剔除模块,用于:通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;文本分割模块,用于:通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;第一计算模块,用于:采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;第二计算模块,用于:采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;第一替换模块,用于:获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;第二替换模块,用于:采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵,并查找替换句子集合中各个元素的句子信息熵中的最大者;语句修改模块,用于:若,则将目标短句修改为对应的句子,其中,表示信息熵阈值。
[0017]本专利技术还提出一种存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的中文错别字纠错处理方法。
附图说明
[0018]本专利技术实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术提出的中文错别字纠错处理方法的流程图;图2为本专利技术提出的中文错别字纠错处理系统的结构示意图。
具体实施方式
[0019]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文错别字纠错处理方法,其特征在于,所述方法包括如下步骤:步骤1,通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;步骤2,通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;步骤3,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;步骤4,采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;步骤5,获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;步骤6,采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵,并查找替换句子集合中各个元素的句子信息熵中的最大者;步骤7,若,则将目标短句修改为对应的句子,其中,表示信息熵阈值。2.根据权利要求1所述的中文错别字纠错处理方法,其特征在于,步骤2中,n元组集合表示为,其中,表示目标短句中文字的字数,分别表示n元组集合中第1个元素、第2个元素、第3个元素、第个元素;步骤3中,n元组集合中各个元素的n元组信息熵表示,其中,分别表示n元组集合中第1个元素、第2个元素、第3个元素、第个元素的n元组信息熵;目标短句中各个文字的初始字级评分分别为:;其中,分别表示目标短句中第1个文字、第2个文字、第个文字、第个文字的初始字级评分。3.根据权利要求2所述的中文错别字纠错处理方法,其特征在于,步骤4中,采用平均绝对离差对各个文字的初始字级评分进行修正计算的公式为:其中,表示修正字级评分,为初始字级评分的通式表达,表示可调参
数,表示取中位数。4.根据权利要求3所述的中文错别字纠错处理方法,其特征在于,步骤4中,根据各个文字的修改字级评分确定目标短句中的错别字具体包括:若目标短句中的某一目标字的修正字级评分大于评分阈值t,且该...

【专利技术属性】
技术研发人员:王鹏鸣熊正坤
申请(专利权)人:华东交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1