一种中文错别字纠错处理方法、系统及存储介质技术方案

技术编号:35156659 阅读:83 留言:0更新日期:2022-10-05 10:39
本发明专利技术提出一种中文错别字纠错处理方法、系统及存储介质,该方法将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率。此外,本发明专利技术利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。有效减少了纠错耗时。有效减少了纠错耗时。

【技术实现步骤摘要】
一种中文错别字纠错处理方法、系统及存储介质


[0001]本专利技术涉及文字处理
,特别涉及一种中文错别字纠错处理方法、系统及存储介质。

技术介绍

[0002]随着拼音输入法和语音识别的广泛应用,出现了越来越多因为音似产生的中文文本错误,同时手写输入法的使用会出现大量的形似字。纠错这些中文文本里字、词级别的书写错误是一个具有挑战性的课题。举个例子,给定一个句子“我对这局话进行了一些修改了”,显然“局”是这句话的目标错误,而句尾的

了”则是个语法错误。
[0003]现有的一部分纠错模型会在尝试修改目标错误时改变语义,例如Transformers模型,它们的训练数据集的单元是句子对。Transformers模型直接将原句转化为另一个句子。这可能会将这句话转化为“我对这句话进行了一些修改”、“我对这句话进行了修改”,“我修改了这句话”。这在句子层面的纠错任务上是很好的方法,但是这样会改变句子结构,可能改出病句,同时因为改变词语甚至会改变句子含义,显然这种方法在工业实践上还不够成熟。
[0004]另一部分纠错模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种中文错别字纠错处理方法,其特征在于,所述方法包括如下步骤:步骤1,通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;步骤2,通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;步骤3,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;步骤4,采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;步骤5,获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;步骤6,采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵,并查找替换句子集合中各个元素的句子信息熵中的最大者;步骤7,若,则将目标短句修改为对应的句子,其中,表示信息熵阈值。2.根据权利要求1所述的中文错别字纠错处理方法,其特征在于,步骤2中,n元组集合表示为,其中,表示目标短句中文字的字数,分别表示n元组集合中第1个元素、第2个元素、第3个元素、第个元素;步骤3中,n元组集合中各个元素的n元组信息熵表示,其中,分别表示n元组集合中第1个元素、第2个元素、第3个元素、第个元素的n元组信息熵;目标短句中各个文字的初始字级评分分别为:;其中,分别表示目标短句中第1个文字、第2个文字、第个文字、第个文字的初始字级评分。3.根据权利要求2所述的中文错别字纠错处理方法,其特征在于,步骤4中,采用平均绝对离差对各个文字的初始字级评分进行修正计算的公式为:其中,表示修正字级评分,为初始字级评分的通式表达,表示可调参
数,表示取中位数。4.根据权利要求3所述的中文错别字纠错处理方法,其特征在于,步骤4中,根据各个文字的修改字级评分确定目标短句中的错别字具体包括:若目标短句中的某一目标字的修正字级评分大于评分阈值t,且该...

【专利技术属性】
技术研发人员:王鹏鸣熊正坤
申请(专利权)人:华东交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1