一种基于规则匹配的文本纠错的方法、系统、设备及介质技术方案

技术编号:42307002 阅读:27 留言:0更新日期:2024-08-14 15:53
本发明专利技术涉及自然语言处理技术的领域,提出了一种基于规则匹配的文本纠错的方法、系统、设备及介质,方法包括:获取待纠错的原始文本数据、通用字典和混淆词字典,并对所述待纠错的原始文本数据进行预处理操作,得到输入文本;通过所述通用字典和混淆词字典对所述输入文本进行检错处理,得到疑似错误集,并基于混淆词字典对疑似错误集遍历匹配;响应于疑似错误集中的错误存在于混淆词字典,直接将混淆词字典中的正确值替换所述错误;响应于疑似错误集中的错误不存在于混淆词字典,则基于所述错误构造候选集,通过预设的语言模型计算所述候选集中所有替换词的语言困惑度,选择困惑度最小的替换词替换所述错误。本发明专利技术提高了文本纠错的准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理技术的领域,尤其涉及一种基于规则匹配的文本纠错的方法、系统、设备及介质


技术介绍

1、随着信息技术的快速发展,在数字化信息和人工智能(ai)时代,语音识别和语音控制得到了大量的应用和实践。文本信息已经成为人们日常生活和工作中不可或缺的一部分。然而,由于各种因素(如打字错误、语音识别错误等),文本中常常存在错误,这些错误不仅影响文本的可读性,还可能对信息传达的准确性造成负面影响。

2、但是,由于环境噪音、语言习惯差异、煤矿行业专业术语无法识别等因素,导致语音识别不够精准、语音控制指令执行不畅,影响了语音控制的流畅度和指令响应的及时性。因此,如何有效的进行语音识别后的文本纠错处理,提高文本指令的精准执行,显得尤为重要。

3、目前,已有一些文本纠错方法,但大多数方法在处理高度专业化的领域以及特定语言的文本时,往往存在泛化能力不强、纠错效果不佳等问题。特别是煤炭行业在日常工作中涉及大量文本数据及专业术语,如报告、记录、指令等。由于环境噪音、语言习惯差异、煤矿行业专业术语无法识别等因素,导致语音识别不够精准、语音控本文档来自技高网...

【技术保护点】

1.一种基于规则匹配的文本纠错的方法,其特征在于,包括:

2.根据权利要求1所述的一种基于规则匹配的文本纠错的方法,其特征在于,还包括:

3.根据权利要求1所述的一种基于规则匹配的文本纠错的方法,其特征在于,所述通过所述通用字典和混淆词字典对所述输入文本进行检错处理,得到疑似错误集的步骤包括:

4.根据权利要求3所述的一种基于规则匹配的文本纠错的方法,其特征在于,还包括:

5.根据权利要求1所述的一种基于规则匹配的文本纠错的方法,其特征在于,所述基于所述错误构造候选集的步骤包括:

6.根据权利要求1所述的一种基于规则匹配的文本纠...

【技术特征摘要】

1.一种基于规则匹配的文本纠错的方法,其特征在于,包括:

2.根据权利要求1所述的一种基于规则匹配的文本纠错的方法,其特征在于,还包括:

3.根据权利要求1所述的一种基于规则匹配的文本纠错的方法,其特征在于,所述通过所述通用字典和混淆词字典对所述输入文本进行检错处理,得到疑似错误集的步骤包括:

4.根据权利要求3所述的一种基于规则匹配的文本纠错的方法,其特征在于,还包括:

5.根据权利要求1所述的一种基于规则匹配的文本纠错的方法,其特征在于,所述基于所述错误构造候选集的步骤包括:

6.根据权利要求1所述的一种基于规则匹配的文本...

【专利技术属性】
技术研发人员:薛念栋郝志伟张俊生郭超
申请(专利权)人:浪潮通用软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1