一种文本纠错方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：38324281 阅读：13 留言：0更新日期：2023-07-29 09:06

本发明专利技术涉及人工智能、自然语言处理技术领域，公开了一种文本纠错方法、装置、计算机设备及存储介质，应用于医疗、金融等领域，该方法通过对待纠错语音文本划分为多个待纠错短句；利用预先训练的生成模型，判断每个待纠错短句是否存在错误，若是，则确定待纠错短句的第一错误类型；根据每个待纠错短句的第一错误类型，利用相应的模型进行纠错，以得到初始的正确文本；利用预先训练的判别模型对初始的正确文本进行纠错，得到最终的正确文本，从而提高纠错的准确性，并且本发明专利技术采用多个模型进行纠错，也降低各模型学习及训练的难度。也降低各模型学习及训练的难度。也降低各模型学习及训练的难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本纠错方法、装置、计算机设备及存储介质

[0001]本专利技术涉及人工智能技术、自然语言处理以及医疗
，尤其涉及一种文本纠错方法、装置、计算机设备及存储介质。

技术介绍

[0002]ASR是指自动语音识别技术(Automatic Speech Recognition)，是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。ASR已广泛应用于医疗、金融等领域，以医疗领域为例，医生通过在线医疗平台与患者进行沟通，以对患者的疾病进行诊疗，为了便于医患沟通，医生和患者可先输入语音，然后智能设备进行语音识别，将语音转换为文本，以便于医患更加快速及便利的进行沟通。
[0003]目前，因为ASR转译结构受限于各种软硬件条件，例如词汇表大小、语音复杂性、说话人数、硬件设备等问题，所转译的文本通常会出现不准确的问题，由此需要对转译文本进行纠错。
[0004]目前常见的纠错方法是通过对单字置信度进行打分，将置信度低于阈值的字符修改为其他内容，但这种方法只能纠正错误的同音词，纠错的准确率较低。

技术实现思路

[0005]本专利技术提供一种文本纠错方法、装置、计算机设备及存储介质，以解决现有方法只能纠正错误的同音词，纠错的准确率较低问题。
[0006]第一方面，提供了一种文本纠错方法，包括：
[0007]获取待纠错语音文本；
[0008]对所述待纠错语音文本划分为多个待纠错短句；<...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法，其特征在于，包括：获取待纠错语音文本；对所述待纠错语音文本划分为多个待纠错短句；利用预先训练的生成模型，判断每个所述待纠错短句是否存在错误，若是，则确定所述待纠错短句的第一错误类型；根据每个所述待纠错短句的第一错误类型，利用相应的模型进行纠错，以得到初始的正确文本；利用预先训练的判别模型对所述初始的正确文本进行纠错，得到最终的正确文本。2.根据权利要求1所述的方法，其特征在于，所述第一错误类型包括语法错误及词语错误，所述根据每个所述待纠错短句的第一错误类型，利用相应的模型进行纠错，以得到初始的正确文本，包括：如果所述待纠错短句的第一错误类型为语法错误，则利用mT5模型对所述短句的语法进行修改，得到所述待纠错短句对应的正确短句；如果所述短句的第一错误类型为词语错误，则利用所述生成模型对所述短句的错误词语进行更正，得到所述待纠错短句对应的正确短句。3.根据权利要求2所述的方法，其特征在于，所述确定所述待纠错短句的第一错误类型，包括：利用所述生成模型中的二分类器分析所述待纠错短句，得到相应的概率值，所述概率值表示所述待纠错短句属于语法错误类别的概率；判断所述概率值是否大于或等于预设概率值，若是，则所述待纠错短句的第一错误类型为语法错误；若否，则所述待纠错短句的第一错误类型为词语错误。4.根据权利要求1所述的方法，其特征在于，所述利用预先训练的判别模型对所述初始的正确文本进行纠错，得到最终的正确文本，包括：利用所述判别模型对所述初始的正确文本进行解析，得到相应的待纠错文本序列；利用所述判别模型识别所述待纠错文本序列出现错误的位置及相应的第二错误类型；利用所述判别模型对出现错误的位置进行掩码；利用所述判别模型根据所述掩码对应的第二错误类型，对所述掩码进行...

【专利技术属性】
技术研发人员：侯昶宇，王俊，王晓锐，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人