一种文本纠错方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38324281 阅读:13 留言:0更新日期:2023-07-29 09:06
本发明专利技术涉及人工智能、自然语言处理技术领域,公开了一种文本纠错方法、装置、计算机设备及存储介质,应用于医疗、金融等领域,该方法通过对待纠错语音文本划分为多个待纠错短句;利用预先训练的生成模型,判断每个待纠错短句是否存在错误,若是,则确定待纠错短句的第一错误类型;根据每个待纠错短句的第一错误类型,利用相应的模型进行纠错,以得到初始的正确文本;利用预先训练的判别模型对初始的正确文本进行纠错,得到最终的正确文本,从而提高纠错的准确性,并且本发明专利技术采用多个模型进行纠错,也降低各模型学习及训练的难度。也降低各模型学习及训练的难度。也降低各模型学习及训练的难度。

【技术实现步骤摘要】
一种文本纠错方法、装置、计算机设备及存储介质


[0001]本专利技术涉及人工智能技术、自然语言处理以及医疗
,尤其涉及一种文本纠错方法、装置、计算机设备及存储介质。

技术介绍

[0002]ASR是指自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。ASR已广泛应用于医疗、金融等领域,以医疗领域为例,医生通过在线医疗平台与患者进行沟通,以对患者的疾病进行诊疗,为了便于医患沟通,医生和患者可先输入语音,然后智能设备进行语音识别,将语音转换为文本,以便于医患更加快速及便利的进行沟通。
[0003]目前,因为ASR转译结构受限于各种软硬件条件,例如词汇表大小、语音复杂性、说话人数、硬件设备等问题,所转译的文本通常会出现不准确的问题,由此需要对转译文本进行纠错。
[0004]目前常见的纠错方法是通过对单字置信度进行打分,将置信度低于阈值的字符修改为其他内容,但这种方法只能纠正错误的同音词,纠错的准确率较低。

技术实现思路

[0005]本专利技术提供一种文本纠错方法、装置、计算机设备及存储介质,以解决现有方法只能纠正错误的同音词,纠错的准确率较低问题。
[0006]第一方面,提供了一种文本纠错方法,包括:
[0007]获取待纠错语音文本;
[0008]对所述待纠错语音文本划分为多个待纠错短句;<br/>[0009]利用预先训练的生成模型,判断每个所述待纠错短句是否存在错误,若是,则确定所述待纠错短句的第一错误类型;
[0010]根据每个所述待纠错短句的第一错误类型,利用相应的模型进行纠错,以得到初始的正确文本;
[0011]利用预先训练的判别模型对所述初始的正确文本进行纠错,得到最终的正确文本。
[0012]第二方面,提供了一种文本纠错装置,包括:
[0013]获取模块,用于获取待纠错语音文本;
[0014]分句模块,用于对所述待纠错语音文本划分为多个待纠错短句;
[0015]判断模块,用于利用预先训练的生成模型,判断每个所述待纠错短句是否存在错误,若是,则确定所述待纠错短句的第一错误类型;
[0016]第一纠错模块,用于根据每个所述待纠错短句的第一错误类型,利用相应的模型进行纠错,以得到初始的正确文本;
[0017]第二纠错模块,用于利用预先训练的判别模型对所述初始的正确文本进行纠错,得到最终的正确文本。
[0018]第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述文本纠错方法的步骤。
[0019]第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述文本纠错方法的步骤。
[0020]上述基于文本纠错方法、装置、计算机设备及存储介质所实现的方案,通过获取待纠错语音文本;对待纠错语音文本划分为多个待纠错短句;利用预先训练的生成模型,判断每个待纠错短句是否存在错误,若是,则确定待纠错短句的第一错误类型;根据每个待纠错短句的第一错误类型,利用相应的模型进行纠错,以得到初始的正确文本;利用预先训练的判别模型对初始的正确文本进行纠错,得到最终的正确文本。在本专利技术中,该方法可应用在医疗领域,将医患之间的沟通语音转换为待纠错语音文本,先根据待纠错短句不同的错误类型,采用不同的模型进行纠错,得到初始的正确文本,从而提高纠错的准确性,然后再利用判别模型对初始的正确文本进行再次纠错,从而进一步提高纠错的准确性,并且本专利技术采用多个模型进行纠错,也降低了各模型学习及训练的难度。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本专利技术一实施例中文本纠错方法的一流程示意图;
[0023]图2是图1中步骤S104的一具体实施方式流程示意图;
[0024]图3是图1中步骤S105的一具体实施方式流程示意图;
[0025]图4是图3中步骤S404的一具体实施方式流程示意图;
[0026]图5是图1中步骤S102的一具体实施方式流程示意图;
[0027]图6是本专利技术一实施例中文本纠错装置的一结构示意图;
[0028]图7是本专利技术一实施例中计算机设备的一结构示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]本专利技术实施例提供的文本纠错方法,可应用在服务端。服务端可以获取待纠错语音文本;对待纠错语音文本划分为多个待纠错短句;利用预先训练的生成模型,判断每个待纠错短句是否存在错误,若是,则确定待纠错短句的第一错误类型;根据每个待纠错短句的第一错误类型,利用相应的模型进行纠错,以得到初始的正确文本;利用预先训练的判别模型对初始的正确文本进行纠错,得到最终的正确文本。在本专利技术中,先根据待纠错短句不同
的错误类型,采用不同的模型进行纠错,得到初始的正确文本,从而提高纠错的准确性,然后再利用判别模型对初始的正确文本进行再次纠错,从而进一步提高纠错的准确性,并且本专利技术采用多个模型进行纠错,也降低了各模型的学习难度。其中,服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本专利技术进行详细的描述。
[0031]请参阅图1所示,图1为本专利技术实施例提供的文本纠错方法的一个流程示意图,包括如下步骤:
[0032]步骤S101:获取待纠错语音文本。
[0033]待纠错文本可以是用户通过语音输入并转换为文字表述的文本,用户输入的语音可以是在问答机器人中输入的语句,也可以是语音控制指令等,本实施例不做严格限定。
[0034]在一种可能的实现方式中,在医疗领域中,待纠错文本为医患之间的沟通语音所转换的文本。具体地,医生通过在线医疗平台与患者进行沟通,以对患者的疾病进行诊疗,为了便于医患沟通,医生和患者可先输入语音,然后智能设备进行语音识别,将语音转换为文本。
[0035]步骤S102:对待纠错语音文本划分为多个待纠错短句。
[0036]步骤S103:利用预先训练的生成模型,判断每个待纠错短句是否存在错误,若是,则步骤S104。
[0037]步骤S104:确定待纠错短句的第一错误类型。
[0038]生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:获取待纠错语音文本;对所述待纠错语音文本划分为多个待纠错短句;利用预先训练的生成模型,判断每个所述待纠错短句是否存在错误,若是,则确定所述待纠错短句的第一错误类型;根据每个所述待纠错短句的第一错误类型,利用相应的模型进行纠错,以得到初始的正确文本;利用预先训练的判别模型对所述初始的正确文本进行纠错,得到最终的正确文本。2.根据权利要求1所述的方法,其特征在于,所述第一错误类型包括语法错误及词语错误,所述根据每个所述待纠错短句的第一错误类型,利用相应的模型进行纠错,以得到初始的正确文本,包括:如果所述待纠错短句的第一错误类型为语法错误,则利用mT5模型对所述短句的语法进行修改,得到所述待纠错短句对应的正确短句;如果所述短句的第一错误类型为词语错误,则利用所述生成模型对所述短句的错误词语进行更正,得到所述待纠错短句对应的正确短句。3.根据权利要求2所述的方法,其特征在于,所述确定所述待纠错短句的第一错误类型,包括:利用所述生成模型中的二分类器分析所述待纠错短句,得到相应的概率值,所述概率值表示所述待纠错短句属于语法错误类别的概率;判断所述概率值是否大于或等于预设概率值,若是,则所述待纠错短句的第一错误类型为语法错误;若否,则所述待纠错短句的第一错误类型为词语错误。4.根据权利要求1所述的方法,其特征在于,所述利用预先训练的判别模型对所述初始的正确文本进行纠错,得到最终的正确文本,包括:利用所述判别模型对所述初始的正确文本进行解析,得到相应的待纠错文本序列;利用所述判别模型识别所述待纠错文本序列出现错误的位置及相应的第二错误类型;利用所述判别模型对出现错误的位置进行掩码;利用所述判别模型根据所述掩码对应的第二错误类型,对所述掩码进行...

【专利技术属性】
技术研发人员:侯昶宇王俊王晓锐
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1