ASR文本纠错方法、模型、装置、电子设备、存储介质制造方法及图纸

技术编号:36907052 阅读:21 留言:0更新日期:2023-03-18 09:25
本申请提供一种ASR文本纠错方法,包括获得语音识别文本;将所述语音识别文本输入至训练后的纠错模型中进行纠错预测,获得每个单元文本的纠错预测结果;获取得分Topk的单元文本集作为单元文本的纠错候选集;获得单元文本的纠错结果;将所有所述单元文本的纠错结果综合得到所述语音识别文本的纠错结果。本申请通过对语音识别文本进行纠错预测,获得每个单元文本的纠错预测结果,而后对每个单元文本进行单独纠错,单元文本的纠错结果综合得到语音识别文本的纠错结果,缓解了BERT模型容易过纠的问题。采用基于BERT模型端到端的ASR纠错方法,避免pipeline架构的导致其错误会逐级放大,影响纠错方法的最终效果的问题。纠错方法的最终效果的问题。纠错方法的最终效果的问题。

【技术实现步骤摘要】
ASR文本纠错方法、模型、装置、电子设备、存储介质


[0001]本申请涉及文本纠错
,具体涉及一种ASR文本纠错方法、模型、装置、电子设备、存储介质。

技术介绍

[0002]文本纠错是自然语言处理的基本任务之一,其主要内容是针对文本中的拼写错误进行检测与纠正。其应用场景十分广泛,例如输入法纠错、文本校对、ASR(Automatic Speech Recognition,自动语音识别技术)文本纠错等。而且文本纠错一般作为上游任务,其性能好坏直接影响着下游任务的最终效果。文本纠错任务的常见类型包括谐音字词、混淆音字词、形似字错误和字词补全等,针对不同的应用场景,这些错误类型并不一定全部存在。文本纠错因其重要性,直到今天仍是人们研究的热点。在早期,人们主要基于错误检测、候选召回、候选排序的pipeline系统架构进行文本纠错,如中国专利CN201510767379.3、CN201610976879.2以及CN201710817047.0都是基于这个系统架构的文本纠错方法。这类方法实现思路直观、可解释强并且模块化的结构易于模块升级和替换,但是其pipeline的系统结构导致其错误会逐级放大,影响纠错方法的最终效果,同时其串联链越长则耗时也越长。之后随着深度学习的崛起,人们开始重点研究端到端的文本纠错方法。纠错方法皆在一定程度上提升了文本纠错的效果,但是深度学习模型需要大量的训练数据进行模型参数学习,标注数据耗时耗力,人力成本极高,同时相比于传统的文本纠错方法,容易发生错纠的情况。
[0003]随着近年来语音类产品如智能音箱、声控家具的快速发展,语音识别技术也随之高速进步,识别效果越来越好,但是因为语音产品使用场景的复杂度,仍然极易发生误识别的情况,其错误类型以谐音字词、混淆音字词这两类为主,因此ASR纠错作为文本纠错的子集,其解决方法和文本纠错一致,面对的难点也类似。目前,迫切需要一种新的语音识别纠错方法来在一定程度上解决这些难点痛点。

技术实现思路

[0004]鉴于以上所述现有技术的缺点,本申请提供一种,以解决上述技术问题。
[0005]本申请提供的一种ASR文本纠错方法,包括获得语音识别文本;
[0006]将所述语音识别文本输入至训练后的纠错模型中进行纠错预测,获得每个单元文本的纠错预测结果;
[0007]获取得分Topk的单元文本集作为单元文本的纠错候选集;
[0008]若所述单元文本的纠错预测结果存在于所述单元文本的纠错候选集中,则所述单元文本的预测结果作为所述单元文本的纠错结果;若所述单元文本的纠错预测结果不存在于所述单元文本的候选纠错集中,则选取所述单元文本的候选纠错集中得分最高的单元文本作为所述单元文本的纠错结果;
[0009]将所有所述单元文本的纠错结果综合得到所述语音识别文本的纠错结果。
[0010]于本申请的一实施例中,将所述语音识别文本输入至训练后的纠错模型中进行纠错预测,获得每个单元文本的纠错预测结果,包括:对语音识别文本进行编码,获得语音识别文本特征,所述语音识别文本特征包括有汉字信息、拼音信息;检测单元文本错误,输出单元文本错误概率,以指导对单元文本进行纠错;将所述语音识别文本特征、所述单元本文错误概率进行整合掩码,并发送至预测器;根据所述整合信息获得所述单元文本的纠错预测结果。
[0011]于本申请的一实施例中,所述纠错模型的训练包括:获得训练数据,所述训练数据包括文字、文字所对应的拼音,所述拼音包括声母、韵母、声调;将所述训练数据输入至拼音BERT,以对所述拼音BERT进行训练;将文字BERT及训练后的拼音BERT结合对检测器进行训练,以提高检测器检测单元文本错误的准确度。
[0012]于本申请的一实施例中,将所述训练数据输入至拼音BERT,以对所述拼音BERT进行训练,包括:输入文本的拼音预测文本的汉字;输入文本正确的拼音,比对文本正确的拼音与文本预测拼音的相似度。
[0013]于本申请的一实施例中,拼音BERT的loss函数公式为:
[0014]L
total
=L
a
+L
b
+L
similarity

[0015]其中表示句子a由拼音预测汉字的交叉熵损失;表示句子b由拼音预测汉字的交叉熵损失;表示句子a和句子b拼音表示的相似度交叉熵损失。交叉熵的计算方式如下所示:
[0016][0017]式中:表示真实标注,表示预测结果。
[0018]于本申请的一实施例中,所述纠错模型的训练包括:
[0019]L
all
=αL
correct
+(1

α)L
contrast
[0020]式中:表示纠错损失,本文使用交叉熵损失;表示对比损失;表示纠错损失的权重,1

为对比损失的权重,是一个超参数,取值范围为(0,1)。其中的计算公式如下所示:
[0021][0022]式中:是与正样本作为对比的负样本数;表示正样本的预测概率;为第个负样本的预测概率;margin为正样本和负样本的区分度,取值范围为[0,1],取值越大,正负样本的区分度越高。
[0023]本申请还提供一种ASR文本纠错模型,所述模型包括:
[0024]编码器,所述编码器对文本进行编码,获得文本特征;所述编码器包括汉字BERT和拼音BERT,汉字BERT和拼音BERT分别对文本的汉字信息和拼音信息进行编码,并将两部分相加作为所述编码器的输出;
[0025]检测器,所述检测器探测发生错误的位置,指导预测器进行纠错,所述检测器的输出为每个字是错字的概率;所述检测器输出向量维度为1
×
N
in
,N
in
表示输入的字的字数;
[0026]掩码器,所述掩码器将所述编码器和所述检测器的输出进行整合,整合方法如下公式:
[0027]E
soft

masked
=(1

p)E
encode
+p*E
mask
[0028]其中:p为检测器的输出,表示每个字为错字的概率;E
encode
为编码器的输出,是一个矩阵,表示每个字经过上下文以及拼音编码后的结果;E
mask
是标记一个字为错字的向量;
[0029]预测器,所述预测器预测从每个字所对应的正确单词,所述预测器使用E
soft

masked
和E
encode
的和作为输入,所述预测器输出维度为N
in
×
N
Vocab
的矩阵,其中N
Vocab
表示字典的大小。
[0030]本申请还提供一种ASR文本纠错装置,述装置包括有:
[0031]语音识别文本获取模块,所述语音识别文本获取模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种ASR文本纠错方法,其特征在于,所述方法包括:获得语音识别文本;将所述语音识别文本输入至训练后的纠错模型中进行纠错预测,获得每个单元文本的纠错预测结果;获取得分Topk的单元文本集作为单元文本的纠错候选集;若所述单元文本的纠错预测结果存在于所述单元文本的纠错候选集中,则所述单元文本的预测结果作为所述单元文本的纠错结果;若所述单元文本的纠错预测结果不存在于所述单元文本的候选纠错集中,则选取所述单元文本的候选纠错集中得分最高的单元文本作为所述单元文本的纠错结果;将所有所述单元文本的纠错结果综合得到所述语音识别文本的纠错结果。2.根据权利要求1所述的ASR文本纠错方法,其特征在于,将所述语音识别文本输入至训练后的纠错模型中进行纠错预测,获得每个单元文本的纠错预测结果,包括:对语音识别文本进行编码,获得语音识别文本特征,所述语音识别文本特征包括有汉字信息、拼音信息;检测单元文本错误,输出单元文本错误概率,以指导对单元文本进行纠错;将所述语音识别文本特征、所述单元本文错误概率进行整合掩码,并发送至预测器;根据所述整合信息获得所述单元文本的纠错预测结果。3.根据权利要求2所述的ASR文本纠错方法,其特征在于,所述纠错模型的训练包括:获得训练数据,所述训练数据包括文字、文字所对应的拼音,所述拼音包括声母、韵母、声调;将所述训练数据输入至拼音BERT,以对所述拼音BERT进行训练;将文字BERT及训练后的拼音BERT结合对检测器进行训练,以提高检测器检测单元文本错误的准确度。4.根据权利要求3所述的ASR文本纠错方法,其特征在于,将所述训练数据输入至拼音BERT,以对所述拼音BERT进行训练,包括:输入文本的拼音预测文本的汉字;输入文本正确的拼音,比对文本正确的拼音与文本预测拼音的相似度。5.根据权利要求4所述的ASR文本纠错方法,其特征在于,拼音BERT的loss函数公式为:L
total
=L
a
+L
b
+L
similarity
;其中L
a
表示句子a由拼音预测汉字的交叉熵损失;L
b
表示句子b由拼音预测汉字的交叉熵损失;L
similarity
表示句子a和句子b拼音表示的相似度交叉熵损失。交叉熵的计算方式如下所示:式中:y表示真实标注,表示预测结果。6.根据权利要求3所述的ASR文本纠错方法,其特征在于,所述纠错模型的训练包括:L
all
=αL
correct
+(1

α)L
contrast
式中:L
correct
表示纠错损失,本文使用交叉熵损失;L
contrast
表示对比损失;α表示纠错损失的权重,1

α为对比损失的权重,是一个超参数,取值范围为(0,1)。其中L
contrast
...

【专利技术属性】
技术研发人员:杨稷
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1