System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种使用检索增强技术强化CTC解码的语音识别方法技术_技高网
当前位置: 首页 > 专利查询>南开大学专利>正文

一种使用检索增强技术强化CTC解码的语音识别方法技术

技术编号:40297578 阅读:6 留言:0更新日期:2024-02-07 20:45
本发明专利技术属于语音识别技术领域,更具体地,涉及一种使用检索增强技术强化CTC解码的语音识别方法。该方法给定一个预训练后的CTC解码模型,首先利用数据经过特征编码器得到帧级别向量,然后以帧级别的向量与CTC伪标签形成键值对,构造细粒度键值数据存储。最后,在解码阶段通过检索帧级向量和对应的CTC伪标签对CTC解码解决进行线性插值,提升语音识别系统的性能。

【技术实现步骤摘要】

本专利技术属于语音识别,更具体地,涉及一种使用检索增强技术强化ctc解码的语音识别方法。


技术介绍

1、近年来,检索增强语言模型通过使用k近邻(knn)模型线性插值输出词分布来改进预训练语言模型,在自然语言处理(nlp)任务中取得了显著的成功,包括语言模型、问答和机器翻译。knn语言模型成功的核心是构建高质量的键值数据存储。尽管nlp任务取得了这些进步,但语音任务中的应用,特别是语音识别(asr),由于构建音频模态的细粒度数据存储相关较为困难,仍然受到限制。有人提出通过加入检索机制来为asr提供外部文本语料库的信息,增强asr系统的性能。然而,这种方法仍然属于knn语言模型的范畴,只是增强了rnn-t(recurrent neural network transducer)的文本模态。有研究人员采用语音合成技术生成音频,并使用音频嵌入和文本嵌入作为键值对构建数据存储,然后将knn融合层插入conformer以增强上下文asr。然而,这种方法仅限于上下文asr,并且键值对是粗粒度的,键和值都在短语级别。针对于基于连接时序分类(connectionist temporalclassification)解码的语音识别模型,如何构建细粒度帧级别键值数据存储以进一步提升性能,仍然是一个挑战。


技术实现思路

1、为了增强基于ctc解码的语音识别系统性能,本专利技术提出一种基于检索增强的提升ctc解码性能的语音识别方法。给定一个预训练后的ctc解码模型,首先利用数据经过特征编码器得到帧级别向量,然后以帧级别的向量与ctc伪标签形成键值对,构造细粒度键值数据存储。最后,在解码阶段通过检索帧级向量和对应的ctc伪标签得到检索增强预测的概率分布,对ctc解码结果进行线性插值,提升语音识别系统的性能。另外,本专利技术提出了一种跳过“空”的策略,以减小数据存储,并加速解码。

2、为实现上述目的,本专利技术提供了如下技术方案:

3、一种使用检索增强技术强化ctc解码的语音识别方法,包括以下步骤,

4、s101、预训练asr模型特征提取,将音频数据传入该asr模型特征编码器,提取该数据对应的帧级别中间特征表示;

5、s102、ctc解码预测概率分布,将步骤s101输出的中间特征表示输入到ctc解码器中,获取ctc解码器预测的帧级别概率分布;

6、s103、数据存储构造,即使用训练集数据来构建大量的特征向量与标签的键值对,并将其缓存,且在数据存储构建阶段,跳过伪标签为“空”字符的帧;

7、s104、数据存储检索,即在测试阶段检索最近邻的k个键值对,计算得到数据存储检索概率分布,且在数据存储检索阶段,对于伪标签为“空”的帧,无需进行检索和概率融合,直接以ctc预测的概率分布作为最终结果;

8、s105、概率融合,利用线性插值将数据存储检索得到的概率分布和预训练asr模型的ctc解码的概率分布融合,得到最终的概率分布p(y|x):

9、p(y|x)=λpknn(y|x)+(1-λ)pctc(y|x).

10、其中pknn为数据存储检索概率分布,pctc为ctc预测的概率分布,λ为超参数,平衡两个概率分布。

11、本技术方案进一步的优化,所述步骤s102,根据ctc解码的条件独立假设,利用该分布可以为提取出的每一帧中间特征标记字符伪标签,公式如下:

12、

13、其中,xn为输入的第n帧音频,yn为第n帧音频对应的文本标签,为预测的第n帧音频对应的伪标签,利用argmax与ctc输出的概率分布,可以将中间特征逐帧标记ctc伪标签。

14、本技术方案进一步的优化,所述步骤s103中使用ctc解码器预测的帧级别伪标签作为value,即值;通过将这一过程扩展到整个训练集,记为s,即可成功构建一个由帧级别键值对组成的数据存储,

15、

16、其中(k,v)是构造的键值对数据存储,s是整个训练集,f(xi)为输入的第i帧音频数据对应的中间特征,为第i帧的ctc伪标签。

17、本技术方案进一步的优化,所述步骤104中数据存储检索概率分布pknn公式如下:

18、

19、其中,x为音频,y为预测的文本,n为检索出的最近邻键值对集合,(ki,vi)代表检索出的第i个最近邻键值对,τ代表温度系数,d(.,.)代表l2距离,f(x)为音频x经编码器提取出的特征。

20、本技术方案进一步的优化,所述asr模型特征编码器为transformer编码器或conformer编码器。

21、区别于现有技术,上述技术方案有益效果是,应用本专利技术提出的语音识别方法,无需额外的训练即可进一步提升已完成训练的基于ctc解码的语音识别模型的性能。本专利技术还提出了一种跳过“空”的策略,以减小数据存储,并加速解码。另外,本专利技术同样可以用于快速域适应,仅需要构建无标签目标域数据的数据存储,即可提升语音识别系统在目标域上的性能。

本文档来自技高网...

【技术保护点】

1.一种使用检索增强技术强化CTC解码的语音识别方法,其特征在于,包括以下步骤,

2.如权利要求1所述的使用检索增强技术强化CTC解码的语音识别方法,其特征在于,所述步骤S102,根据CTC解码的条件独立假设,利用该分布可以为提取出的每一帧中间特征标记字符伪标签,公式如下:

3.如权利要求1所述的使用检索增强技术强化CTC解码的语音识别方法,其特征在于,所述步骤S103中使用CTC解码器预测的帧级别伪标签作为value,即值;通过将这一过程扩展到整个训练集,记为S,即可成功构建一个由帧级别键值对组成的数据存储,

4.如权利要求1所述的使用检索增强技术强化CTC解码的语音识别方法,其特征在于,所述步骤104中数据存储检索概率分布PkNN公式如下:

5.如权利要求1所述的使用检索增强技术强化CTC解码的语音识别方法,其特征在于,所述ASR模型特征编码器为Transformer编码器或Conformer编码器。

【技术特征摘要】

1.一种使用检索增强技术强化ctc解码的语音识别方法,其特征在于,包括以下步骤,

2.如权利要求1所述的使用检索增强技术强化ctc解码的语音识别方法,其特征在于,所述步骤s102,根据ctc解码的条件独立假设,利用该分布可以为提取出的每一帧中间特征标记字符伪标签,公式如下:

3.如权利要求1所述的使用检索增强技术强化ctc解码的语音识别方法,其特征在于,所述步骤s103中使用ctc解码器预测的帧级别伪标签...

【专利技术属性】
技术研发人员:秦勇周家名赵石顽王卉王雪琛贺佳贝
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1