System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于自知识蒸馏的方言语音识别训练方法及系统技术方案_技高网

一种基于自知识蒸馏的方言语音识别训练方法及系统技术方案

技术编号:40419815 阅读:4 留言:0更新日期:2024-02-20 22:38
本发明专利技术涉及语音识别领域,更具体地,涉及一种基于自知识蒸馏的方言语音识别训练方法及系统,包括以下步骤:S1:获取方言语音信号I;S2:提取方言语音信号I的MFCC特征,记为X;S3:将X输入到Transformer模型中进行方言语音识别训练;其中,在步骤S3中,还包括了通过获取Transformer模型的中间层表征R<subgt;M</subgt;来进行后验概率自蒸馏和表征自蒸馏的特征学习。通过在训练过程中进行后验概率层次自蒸馏与表征层次自蒸馏,从而减少了减少模型训练的过拟合程度,提升了方言小语种语音识别的精确度与鲁棒性。

【技术实现步骤摘要】

本专利技术涉及语音识别领域,更具体地,涉及一种基于自知识蒸馏的方言语音识别训练方法及系统


技术介绍

1、随着语音识别技术的发展与进步,其在大数据分析、人机交互等领域起着越来越重要的作用,为智能化、自动化的社会生活提供了重要接口,为人民的生活创造了极大的便利。但是一个性能良好的语音识别模块往往需要大量的语音文本数据进行训练,以达到高精度、高鲁棒的性能要求。这在普通话语音识别的应用场景中是可以被满足的,原因是普通话的数据相对比较容易获得。而在一些少数民族特有的小语种语言的语音识别应用场景中例如客家话,收集到大量语音文本数据则是一件非常困难的事情。

2、传统的端到端语音识别技术方案是基于深度学习的技术,它需要大量的数据进行训练才能够达到良好的性能和鲁棒性要求。这是因为深度学习模型需要足够的数据来学习到语音信号中的抽象特征,并建立有效的语音识别模型。但是,对于小语种场景来说,数据量通常很少,这会导致传统的端到端语音识别技术方案的性能不佳、鲁棒性差、过拟合等问题。因此,在实际应用中,需要采用其他方法来解决这些问题。因此在小语种场景下,传统的端到端语音识别技术方案需要更多的改进和优化去解决数据量不足导致的性能差、鲁棒性差等问题。

3、为了解决上述问题,本专利技术采用了一种自蒸馏方言语音识别训练方法,来提取小语种声学特征,然后在训练过程中进行后验概率层次自蒸馏与表征层次自蒸馏,减少模型训练的过拟合程度,以提升方言小语种语音识别的精确度与鲁棒性。


技术实现思路

1、本专利技术旨在克服上述现有技术的至少一种缺陷(不足),提供一种基于自知识蒸馏的方言语音识别训练方法及系统,用于解决由于小语种数据量少而导致传统的端到端语音识别技术方案的性能不佳、鲁棒性差、过拟合等问题,从而提升了方言小语种语音识别的精确度和鲁棒性。

2、本专利技术采取的技术方案是,一种基于自知识蒸馏的方言语音识别训练方法,包括以下步骤:

3、s1:获取方言语音信号 i;

4、s2:提取方言语音信号 i的mfcc特征,记为 x;

5、s3:将 x输入到transformer模型中进行方言语音识别训练;

6、其中,在步骤s3中,还包括了通过获取transformer模型的中间层表征 rm来进行后验概率自蒸馏和表征自蒸馏的特征学习。

7、通过在训练过程中进行后验概率层次自蒸馏与表征层次自蒸馏,从而减少了模型训练的过拟合程度,提升了方言小语种语音识别的精确度与鲁棒性。

8、优选地,在本方案步骤s3中,所述的后验概率自蒸馏具体包括了将transformer模型的中间层表征 rm输出通过一个线性变换层得到中间层后验概率 pm,然后结合transformer模型最终输出的后验概率 p使用标准mse损失函数来计算后验概率分布自蒸馏损失函数。

9、通过进行后验概率层次自蒸馏让中间层的输出与模型输出的后验概率分布接近,让模型的中间层去学习到更深层的知识,加强了模型在方言数据量较少时候的拟合能力。

10、优选地,在本方案步骤s3中,所述的表征自蒸馏具体包括了获取transformer模型的中间层表征 rm的输出,然后结合transformer模型输出的最后一层的表征 r利用标准mse损失函数来计算表征自蒸馏损失函数。

11、通过表征自蒸馏的学习,让模型的中间层可以学习到模型最后一层的高阶表征,加强了中间层对声学信息的理解与表征能力,尤其是在方言小语种数据量较少的情况下,更进一步地提升了模型整体的性能。

12、进一步优选地,

13、所述后验概率分布自蒸馏损失函数的计算公式为: lp =mse(p,pm );

14、所述表征自蒸馏损失函数的计算公式为: lr =mse(r,rm );

15、根据 lp和 lr来计算最终模型的损失函数l,其公式为: l= lctc+ lp+ lr,其中 lctc表示模型最终输出后验概率 p的ctc损失,通过模型输出的 p和真实标注结果y计算得到。

16、通过上述公式计算得到最终模型的损失函数l,根据损失函数l的梯度进行反向传播,以更新语音识别模型的参数,使模型输出逼近或达到最优值,从而使模型收敛,提高了模型的稳定性。

17、优选地,本方案所述步骤s2具体包括以下步骤:

18、s21:对方言语音信号 i进行前端信号处理;

19、s22:将步骤s21得到的语音信号经过快速傅里叶变换fft,然后进行mel滤波;

20、s23:对通过步骤s22得到的信号进行取对数处理;

21、s24:将取对数处理得到的语音信号通过离散余弦变换去相关滤波器组系数,并产生滤波器组的压缩表示;

22、s25:从上述步骤处理后的语音信号中提取出mfcc特征及其一阶差分参数。

23、本方案中使用方言语音信号的mfcc特征作为声学模型的输入,其中mfcc为mel频率倒谱系数的简称,与普通实际频率倒谱分析不同,它着重于人耳的听觉特性,因为人耳所听到的声音的高低与声音的频率并不成正比关系,因此用mel频率尺度可以更符合人耳的听觉特性。mel频率尺度对应于实际频率的对数分布关系,其数学关系式为:

24、

25、通过上述操作可以有效地提取出方言语音信号的mfcc特征,对这个更加符合人耳的听觉特征进行训练,从而使得最终训练出来的方言小语种语音识别的精确度更高。

26、进一步优选地,所述步骤s21具体还包括下步骤:

27、s211:将方言语音信号 i通过一个高通滤波器进行预加重;

28、s212:对预加重后的信号进行分帧处理,取256个采样点为一帧;

29、s213:将每一帧乘上汉明窗进本文档来自技高网...

【技术保护点】

1.一种基于自知识蒸馏的方言语音识别训练方法,包括以下步骤:

2.根据权利要求1所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,在步骤S3中,所述的后验概率自蒸馏具体包括了将Transformer模型的中间层表征RM输出通过一个线性变换层得到中间层后验概率PM,然后结合Transformer模型最终输出的后验概率P使用标准MSE损失函数来计算后验概率分布自蒸馏损失函数。

3.根据权利要求2所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,在步骤S3中,所述的表征自蒸馏具体包括了获取Transformer模型的中间层表征RM的输出,然后结合Transformer模型输出的最后一层的表征R利用标准MSE损失函数来计算表征自蒸馏损失函数。

4.根据权利要求3所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,

5.根据权利要求1所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,所述步骤S2具体包括以下步骤:

6.根据权利要求5所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,所述步骤S21具体还包括以下步骤:

7.根据权利要求6所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,在步骤S212中,两帧之间有一段重叠区域,所述重叠区域包含了128个采样点。

8.一种基于自知识蒸馏的方言语音识别训练系统,包括:

9.根据权利要求8所述的一种基于自知识蒸馏的方言语音识别训练系统,其特征在于,

10.根据权利要求9所述的一种基于自知识蒸馏的方言语音识别训练系统,其特征在于,在所述特征提取模块中还包括了:

...

【技术特征摘要】

1.一种基于自知识蒸馏的方言语音识别训练方法,包括以下步骤:

2.根据权利要求1所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,在步骤s3中,所述的后验概率自蒸馏具体包括了将transformer模型的中间层表征rm输出通过一个线性变换层得到中间层后验概率pm,然后结合transformer模型最终输出的后验概率p使用标准mse损失函数来计算后验概率分布自蒸馏损失函数。

3.根据权利要求2所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,在步骤s3中,所述的表征自蒸馏具体包括了获取transformer模型的中间层表征rm的输出,然后结合transformer模型输出的最后一层的表征r利用标准mse损失函数来计算表征自蒸馏损失函数。

4.根据权利要求3所述的一种基于自知识...

【专利技术属性】
技术研发人员:赵文博吕召彪杜量许程冲肖清
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1