一种基于自知识蒸馏的方言语音识别训练方法及系统技术方案

技术编号:40419815 阅读:28 留言:0更新日期:2024-02-20 22:38
本发明专利技术涉及语音识别领域,更具体地,涉及一种基于自知识蒸馏的方言语音识别训练方法及系统,包括以下步骤:S1:获取方言语音信号I;S2:提取方言语音信号I的MFCC特征,记为X;S3:将X输入到Transformer模型中进行方言语音识别训练;其中,在步骤S3中,还包括了通过获取Transformer模型的中间层表征R<subgt;M</subgt;来进行后验概率自蒸馏和表征自蒸馏的特征学习。通过在训练过程中进行后验概率层次自蒸馏与表征层次自蒸馏,从而减少了减少模型训练的过拟合程度,提升了方言小语种语音识别的精确度与鲁棒性。

【技术实现步骤摘要】

本专利技术涉及语音识别领域,更具体地,涉及一种基于自知识蒸馏的方言语音识别训练方法及系统


技术介绍

1、随着语音识别技术的发展与进步,其在大数据分析、人机交互等领域起着越来越重要的作用,为智能化、自动化的社会生活提供了重要接口,为人民的生活创造了极大的便利。但是一个性能良好的语音识别模块往往需要大量的语音文本数据进行训练,以达到高精度、高鲁棒的性能要求。这在普通话语音识别的应用场景中是可以被满足的,原因是普通话的数据相对比较容易获得。而在一些少数民族特有的小语种语言的语音识别应用场景中例如客家话,收集到大量语音文本数据则是一件非常困难的事情。

2、传统的端到端语音识别技术方案是基于深度学习的技术,它需要大量的数据进行训练才能够达到良好的性能和鲁棒性要求。这是因为深度学习模型需要足够的数据来学习到语音信号中的抽象特征,并建立有效的语音识别模型。但是,对于小语种场景来说,数据量通常很少,这会导致传统的端到端语音识别技术方案的性能不佳、鲁棒性差、过拟合等问题。因此,在实际应用中,需要采用其他方法来解决这些问题。因此在小语种场景下,传统的端到端语音识本文档来自技高网...

【技术保护点】

1.一种基于自知识蒸馏的方言语音识别训练方法,包括以下步骤:

2.根据权利要求1所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,在步骤S3中,所述的后验概率自蒸馏具体包括了将Transformer模型的中间层表征RM输出通过一个线性变换层得到中间层后验概率PM,然后结合Transformer模型最终输出的后验概率P使用标准MSE损失函数来计算后验概率分布自蒸馏损失函数。

3.根据权利要求2所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,在步骤S3中,所述的表征自蒸馏具体包括了获取Transformer模型的中间层表征RM的输出,然后结合Tr...

【技术特征摘要】

1.一种基于自知识蒸馏的方言语音识别训练方法,包括以下步骤:

2.根据权利要求1所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,在步骤s3中,所述的后验概率自蒸馏具体包括了将transformer模型的中间层表征rm输出通过一个线性变换层得到中间层后验概率pm,然后结合transformer模型最终输出的后验概率p使用标准mse损失函数来计算后验概率分布自蒸馏损失函数。

3.根据权利要求2所述的一种基于自知识蒸馏的方言语音识别训练方法,其特征在于,在步骤s3中,所述的表征自蒸馏具体包括了获取transformer模型的中间层表征rm的输出,然后结合transformer模型输出的最后一层的表征r利用标准mse损失函数来计算表征自蒸馏损失函数。

4.根据权利要求3所述的一种基于自知识...

【专利技术属性】
技术研发人员:赵文博吕召彪杜量许程冲肖清
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1