System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于DW-Metaformer轻量级神经网络模型的说话人识别方法技术_技高网

基于DW-Metaformer轻量级神经网络模型的说话人识别方法技术

技术编号:40596515 阅读:6 留言:0更新日期:2024-03-12 21:59
本发明专利技术提供了一种基于DW‑Metaformer轻量级神经网络模型的说话人识别方法,包括如下步骤:原始语音信号预处理;提取短期幅度功率谱的语音特征并进行融合;获取GMM统计特征;构建DW‑Metaformer轻量级神经网络模型,进行训练,并进行奇异值分解处理,得到低秩化DW‑Metaformer训练模型;构建虚拟教师知识蒸馏模型,并利用其对所述低秩化DW‑Metaformer训练模型进行知识迁移;构建NPLDA后端模型并训练;测试。该说话人识别方法,弥补了MFCC特征部分信息的缺失和估计方差大的问题,可以更好的表示说话人的个性信息,使用更低的计算成本,更准确更高性能地实现说话人识别任务。

【技术实现步骤摘要】

本专利技术属于声纹识别,具体涉及一种基于dw-metaformer轻量级神经网络模型的说话人识别方法。


技术介绍

1、说话人识别,又称声纹识别,其研究目标是根据每个说话人的独特发音进行身份认证。说话人识别作为生物识别中的一种远程认证方式,具有方便性、准确性、经济性等优势,引起了社会的广泛关注,在取证、监视、访问控制和家用电子产品中都有应用。

2、近年来,随着深度学习的发展,深度学习(deep learning)和深度神经网络(dnn)在不同领域中得到了成功的应用,语音识别技术取得了极大的发展,但说话人识别技术仍然是一项具有挑战性的任务。现代说话人识别很大程度上依赖于基于低频倒谱系数(mfcc)特征训练的深度神经网络,mfcc是由特定时频表示的功率谱获得的短期傅里叶变换(stft),在提取中具有方差较大以及部分共振峰相关信息缺失的问题,直接应用于dnn模型中,参数中包含大量的语义信息会淹没了说话人的个性信息,无法获得更好的说话人识别性能。

3、因此,基于现实应用的需求,寻找一种能够代替mfcc特征提取、更好地代表说话人个性信息的特征参数,同时实现说话人识别模型的轻量化,成为亟待解决的问题。


技术实现思路

1、鉴于此,本专利技术的目的在于提供一种基于dw-metaformer轻量级神经网络模型的说话人识别方法,以实现更好的说话人识别性能。

2、本专利技术的技术方案是:一种基于dw-metaformer轻量级神经网络模型的说话人识别方法,包括如下步骤:

3、s1:采集语音信号,并对所述语音信号进行预处理操作;

4、s2:针对预处理后的语音信号,提取短期幅度功率谱的语音特征并进行融合,其中,提取的语音特征包括梅尔倒谱系数特征、谱质心幅度系数特征和多锥谱估计特征;

5、s3:构建gmm模型,并输入所述融合特征,获取gmm统计特征;

6、s4:构建dw-metaformer轻量级神经网络模型,输入所述gmm统计特征,使用aam-softmax损失函数训练模型参数,并进行奇异值分解处理,得到低秩化dw-metaformer训练模型;

7、s5:构建虚拟教师知识蒸馏模型,并利用所述虚拟教师知识蒸馏模型对所述低秩化dw-metaformer训练模型进行知识迁移;

8、s6:使用基于软检测的代价函数训练nplda后端模型,得到训练好的nplda后端模型;

9、s7:利用训练好的低秩化dw-metaformer模型和训练好的nplda后端模型识别待识别的语音,得到识别结果。

10、优选,s1中,所述预处理包括采样、量化、预加重处理和加窗四个部分。

11、进一步优选,s2中,所述融合使用等权重线性分数融合方式。

12、进一步优选,s3具体包括如下步骤:

13、s31:使用所述融合特征训练得到ubm模型;

14、s32:使用所述ubm模型并利用map算法构建gmm模型,获取gmm统计参数。

15、进一步优选,s4具体包括如下步骤:

16、s41:构建dw-metaformer轻量级神经网络模型,所述模型包含densenet模块、maxpoolformer模块、window-msa模块和池化全连接层;

17、其中,densenet模块由三层具有大卷积核的深度可分离卷积组成,采用densnet结构;

18、maxpoolformer模块包含两层metaformer模块,模块中使用最大池化作为池化算子替代transformer中的注意力模块;

19、window-msa模块由一层包含多头注意力的transformer构成,在transformer基础上添加了分窗处理以及去除了位置信息编码;

20、池化全连接层包含全局池化层和全连接层;

21、s42:将所述gmm统计特征输入到所述dw-metaformer轻量级神经网络模型,使用aam-softmax损失函数对所述dw-metaformer轻量级神经网络模型进行训练,得到dw-metaformer训练模型;

22、s43:对所述dw-metaformer训练模型的权值矩阵进行奇异值分解,权重矩阵由式(8)分解为式(9):

23、y=φ(wxt)                              (8)

24、y=φ((wawb)xt)                            (9)

25、式中,φ为非线性激活函数,wa和wb为w的低秩表示;

26、s44:对奇异值分解后的dw-metaformer训练模型进行调参与优化,直到收敛,得到低秩化dw-metaformer训练模型。

27、进一步优选,s5具体包括如下步骤:

28、s51:手动设计一个有百分之百正确率的tf_dw-metaformer虚拟教师模型,将aam-softmax加入交叉熵函数,输出类别的概率分布设置为:

29、

30、式中,c代表正确的标签,α为类比正确的概率,z表示总类别数,通过软知识蒸馏,pd分布通过t软化为

31、虚拟教师知识蒸馏模型总的损失函数表示为式(11),其中,h(q,p)表示原始损失函数,表示为式(12):

32、

33、h(q,p)=ce+aam                         (12)

34、式中,q为真实事件类别的概率分布,p为输出类别的概率分布,dkl为kl散度损失函数;

35、s52:通过学习虚拟教师知识蒸馏模型,进行知识迁移,对低秩化dw-metaformer训练模型进一步训练。

36、进一步优选,s6具体包括如下步骤:

37、s61:构建nplda后端模型:将lda的预处理步骤构造为第一仿射层,将单位长度归一化构造为非线性激活,将plda的定心和对角化构造为另一种仿射变换,计分时,使用一对x向量,一个来自记录ηe的注册者,一个来自记录ηt的测试者,与预先训练的plda模型一起计算对数似然比,得分可由式(13)计算得到,其中,q由式(14)计算得到,p由式(15)计算得到。

38、

39、

40、

41、式中,∑tot=φφt+∑,∑ac=φφt,φ表示说话人(注册者/测试者)的子空间矩阵。

42、s62:训练nplda后端模型进行说话人识别:对代表目标和非目标假设的dw-metaformer模型输出向量进行采样,将软检测代价作为代价函数,使用随机抽样的方法来训练所述nplda后端模型,损失函数为:

43、

44、式中,θ是作为模型参数时使lprimary最小化的阈值,β是一个基于应用程序的权重,定义为:

45、

4本文档来自技高网...

【技术保护点】

1.一种基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于,包括如下步骤:

2.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S1中,所述预处理包括采样、量化、预加重处理和加窗四个部分。

3.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S2中,所述融合使用等权重线性分数融合方式。

4.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S3具体包括如下步骤:

5.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S4具体包括如下步骤:

6.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S5具体包括如下步骤:

7.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S6具体包括如下步骤:>

8.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S7具体包括如下步骤:

...

【技术特征摘要】

1.一种基于dw-metaformer轻量级神经网络模型的说话人识别方法,其特征在于,包括如下步骤:

2.按照权利要求1所述的基于dw-metaformer轻量级神经网络模型的说话人识别方法,其特征在于:s1中,所述预处理包括采样、量化、预加重处理和加窗四个部分。

3.按照权利要求1所述的基于dw-metaformer轻量级神经网络模型的说话人识别方法,其特征在于:s2中,所述融合使用等权重线性分数融合方式。

4.按照权利要求1所述的基于dw-metaformer轻量级神经网络模型的说话人识别方法,其特征在于:s3具体包括...

【专利技术属性】
技术研发人员:张德园刘晓洁石祥滨范纯龙院老虎
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1