System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于声纹识别,具体涉及一种基于dw-metaformer轻量级神经网络模型的说话人识别方法。
技术介绍
1、说话人识别,又称声纹识别,其研究目标是根据每个说话人的独特发音进行身份认证。说话人识别作为生物识别中的一种远程认证方式,具有方便性、准确性、经济性等优势,引起了社会的广泛关注,在取证、监视、访问控制和家用电子产品中都有应用。
2、近年来,随着深度学习的发展,深度学习(deep learning)和深度神经网络(dnn)在不同领域中得到了成功的应用,语音识别技术取得了极大的发展,但说话人识别技术仍然是一项具有挑战性的任务。现代说话人识别很大程度上依赖于基于低频倒谱系数(mfcc)特征训练的深度神经网络,mfcc是由特定时频表示的功率谱获得的短期傅里叶变换(stft),在提取中具有方差较大以及部分共振峰相关信息缺失的问题,直接应用于dnn模型中,参数中包含大量的语义信息会淹没了说话人的个性信息,无法获得更好的说话人识别性能。
3、因此,基于现实应用的需求,寻找一种能够代替mfcc特征提取、更好地代表说话人个性信息的特征参数,同时实现说话人识别模型的轻量化,成为亟待解决的问题。
技术实现思路
1、鉴于此,本专利技术的目的在于提供一种基于dw-metaformer轻量级神经网络模型的说话人识别方法,以实现更好的说话人识别性能。
2、本专利技术的技术方案是:一种基于dw-metaformer轻量级神经网络模型的说话人识别方法,包括如下步骤:
3、s1:采集语音信号,并对所述语音信号进行预处理操作;
4、s2:针对预处理后的语音信号,提取短期幅度功率谱的语音特征并进行融合,其中,提取的语音特征包括梅尔倒谱系数特征、谱质心幅度系数特征和多锥谱估计特征;
5、s3:构建gmm模型,并输入所述融合特征,获取gmm统计特征;
6、s4:构建dw-metaformer轻量级神经网络模型,输入所述gmm统计特征,使用aam-softmax损失函数训练模型参数,并进行奇异值分解处理,得到低秩化dw-metaformer训练模型;
7、s5:构建虚拟教师知识蒸馏模型,并利用所述虚拟教师知识蒸馏模型对所述低秩化dw-metaformer训练模型进行知识迁移;
8、s6:使用基于软检测的代价函数训练nplda后端模型,得到训练好的nplda后端模型;
9、s7:利用训练好的低秩化dw-metaformer模型和训练好的nplda后端模型识别待识别的语音,得到识别结果。
10、优选,s1中,所述预处理包括采样、量化、预加重处理和加窗四个部分。
11、进一步优选,s2中,所述融合使用等权重线性分数融合方式。
12、进一步优选,s3具体包括如下步骤:
13、s31:使用所述融合特征训练得到ubm模型;
14、s32:使用所述ubm模型并利用map算法构建gmm模型,获取gmm统计参数。
15、进一步优选,s4具体包括如下步骤:
16、s41:构建dw-metaformer轻量级神经网络模型,所述模型包含densenet模块、maxpoolformer模块、window-msa模块和池化全连接层;
17、其中,densenet模块由三层具有大卷积核的深度可分离卷积组成,采用densnet结构;
18、maxpoolformer模块包含两层metaformer模块,模块中使用最大池化作为池化算子替代transformer中的注意力模块;
19、window-msa模块由一层包含多头注意力的transformer构成,在transformer基础上添加了分窗处理以及去除了位置信息编码;
20、池化全连接层包含全局池化层和全连接层;
21、s42:将所述gmm统计特征输入到所述dw-metaformer轻量级神经网络模型,使用aam-softmax损失函数对所述dw-metaformer轻量级神经网络模型进行训练,得到dw-metaformer训练模型;
22、s43:对所述dw-metaformer训练模型的权值矩阵进行奇异值分解,权重矩阵由式(8)分解为式(9):
23、y=φ(wxt) (8)
24、y=φ((wawb)xt) (9)
25、式中,φ为非线性激活函数,wa和wb为w的低秩表示;
26、s44:对奇异值分解后的dw-metaformer训练模型进行调参与优化,直到收敛,得到低秩化dw-metaformer训练模型。
27、进一步优选,s5具体包括如下步骤:
28、s51:手动设计一个有百分之百正确率的tf_dw-metaformer虚拟教师模型,将aam-softmax加入交叉熵函数,输出类别的概率分布设置为:
29、
30、式中,c代表正确的标签,α为类比正确的概率,z表示总类别数,通过软知识蒸馏,pd分布通过t软化为
31、虚拟教师知识蒸馏模型总的损失函数表示为式(11),其中,h(q,p)表示原始损失函数,表示为式(12):
32、
33、h(q,p)=ce+aam (12)
34、式中,q为真实事件类别的概率分布,p为输出类别的概率分布,dkl为kl散度损失函数;
35、s52:通过学习虚拟教师知识蒸馏模型,进行知识迁移,对低秩化dw-metaformer训练模型进一步训练。
36、进一步优选,s6具体包括如下步骤:
37、s61:构建nplda后端模型:将lda的预处理步骤构造为第一仿射层,将单位长度归一化构造为非线性激活,将plda的定心和对角化构造为另一种仿射变换,计分时,使用一对x向量,一个来自记录ηe的注册者,一个来自记录ηt的测试者,与预先训练的plda模型一起计算对数似然比,得分可由式(13)计算得到,其中,q由式(14)计算得到,p由式(15)计算得到。
38、
39、
40、
41、式中,∑tot=φφt+∑,∑ac=φφt,φ表示说话人(注册者/测试者)的子空间矩阵。
42、s62:训练nplda后端模型进行说话人识别:对代表目标和非目标假设的dw-metaformer模型输出向量进行采样,将软检测代价作为代价函数,使用随机抽样的方法来训练所述nplda后端模型,损失函数为:
43、
44、式中,θ是作为模型参数时使lprimary最小化的阈值,β是一个基于应用程序的权重,定义为:
45、
4本文档来自技高网...
【技术保护点】
1.一种基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于,包括如下步骤:
2.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S1中,所述预处理包括采样、量化、预加重处理和加窗四个部分。
3.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S2中,所述融合使用等权重线性分数融合方式。
4.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S3具体包括如下步骤:
5.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S4具体包括如下步骤:
6.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S5具体包括如下步骤:
7.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S6具体包括如下步骤:
>8.按照权利要求1所述的基于DW-Metaformer轻量级神经网络模型的说话人识别方法,其特征在于:S7具体包括如下步骤:
...【技术特征摘要】
1.一种基于dw-metaformer轻量级神经网络模型的说话人识别方法,其特征在于,包括如下步骤:
2.按照权利要求1所述的基于dw-metaformer轻量级神经网络模型的说话人识别方法,其特征在于:s1中,所述预处理包括采样、量化、预加重处理和加窗四个部分。
3.按照权利要求1所述的基于dw-metaformer轻量级神经网络模型的说话人识别方法,其特征在于:s2中,所述融合使用等权重线性分数融合方式。
4.按照权利要求1所述的基于dw-metaformer轻量级神经网络模型的说话人识别方法,其特征在于:s3具体包括...
【专利技术属性】
技术研发人员:张德园,刘晓洁,石祥滨,范纯龙,院老虎,
申请(专利权)人:沈阳航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。