一种基于全局注意力机制的DenseNet-LSTM-ED的声纹识别方法技术

技术编号:39050969 阅读:6 留言:0更新日期:2023-10-12 19:43
本发明专利技术公开了一种基于全局注意力机制的DenseNet

【技术实现步骤摘要】
一种基于全局注意力机制的DenseNet

LSTM

ED的声纹识别方法


[0001]本专利技术涉及声纹识别
,更具体地说,涉及一种基于全局注意力机制的DenseNet

LSTM

ED的声纹识别方法。

技术介绍

[0002]说话人识别又称为声纹识别,是通过声音对说话者身份进行辨别认定的技术。声纹是从语音中提取出来的可以表征说话人身份的特征参数。声纹和虹膜或DNA等生物特征类似,由于每个人的鼻腔、口腔等生理机构不同,不同的说话人具有不同的发音方式和发音习惯,即使通过模仿也无法模拟出带有说话人身份信息的本质特征。因此,声纹识别能通过此特征对不同身份的人进行区分,从而对说话人身份进行判定。随着深度学习技术的迅速发展,深度学习下的声纹识别与传统声纹识别方法相比其特征表示能力更强,能够从语音中提取更高维度的抽象特征。目前基于深度学习的说话人识别算法中,大多数算法只考虑了语音的空间特征或时域特征,且模型训练难度大,准确率低。

技术实现思路

[0003]基于此,有必要针对上述这些技术问题,本专利技术提供了一种基于全局注意力机制的DenseNet

LSTM

ED的声纹识别方法,包括以下步骤:
[0004]S100:通过对语音信号分割、加窗、傅里叶变换、能量密度谱、对数变换和彩色映射得到语音信号与之对应的语谱图;
[0005]S200:将步骤S100得到的语谱图作为输入,输入至DenseNet模块进行空间特征提取,得到语音信号的空间信息;
[0006]S300:将步骤S100得到语谱图的信息复制一份送到LSTM单元中,经过t个LSTM单元后,以便于充分提取语音信号的时序信息;
[0007]S400:将步骤S100得到语谱图的信息复制一份送到ED模块中,ED模块包括对语谱图的信息进行反卷积处理、对语谱图的信息进行趋势信息处理,并对反卷积处理后的信息和趋势信息处理后的信息进行融合,对融合的反卷积处理后的信息和趋势处理后的信息进行卷积处理,生成增强信息;
[0008]S500:将DenseNet模块和LSTM单元的处理结果进行拼接,形成时空融合信息,将时空融合信息和增强信息ED进行信息融合形成时空增强信息,并对时空增强信息使用注意力机制赋予不同的权重,使用Softmax损失函数与CenterLoss损失函数联合形成总损失函数,利用总损失函数识别声纹的类别。
[0009]进一步地,所述步骤200包括:DenseNet模块包括:1个初始卷积、N个密集连接模块Dense Block、多个传输层Transition,密集连接模块Dense Block包括x0,x1,......,xl

1,xl;x0,x1,......,xl

1,xl为第0层、第1层,...,第l层的特征图,通过对各层特征图的拼接,经过非线性变换Hl(*)得到拼接特征信息H
l
([x0,x1,......x
l
‑1]),拼接特征信息H
l
([x0,
x1,......x
l
‑1])经过激活函数γ(x)特征映射得到第l层的特征图x
l
,x
l
计算式所示:
[0010]x
l
=γ(H
l
([x0,x1,......x
l
‑1]))
[0011][0012]其中,γ(x)表示激活函数,其中λ1,λ2为乘数因子,且不为整数。
[0013]进一步地,所述步骤400包括:步骤S401:对语谱图的信息进行反卷积处理;
[0014]Ot=s1*(a1

1)+k1

2*p1
[0015]其中,a1为语谱图像素点的矩阵;s1为卷积核每次移动的长度;k1为卷积核的尺寸,当卷积核的尺寸与语谱图矩阵a1尺寸大小不匹配时,p1为第一填充矩阵;当卷积核的尺寸与语谱图矩阵a1尺寸大小匹配时,p1为0;Ot为反卷积处理后的信息矩阵;
[0016]步骤S402:对语谱图的信息进行趋势信息处理;
[0017]在语谱图像素点的矩阵中,通过每一像素点位置坐标(i,g)附近k个周期的数值计算得到该像素点位置的趋势信息,计算公式如下:
[0018][0019]其中,为像素点位置坐标(i,g)的趋势信息,x(i,g)为像素点位置坐标(i,g)的原始信息,x(i,g+j)为像素点位置坐标(i,g+j)的原始信息,j∈(

k,k),k为正整数;
[0020]将语谱图的每个像素点位置通过上述计算公式进行计算,得到语谱图的趋势信息处理后的信息矩阵Dt,Dt公式如下:
[0021][0022]其中,n为正整数,m为正整数;
[0023]步骤S403:对反卷积处理后的信息和趋势信息处理后的信息进行融合;
[0024]语谱图的信息进行反卷积处理后得到的信息矩阵为Ot,对语谱图的信息进行趋势信息处理得到的信息矩阵为Dt,对反卷积处理后的信息和趋势信息处理后的信息进行融合,形成信息融合矩阵OD:
[0025][0026]其中,为反卷积处理后得到的信息矩阵为Ot的平衡参数,r为趋势缩放因子,用来控制趋势信息处理得到的信息矩阵Dt的大小;
[0027]步骤S404:对融合的反卷积处理后的信息和趋势处理后的信息的信息矩阵OD进行卷积处理,生成增强信息,将信息融合矩阵OD作为卷积处理的输入,对该信息融合矩阵OD进
行特征提取,计算公式如下:
[0028][0029]其中,ED为增强信息,k2为卷积核的尺寸,s2为卷积核移动的步幅,当卷积核的尺寸与信息融合矩阵OD尺寸大小不匹配时,p2为第二填充矩阵;当卷积核的尺寸与信息融合矩阵OD尺寸大小匹配时,p2为0。
[0030]进一步地,所述步骤500包括:
[0031]S501:将DenseNet模块和LSTM单元的处理结果进行拼接,形成时空融合信息,将时空融合信息和增强信息进行信息融合形成时空增强信息;
[0032]S502:对时空增强信息使用注意力机制赋予的权重,利用关键帧语音对声纹的类别进行识别,预测声纹的类别;
[0033]S503:使用Softmax损失函数与Center Loss损失函数联合形成总损失函数,总损失函数计算声纹的类别的真实值与预测的声纹类别的预测值的差以获得损失值;
[0034]S504:判断损失值是否等于预设值,如果是,完成了声纹类别的识别;如果否,进入步骤S505。
[0035]S505:对时空增强信息使用注意力机制赋予新的权重,利用关键帧语音对声纹的类别进行再一次识别,再一次预测声纹的类别;
[0036]S506:再一次使用Softmax损失函数与Center Loss损失函数联合形成总损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全局注意力机制的DenseNet

LSTM

ED的声纹识别方法,包括以下步骤:S100:通过对语音信号分割、加窗、傅里叶变换、能量密度谱、对数变换和彩色映射得到语音信号与之对应的语谱图;S200:将步骤S100得到的语谱图作为输入,输入至DenseNet模块进行空间特征提取,得到语音信号的空间信息;S300:将步骤S100得到语谱图的信息复制一份送到LSTM单元中,经过t个LSTM单元后,以便于充分提取语音信号的时序信息;S400:将步骤S100得到语谱图的信息复制一份送到ED模块中,ED模块包括对语谱图的信息进行反卷积处理、对语谱图的信息进行趋势信息处理,并对反卷积处理后的信息和趋势信息处理后的信息进行融合,对融合的反卷积处理后的信息和趋势处理后的信息进行卷积处理,生成增强信息;S500:将DenseNet模块和LSTM单元的处理结果进行拼接,形成时空融合信息,将时空融合信息和增强信息ED进行信息融合形成时空增强信息,并对时空增强信息使用注意力机制赋予不同的权重,使用Softmax损失函数与Center Loss损失函数联合形成总损失函数,利用总损失函数识别声纹的类别。2.根据权利要求1所述的方法,所述步骤200包括:DenseNet模块包括:1个初始卷积、N个密集连接模块Dense Block、多个传输层Transition,密集连接模块Dense Block包括x0,x1,......,xl

1,xl;x0,x1,......,xl

1,xl为第0层、第1层,...,第l层的特征图,通过对各层特征图的拼接,经过非线性变换Hl(*)得到拼接特征信息H
l
([x0,x1,......x
l
‑1]),拼接特征信息H
l
([x0,x1,......x
l
‑1])经过激活函数γ(x)特征映射得到第l层的特征图x
l
,x
l
计算式所示:x
l
=γ(H
l
([x0,x1,......x
l
‑1]))其中,γ(x)表示激活函数,其中λ1,λ2为乘数因子,且不为整数。3.根据权利要求1所述的方法,所述步骤400包括:步骤S401:对语谱图的信息进行反卷积处理;Ot=s1*(a1

1)+k1

2*p1其中,a1为语谱图像素点的矩阵;s1为卷积核每次移动的长度;k1为卷积核的尺寸,当卷积核的尺寸与语谱图矩阵a1尺寸大小不匹配时,p1为第一填充矩阵;当卷积核的尺寸与语谱图矩阵a1尺寸大小匹配时,p1为0;Ot为反卷积处理后的信息矩阵;步骤S402:对语谱图的信息进行趋势信息处理;在语谱图像素点的矩阵中,通过每一像素点位置坐标(i,g)附近k个周期的数值计算得到该像素点位置的趋势信息,计算公式如下:
其中,为像素点位置坐标(i,g)的趋势信息,x
(i,g)
为像素点位置坐标(i,g)的原始信息,x
(i,g+j)
为像素点位置坐标(i,g+j)的原始信息,j∈(

k,k),k为正整数;将语谱图的每个像素点位置通过上述计算公式进行计算,得到语谱图的趋势信息处理后的信息矩阵Dt,Dt公式如下:其中,n为正整数,m为正整数;步骤S403:对反卷积处理后的信息和趋势信息处理后的信息进行融合;语谱图的信息进行反卷积处理后得到的信息矩阵为Ot,对语谱图的信息进行趋势信息处理得到的信息矩阵为Dt,对反卷积处理后的信息和趋势信息处理后的信息进行融合,形成信息融合矩阵OD:其中,为反卷积处理后得到的信息矩阵为Ot的平衡参数,r为趋势缩放因子,用来控制趋势信息处理得到的信息矩阵Dt的大小;步骤S404:...

【专利技术属性】
技术研发人员:王鲁昆
申请(专利权)人:江苏五正信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1