一种基于多类谱图特征注意力融合网络的说话人识别方法技术

技术编号:32259175 阅读:12 留言:0更新日期:2022-02-12 19:19
本发明专利技术公开了一种基于多类谱图特征注意力融合网络的说话人识别方法,采用改进的34层残差网络和3DCNN残差网络作为识别模型,将语音信号分别转化为语谱图、Mel

【技术实现步骤摘要】
一种基于多类谱图特征注意力融合网络的说话人识别方法


[0001]本专利技术涉及声纹识别领域,具体的说,涉及一种基于多类谱图特征注意力融合网络的说话人识别方法。

技术介绍

[0002]说话人识别也称为声纹识别,是指通过对说话人语音信号的分析处理,确认说话人是否属于所记录的说话人集合,以及进一步确认说话人是谁。按其最终完成的任务不同,说话人识别可以分为两类:说话人确认和说话人辨认。
[0003]说话人识别领域应用十分广泛,包括公安领域、金融领域、军事领域以及医疗领域等等。但传统的说话人识别技术(如GMM

UBM、GMM

SVM、JFA、i

vector等)准确率低、鲁棒性弱、实用性不强,无法满足当前实际应用要求。近年来深度学习在特征表达和模式分类方面表现优异,为说话人识别技术的进一步发展提供了新方向。
[0004]单一的说话人特征无法较好的完整表达说话人身份,不能完整的表示说话人语音在不同维度上的信息,可能会产生过拟合。除单一特征外,许多学者将一个深度网络中不同层的输出作为特征,以此来丰富说话人的身份特征,但特征间冗余度较高,同时也会极大增加系统的计算量。因此,目前说话人识别算法无法较好的表达说话人身份信息,其识别的准确率有待提高。

技术实现思路

[0005]本专利技术针对现有技术存在的不足,提供了一种基于多类谱图特征注意力融合网络的说话人识别方法,只需将语音信号变换成三种不同的谱图,并将三种谱图在空间上进行堆叠,依次训练三个34层残差网络和一个3DCNN残差网络模型,最后将输出的特征向量进行融合识别,有效的解决了单一特征无法完整表达说话人身份的问题,提高了说话人识别的准确率。
[0006]本专利技术的具体技术方案如下:
[0007]一种基于多类谱图特征注意力融合网络的说话人识别方法,如图1所示,包括以下步骤:
[0008]步骤1:对语音信号进行端点检测,目的是去除收集到的语音所包含的静音片段,消除无声段噪声;
[0009]步骤2:对消除静音片段后的语音信号进行预加重,目的是去除口唇辐射的影响,增加语音的高频分辨率;
[0010]步骤3:对预加重后的语音信号进行分帧,由于语音信号在“短时间”内可以认为是稳态的、时不变的,所以在进行语音信号处理前需要分帧,帧长一般取10~30ms,并且为了使特征参数平滑地变化,往往设置在相邻的两帧之间有一部分重叠;
[0011]步骤4:对分帧后的每帧语音信号进行加窗,目的是为了减少语音信号截断导致的频谱泄露;
[0012]步骤5:对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
[0013]步骤6:分别计算生成语音信号的语谱图、Mel

Fbank谱图和Gam

Fbank谱图;
[0014]步骤7:分别利用语谱图、Mel

Fbank谱图和Gam

Fbank谱图作为神经网络的输入,训练三个残差34层网络模型;
[0015]步骤8:将三种谱图堆叠成谱图立方体作为神经网络的输入,训练3DCNN残差网络模型;
[0016]步骤9:在上述四个模型后端分别引入注意力机制,目的是分配给每个通道不同的权重,让网络关注重要的特征,抑制不重要的特征,从而生成最佳特征向量。
[0017]步骤10:将三个残差34层网络模型和3DCNN残差网络模型生成的特征向量进行特征融合;
[0018]步骤11:将融合后的特征向量与数据库中已有的特征向量进行相似度计算,设定阈值,从而判决出说话人。
[0019]作为优选:步骤2中语音信号进行预加重操作,预加重可通过一阶FIR滤波器来实现,其传递函数可表示为:
[0020]H(z)=1

az
‑1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0021]式(1)中,a为预加重系数,通常可以取0.9<a<1.0。
[0022]作为优选:步骤4中对分帧后的信号进行加窗,应用汉宁窗,其表达式为:
[0023][0024]其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N离散傅里叶变换区间长度,k为频域离散刻度,n为时域离散刻度。
[0025]作为优选:步骤5中对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱X(k),可表示为:
[0026][0027]其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N离散傅里叶变换区间长度,k为频域离散刻度,n为时域离散刻度。
[0028]作为优选:步骤6中语谱图的生成过程为:
[0029]A1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
[0030]A2)取傅里叶变换后的频谱的对数能量,生成语谱图。
[0031]作为优选:步骤6中梅尔谱图的生成过程为:
[0032]B1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
[0033]B2)将频谱输入Mel滤波器组进行滤波,生成Mel频谱,取Mel频谱的对数能量,生成梅尔谱图。
[0034]作为优选:步骤6中Gam

Fbank谱图的生成过程为:
[0035]C1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱;
[0036]C2)将频谱输入Gammatone滤波器组进行滤波,生成Gammatonel频谱,取Gammatone频谱的对数能量,生成Gam

Fbank谱图。
[0037]作为优选:步骤B2中Mel滤波器是对人耳感知非线性频率变化的模拟,Mel刻度和频率的关系如下:
[0038][0039]式中,m为Mel刻度,f为频率。
[0040]作为优选:步骤B2中Mel滤波器是一组三角带通滤波器Hm(k),且需满足0≤m≤M,其中M表示滤波器的数量,通常为20~28。带通滤波器的传递函数可以表示为:
[0041][0042]其中,H(k)为带通滤波器函数,f(m)为中心频率,m表示第m个滤波器,k为频域刻度。
[0043]作为优选:步骤C2中Gammatone滤波器组用于模拟耳蜗底膜的听觉特性,其时域表达式如下:
[0044]h(f,t)=ct
n
‑1e

2πbt
cos(2πf
i

i
)t>0,0<i≤N
ꢀꢀꢀꢀꢀꢀꢀ
(6)
[0045]式(6)中,c为调节比例的常数,n为滤波器的级数,b为衰减速度,i为滤波器序数,f
i...

【技术保护点】

【技术特征摘要】
1.一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:包括以下步骤:步骤1:对语音信号进行端点检测,去除收集到的语音信号中所包含的静音片段,消除无声段噪声;步骤2:预加重,去除口唇辐射的影响,增加语音的高频分辨率;步骤3:对预加重后的语音信号进行分帧,设置在相邻的两帧之间有一部分重叠;步骤4:对分帧后的每帧语音信号进行加窗;步骤5:对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音信号的频谱;步骤6:分别计算生成语音信号的语谱图、Mel

Fbank谱图和Gam

Fbank谱图;步骤7:分别利用语谱图、Mel

Fbank谱图和Gam

Fbank谱图作为神经网络的输入,训练三个残差34层网络模型;步骤8:将三种谱图堆叠成谱图立方体作为神经网络的输入,训练3DCNN残差网络模型;步骤9:在三个残差34层网络模型和3DCNN残差网络模型的后端分别引入注意力机制,分配给每个通道不同的权重,关注重要的特征,抑制不重要的特征,从而生成最佳特征向量;步骤10:将三个残差34层网络模型和3DCNN残差网络模型生成的特征向量进行特征融合;步骤11:将融合后的特征向量与数据库中已有的特征向量进行相似度计算,设定阈值,判决出说话人。2.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤2预加重,所述预加重通过一阶FIR滤波器来实现,所述一阶FIR滤波器的传递函数模型表示为:H(z)=1

az
‑1其中,H(z)为预加重函数,z表示z变换域变量,a为预加重系数,并且0.9<a<1.0。3.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤4中对分帧后的信号进行加窗,应用汉宁窗模型,所述汉宁窗模型的表达式为:其中w(n)是汉宁窗函数,M是每帧的样本数,n为时域离散刻度。4.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤5中对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱X(k),可表示为:其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N离散傅里叶变换区间长度,k
为频域离散刻度,n为时域离散刻度。5.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:步骤6中语谱图的生成过程为:A1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里...

【专利技术属性】
技术研发人员:贾勇焦旭张葛祥杨强姚光乐方祖林罗标汤刚何瑶
申请(专利权)人:成都图灵志杨信息科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1