【技术实现步骤摘要】
一种基于多类谱图特征注意力融合网络的说话人识别方法
[0001]本专利技术涉及声纹识别领域,具体的说,涉及一种基于多类谱图特征注意力融合网络的说话人识别方法。
技术介绍
[0002]说话人识别也称为声纹识别,是指通过对说话人语音信号的分析处理,确认说话人是否属于所记录的说话人集合,以及进一步确认说话人是谁。按其最终完成的任务不同,说话人识别可以分为两类:说话人确认和说话人辨认。
[0003]说话人识别领域应用十分广泛,包括公安领域、金融领域、军事领域以及医疗领域等等。但传统的说话人识别技术(如GMM
‑
UBM、GMM
‑
SVM、JFA、i
‑
vector等)准确率低、鲁棒性弱、实用性不强,无法满足当前实际应用要求。近年来深度学习在特征表达和模式分类方面表现优异,为说话人识别技术的进一步发展提供了新方向。
[0004]单一的说话人特征无法较好的完整表达说话人身份,不能完整的表示说话人语音在不同维度上的信息,可能会产生过拟合。除单一特征外,许多学者将一个深度网络中不同层的输出作为特征,以此来丰富说话人的身份特征,但特征间冗余度较高,同时也会极大增加系统的计算量。因此,目前说话人识别算法无法较好的表达说话人身份信息,其识别的准确率有待提高。
技术实现思路
[0005]本专利技术针对现有技术存在的不足,提供了一种基于多类谱图特征注意力融合网络的说话人识别方法,只需将语音信号变换成三种不同的谱图,并将三种谱图在空间上进行堆叠,依次训练三个34
【技术保护点】
【技术特征摘要】
1.一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:包括以下步骤:步骤1:对语音信号进行端点检测,去除收集到的语音信号中所包含的静音片段,消除无声段噪声;步骤2:预加重,去除口唇辐射的影响,增加语音的高频分辨率;步骤3:对预加重后的语音信号进行分帧,设置在相邻的两帧之间有一部分重叠;步骤4:对分帧后的每帧语音信号进行加窗;步骤5:对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音信号的频谱;步骤6:分别计算生成语音信号的语谱图、Mel
‑
Fbank谱图和Gam
‑
Fbank谱图;步骤7:分别利用语谱图、Mel
‑
Fbank谱图和Gam
‑
Fbank谱图作为神经网络的输入,训练三个残差34层网络模型;步骤8:将三种谱图堆叠成谱图立方体作为神经网络的输入,训练3DCNN残差网络模型;步骤9:在三个残差34层网络模型和3DCNN残差网络模型的后端分别引入注意力机制,分配给每个通道不同的权重,关注重要的特征,抑制不重要的特征,从而生成最佳特征向量;步骤10:将三个残差34层网络模型和3DCNN残差网络模型生成的特征向量进行特征融合;步骤11:将融合后的特征向量与数据库中已有的特征向量进行相似度计算,设定阈值,判决出说话人。2.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤2预加重,所述预加重通过一阶FIR滤波器来实现,所述一阶FIR滤波器的传递函数模型表示为:H(z)=1
‑
az
‑1其中,H(z)为预加重函数,z表示z变换域变量,a为预加重系数,并且0.9<a<1.0。3.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤4中对分帧后的信号进行加窗,应用汉宁窗模型,所述汉宁窗模型的表达式为:其中w(n)是汉宁窗函数,M是每帧的样本数,n为时域离散刻度。4.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:所述步骤5中对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱X(k),可表示为:其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N离散傅里叶变换区间长度,k
为频域离散刻度,n为时域离散刻度。5.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法,其特征在于:步骤6中语谱图的生成过程为:A1)对输入的语音信号进行量化采样和预处理,对处理好的每一帧时域信号通过离散傅里...
【专利技术属性】
技术研发人员:贾勇,焦旭,张葛祥,杨强,姚光乐,方祖林,罗标,汤刚,何瑶,
申请(专利权)人:成都图灵志杨信息科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。