一种自适应声纹识别方法及系统技术方案

技术编号：35865652 阅读：8 留言：0更新日期：2022-12-07 10:57

本发明专利技术涉及声纹识别技术领域，具体涉及一种自适应声纹识别方法及系统，该网络包括输入层，卷积

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应声纹识别方法及系统

[0001]本专利技术涉及声纹识别
，具体涉及一种自适应声纹识别方法及系统。

技术介绍

[0002]声纹识别作为一项重要的生物特征识别技术，以其广泛应用前景，成为了人们近年来关注和研究的焦点。声纹是携带了语音信息的声波频谱，因其具有特定性和相对稳定性的特点，可将语音中的声纹信息作为确定发声目标的有效依据。在实际应用中，可通过提取待检测人的声纹信息进行身份验证。这不仅符合人类的自然习惯，还能满足人们对身份认证便利性的要求。
[0003]相比于传统的声纹识别方法，基于深度学习的声纹识别方法在声纹识别任务中有更优异的表现，但仍有很多的不足和问题急待解决。现有方法大多网络结构单一，提取的声纹特征表征能力弱，对带有噪音和时长较短的语音数据的识别效果差，难以满足声纹识别的应用需求。如何设计网络结构使其在复杂语音场景下能够提取具有更强表征能力的声纹特征面临着巨大的挑战。
[0004]本专利技术使用注意力机制将ResNet和TDNN融合，并将注意力机制作用于多尺度时延神经网络。由此，在声纹识别过程中，本专利技术能够提取更高分辨率的声纹信息，有效结合不同时域范围中的声纹信息，提升了声纹识别效果，在复杂的语音场景下也能够具有良好的表现。

技术实现思路

[0005]本专利技术提供了一种基于ResNet和TDNN的自适应声纹识别方法及系统，解决了现有声纹识别方法受环境噪音和语音时长影响大，从而使得声纹识别效果不佳的问题。
[0006]为实现上述技术目的，本专利技术通...

【技术保护点】

【技术特征摘要】
1.一种自适应声纹识别方法，其特征在于，包括：输入层，用于接收待处理的语音数据，并计算语音的声学特征；卷积
‑
残差模块，用于接收输入层产生的语音声学特征，并捕捉语音声学特征的频域和时域局部特征；注意力模块，用于对特征图的频域和通道之间的相互依赖关系建模，以自适应地调整局部特征；时延神经网络模块，用于自适应捕获完整频率和通道范围内的声纹特征；注意力策略池模块，用于对声纹特征进行基于自注意力的池化操作；全连接模块，用于接收来自注意力策略池模块的声纹向量，计算得到声纹嵌入向量和分类信息。2.如权利要求1所述的一种自适应声纹识别方法，其特征在于，所述卷积
‑
残差模块，包含2个卷积层和2个残差层，执行：根据第一卷积层对语音的声学特征进行卷积处理得到第一特征图；根据第i残差层接收当前特征图，其中，当前特征图为第一特征图或者为第i
‑
1残差层输出的第二特征图，i大于0且不大于2；根据第二卷积层对第二残差层输出的第三特征图进行卷积处理，并将处理结果的频域和通道特征合并，得到第四特征图。3.如权利要求1所述的一种自适应声纹识别方法，其特征在于，所述注意力模块，执行：接收第四特征图或第九特征图，并对其进行全局平均池化操作，使输入特征具有全局感受野；依次通过2个线性层和1个Sigmoid层，自适应计算特征权重；将计算得到的权重与第四特征图或第九特征图相乘，得到加权后的第五特征图或第十特征图。4.如权利要求1所述的一种自适应声纹识别方法，其特征在于，所述的时延神经网络模块，由3个TDNN层、N个SK
‑
TDNN层组成，N为大于1的整数，i大于0且不大于N，执行：第一TDNN层用于接收第五特征图，并完成特征降维，得到第六特征图；第二TDNN层用于接收第六特征图，提取语音特征在时间上的关系，得到第七特征图；对于N个SK
‑
TDNN层中的第i个SK
‑
TDNN层，执行：接收当前特征图，其中，当前特征图为第六特征图或者为第i
‑
1个SK
‑
TDNN层输出的第十特征图；根据考虑1帧语音信息的第一时延神经单元，对当前特征图进行处理以得到第七特征图；根据考虑相邻3帧和5帧语音信息的第二、三时延神经单元，分别处理第七特征图，并将处理结果求和。对于求和后的特征，通过多尺度时延神经单元注意力模块，首先在时域维度进行全局平均池化操作；然后，通过1个全连接层后，再分为两个分支，每个分支包含1个全连接层和1个Sigmoid层，自适应计算特征的权重；最后，将计算得到的权重分别与第二、三时延神经单元处理后的结果相乘后求和，得到第八特征图；
根据仅考虑1帧语音信息的第四时延神经单元，对第八特征图进行处理以得到第九特征图；根据所述注意力模块处理第九特征图得到第十特征图；第三TDNN层用于接收N个SK
‑
TDNN层的输出，聚合不同层次的语音信息，得到第十一特征图。5.如权利要求1所述的一种自适应声纹识别方法，其特征在于，所述注意力策略池模块，用于接收第十一特征图，处理得到语音加权声纹向量，对于一个含有T帧的语音X＝{x1,x2,
…
,x
T
}，经过所述网络可计算得到一个具有T帧的语音向量H＝{h1,h2,
…
,h
T
}，H的尺度为d
h
×
T，语音特征权重计算方式如下：A＝σ(g(H
T
W1)W2)其中，W1是d
h
×
d
r
的矩阵，W2是d
r
×
d
h
的矩阵，g(
·...

【专利技术属性】
技术研发人员：吕泽均，刘蕊，朱智慧，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人