基于残差网络带二维注意力和语义增强的说话人识别方法技术

技术编号：41143799 阅读：25 留言：0更新日期：2024-04-30 18:12

本发明专利技术涉及基于残差网络带二维注意力和语义增强的说话人识别方法。该方法包括以下步骤：S1：将接收语音信号的梅尔频谱图作为模型的输入；S2：将输入的语音信号的梅尔频谱图经过第一特征提取层和四个第二特征提取层，所述第一特征提取层与四个第二特征提取层串联起来进行特征提取；S3：融合多个层级特征，同时利用网络浅层和深层的信息；S4：将融合后的特征输入基于注意力机制的统计池化层和全连接层，生成说话人特征嵌入；S5：在说话人特征嵌入空间中执行有意义的语义扰动，实现特征级别的数据增强。本发明专利技术对嵌入进行有意义的语义方向增强和对数据的多维特征关联计算；扩充样本量和提高特征捕获能力，进而改善模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于声纹识别，涉及基于残差网络带二维注意力和语义增强的说话人识别方法。

技术介绍

1、说话人验证是一种通过比较两个语音样本以验证它们是否由同一个说话人发出的技术。作为生物识别的一种重要方式，它被广泛应用于安全、认证和监测等领域。近年来，基于深度学习的声纹识别系统在性能上有了很大的提高。说话人系统由三个模块组成：计算说话人嵌入的特征提取模块，训练时的评分模块，以及推理时的校准模块。其中特征提取模块是最重要的组件，将高维的输入语音转换为一个紧凑的向量，即嵌入，来表示说话人特定的特征，之后再由后面的模块进行评分以迭代或者推理以判别。因此，为了取得更好的性能，对说话人特定特征提取和增强的对于说话人识别任务至关重要。随着深度学习技术的发展，基于深度学习的声纹识别系统在性能上得到了显著提升。

2、传统的说话人验证技术通常面临数据量不足和过拟合问题，这限制了模型的泛化能力。为了解决这些问题，研究者们提出了各种数据增强技术，如通过对输入音频的预处理来增加训练样本的多样性。然而，这些方法往往在计算成本和可靠性方面存在不足。

3、并且传统的squeeze-and-excitation(se)模块在处理高维潜在空间时，往往难以找到理想的注意力权重分配。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供基于残差网络带二维注意力和语义增强的说话人识别方法，该方法通过隐式语义数据增强对说话人嵌入进行有意义的语义方向增强，既不需要额外的计算成本，又能提高数据的可靠性，进而提

2、为达到上述目的，本专利技术提供如下技术方案：

3、基于残差网络带二维注意力和语义增强的说话人识别方法，该方法包括以下步骤：

4、s1：将接收语音信号的梅尔频谱图作为模型的输入；

5、s2：将输入的语音信号的梅尔频谱图依次经过第一特征提取层和四个第二特征提取层，所述第一特征提取层与四个第二特征提取层串联起来进行特征提取；

6、所述第二特征提取层包含四层结构，第一层结构包括：二维卷积层、非线性激活层和归一化层；第二层结构包括：二维卷积层和归一化层；第三层结构为通道-频率注意力模块层；将通道-频率注意力模块层的输出通过残差结构与该第二特征提取层的输入的下采样连接共同经过第四层的relu非线性激活层；

7、s3：将s2提取的多个层级特征进行融合，同时利用网络浅层和深层的信息；

8、s4：将融合后的特征输入基于注意力机制的统计池化层和全连接层，生成说话人特征嵌入；

9、s5：在说话人特征嵌入空间中执行有意义的语义扰动，实现特征级别的数据增强。

10、进一步的，所述s2中，第一特征提取层包括：二维卷积层、归一化层和非线性激活层，使用二维卷积层来处理输入特征，使用归一化层来调整特征的尺度，并通过非线性激活函数增强特征表示。

11、进一步的，所述s2中，通道-频率注意力模块，引入频率的关注度和频率间依赖关系来充分利用信息，并使用压缩注意力模块se计算频率的注意力权重，通过广播机制将不同的频率注意力权重向量调整到相同的形状rc×f×1，然后进行元素级运算将频率注意力权重与通道的注意力权重进行融合，计算过程表示为：

12、ω＝ωc⊙ωf (1)

13、其中，ωc∈rc×f×1和ωf∈rc×f×1是经过广播调整的通过到注意力权重和频率注意力权重，⊙表示元素级相乘，得到通道和频率的二维平面注意力权重，将得到通道和频率的二维平面注意力权重与输入特征进行元素级乘法，来重新调整每个通道和频率的特征。

14、进一步的，使用压缩注意力模块se计算频率的注意力权重，具体为：

15、在所述压缩压励注意力模块中，输入x∈rc×f×t，其中，c是卷积通道的数量，f表示频率维度，t代表在时间维度上的特征长度；

16、se模块操作集中在通道的维度，为减少计算时的参数量，提前对频率和时间的维度进行压缩处理；

17、所述提前对频率和时间的维度进行压缩处理，具体为，对于每个通道c，将该通道上所有的元素值求均值，得到该通道上的全局平均值，即在频率时间平面上进行全局平均池化，公式表示为：

18、

19、每个通道的全局信息被聚合在向量s中，其长度为c，其中的每个元素代表对应通道的全局平均值；并用向量s来进行的求通道注意力的操作；所述通道注意力的操作是通过两个全连接层和一个非线性层来捕获跨通道的交互，如公式(3)所示：

20、ω＝σ(w2(relu(w1sc))) (3)

21、其中，σ()是sigmoid函数，w2和w1是权重矩阵，维度分别是大小为c×d和d×c的矩阵；其中，d是小于c的超参数，用于减少模型复杂度；relu激活函数被应用于w1和某个输入信号sc的乘积，激活信号被乘第二个权重矩阵w2，将维度回到的sc通道维度数，通过sigmoid激活函数将输出限制在(0,1)之间，得到每个通道的注意力权重ω∈rc，将所述得到每个通道的注意力权重作为压缩激励模块的输入x，通过按元素相乘来缩放每个通道，每个通道的信息能根据其重要性进行加权，实现对不同通道的动态调整。

22、进一步的，所述s5中，在说话人特征嵌入空间中执行有意义的语义扰动，实现特征级别的数据增强，具体为：

23、假设训练集是并且yi∈{1,…,n}是n个说话人类别上第i句音频xi的标签；向量fi＝[fi1,…,fif]t表示神经网络提取的xi的高维特征嵌入；

24、动态计算某个说话人yi的类内协方差矩阵

25、动态计算某个说话人yi的类内协方差矩阵具体为：根据每个小批量的统计数据在线计算该批量中的均值和协方差矩阵，并通过按比例聚合该批次和之前所有小批量的统计数据以在线方式计算该说话人总的协方差矩阵；在嵌入计算得出之后，计算说话人总的协方差矩阵和融合协方差矩阵，每个说话人在训练期间有自己的协方差矩阵来增强该说话人的数据；

26、以该协方差矩阵构建嵌入层次的正态分布作为采样方向，从零均值正态分布中随机采样获得表示fi的语义方向的向量；增强嵌入由公式(4)表示：

27、

28、其中，～表示的取值依赖于λ是控制语义数据增强强度的系数；

29、协方差是在训练期间动态计算的，当网络训练周期较少时，动态计算的说话人协方差矩阵不完善；在前期通过λ减少协方差对计算过程的影响；fi是初始提取的特征嵌入，是经过增强后的特征嵌入；将每个嵌入fi增强m次；将每个样本扩充到m个再计算该样本，经过最后一层线性层后计算交叉熵损本文档来自技高网...

【技术保护点】

1.基于残差网络带二维注意力和语义增强的说话人识别方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于残差网络带二维注意力和语义增强的说话人识别方法，其特征在于：所述S2中，第一特征提取层包括：二维卷积层、归一化层和非线性激活层，使用二维卷积层来处理输入特征，使用归一化层来调整特征的尺度，并通过非线性激活函数增强特征表示。

3.根据权利要求1所述的基于残差网络带二维注意力和语义增强的说话人识别方法，其特征在于：所述S2中，通道-频率注意力模块，引入频率的关注度和频率间依赖关系来充分利用信息，并使用压缩注意力模块SE计算频率的注意力权重，通过广播机制将不同的频率注意力权重向量调整到相同的形状RC×F×1，然后进行元素级运算将频率注意力权重与通道的注意力权重进行融合，计算过程表示为：

4.根据权利要求3所述的基于残差网络带二维注意力和语义增强的说话人识别方法，其特征在于：使用压缩注意力模块SE计算频率的注意力权重，具体为：

5.根据权利要求1所述的基于残差网络带二维注意力和语义增强的说话人识别方法，其特征在于：所述S5中

...

【技术特征摘要】

1.基于残差网络带二维注意力和语义增强的说话人识别方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于残差网络带二维注意力和语义增强的说话人识别方法，其特征在于：所述s2中，第一特征提取层包括：二维卷积层、归一化层和非线性激活层，使用二维卷积层来处理输入特征，使用归一化层来调整特征的尺度，并通过非线性激活函数增强特征表示。

3.根据权利要求1所述的基于残差网络带二维注意力和语义增强的说话人识别方法，其特征在于：所述s2中，通道-频率注意力模块，引入频率的关注度和频率间依赖关系来充分利用信息，...

【专利技术属性】
技术研发人员：李鹏华，刘学超，侯杰，项盛，辛飞洋，苏沁伟，陈思睿，王宇豪，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人