基于残差网络带二维注意力和语义增强的说话人识别方法技术

技术编号:41143799 阅读:32 留言:0更新日期:2024-04-30 18:12
本发明专利技术涉及基于残差网络带二维注意力和语义增强的说话人识别方法。该方法包括以下步骤:S1:将接收语音信号的梅尔频谱图作为模型的输入;S2:将输入的语音信号的梅尔频谱图经过第一特征提取层和四个第二特征提取层,所述第一特征提取层与四个第二特征提取层串联起来进行特征提取;S3:融合多个层级特征,同时利用网络浅层和深层的信息;S4:将融合后的特征输入基于注意力机制的统计池化层和全连接层,生成说话人特征嵌入;S5:在说话人特征嵌入空间中执行有意义的语义扰动,实现特征级别的数据增强。本发明专利技术对嵌入进行有意义的语义方向增强和对数据的多维特征关联计算;扩充样本量和提高特征捕获能力,进而改善模型的性能。

【技术实现步骤摘要】

本专利技术属于声纹识别,涉及基于残差网络带二维注意力和语义增强的说话人识别方法


技术介绍

1、说话人验证是一种通过比较两个语音样本以验证它们是否由同一个说话人发出的技术。作为生物识别的一种重要方式,它被广泛应用于安全、认证和监测等领域。近年来,基于深度学习的声纹识别系统在性能上有了很大的提高。说话人系统由三个模块组成:计算说话人嵌入的特征提取模块,训练时的评分模块,以及推理时的校准模块。其中特征提取模块是最重要的组件,将高维的输入语音转换为一个紧凑的向量,即嵌入,来表示说话人特定的特征,之后再由后面的模块进行评分以迭代或者推理以判别。因此,为了取得更好的性能,对说话人特定特征提取和增强的对于说话人识别任务至关重要。随着深度学习技术的发展,基于深度学习的声纹识别系统在性能上得到了显著提升。

2、传统的说话人验证技术通常面临数据量不足和过拟合问题,这限制了模型的泛化能力。为了解决这些问题,研究者们提出了各种数据增强技术,如通过对输入音频的预处理来增加训练样本的多样性。然而,这些方法往往在计算成本和可靠性方面存在不足。

<p>3、并且传统的s本文档来自技高网...

【技术保护点】

1.基于残差网络带二维注意力和语义增强的说话人识别方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的基于残差网络带二维注意力和语义增强的说话人识别方法,其特征在于:所述S2中,第一特征提取层包括:二维卷积层、归一化层和非线性激活层,使用二维卷积层来处理输入特征,使用归一化层来调整特征的尺度,并通过非线性激活函数增强特征表示。

3.根据权利要求1所述的基于残差网络带二维注意力和语义增强的说话人识别方法,其特征在于:所述S2中,通道-频率注意力模块,引入频率的关注度和频率间依赖关系来充分利用信息,并使用压缩注意力模块SE计算频率的注意力权重,通过广播机制...

【技术特征摘要】

1.基于残差网络带二维注意力和语义增强的说话人识别方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的基于残差网络带二维注意力和语义增强的说话人识别方法,其特征在于:所述s2中,第一特征提取层包括:二维卷积层、归一化层和非线性激活层,使用二维卷积层来处理输入特征,使用归一化层来调整特征的尺度,并通过非线性激活函数增强特征表示。

3.根据权利要求1所述的基于残差网络带二维注意力和语义增强的说话人识别方法,其特征在于:所述s2中,通道-频率注意力模块,引入频率的关注度和频率间依赖关系来充分利用信息,...

【专利技术属性】
技术研发人员:李鹏华刘学超侯杰项盛辛飞洋苏沁伟陈思睿王宇豪
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1