双支路注意力机制特征融合模块的匿名说话人识别方法技术

技术编号:46593514 阅读:1 留言:0更新日期:2025-10-10 21:27
本发明专利技术公开了双支路注意力机制的匿名说话人识别方法,首先,提取音频的80维梅尔特征向量;然后,经过数据预处理后,引入双注意力机制模块对梅尔特征向量进行注意力增强,突出其中对说话人身份识别关键的频带或特征维度。将SE和ECA两个支路得到的加权特征进行融合形成新的特征向量,用ECA支路捕捉到的相邻通道的细粒度特征与SE支路的全局性特征相关联,以便说话人识别系统能够解耦更多说话人身份信息。最后使用匿名化语音评估说话人识别系统的性能,验证基于双支路注意力机制的匿名说话人识别方法的有效性。本方法利用双注意力机制模块进行特征融合,来提升说话人识别系统的性能。

【技术实现步骤摘要】

本专利技术涉及语音识别领域,具体涉及双支路注意力机制特征融合模块的匿名说话人识别方法


技术介绍

1、近年来,随着语音识别、语音合成和说话人识别技术的快速发展,语音隐私保护问题日益受到关注。匿名说话人攻击是一种旨在隐藏说话人身份信息的技术,其核心目标是通过修改或转换语音特征,使得攻击者无法准确识别原始说话人身份,同时保留语音内容的可懂度和自然度。

2、说话人识别技术通常依赖于语音信号的特征表示,其中梅尔频率倒谱系数和梅尔谱特征是最常用的特征之一。这些特征能够有效捕捉语音信号的频域特性,尤其是与说话人身份相关的声学特征(如基频、共振峰等)。匿名化说话人攻击系统的目标是通过对匿名化语音进行分析,恢复或识别出原始说话人的身份信息。即使语音已经过匿名化处理,攻击系统会试图破解匿名化算法的效果,恢复说话人的个性化特征,如声纹信息、说话人的性别、年龄等,或者将匿名化语音与特定说话人关联起来。这些攻击通常通过多种技术手段(如深度学习、特征提取、机器学习等)实现,旨在绕过匿名化措施,恢复被保护的原始语音特征。

3、尽管这些技术在实验中取得了一定成果本文档来自技高网...

【技术保护点】

1.双支路注意力机制特征融合模块的匿名说话人识别方法,其特征在于,包括特征提取阶段、注意力加权阶段及特征融合阶段,特征提取阶段包括以下步骤:

2.根据权利要求1所述的双支路注意力机制特征融合模块的匿名说话人识别方法,其特征在于,梅尔特征向量的维度为[1,T,80]。

3.根据权利要求1所述的双支路注意力机制特征融合模块的匿名说话人识别方法,其特征在于,两个支路中,SE支路由3个SE注意力机制残差时延模块组成,ECA注意力机制由1个ECA注意力机制残差时延模块组成。

4.根据权利要求1所述的双支路注意力机制特征融合模块的匿名说话人识别方法,其特征在于,步...

【技术特征摘要】

1.双支路注意力机制特征融合模块的匿名说话人识别方法,其特征在于,包括特征提取阶段、注意力加权阶段及特征融合阶段,特征提取阶段包括以下步骤:

2.根据权利要求1所述的双支路注意力机制特征融合模块的匿名说话人识别方法,其特征在于,梅尔特征向量的维度为[1,t,80]。

3.根据权利要求1所述的双支路注意力机制特征融合模块的匿名说话人识别方法,其特征在于,两个支路中,se支路由3个se注意力机制残差时延...

【专利技术属性】
技术研发人员:邵曦沈星翰王婷婷丁卓
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1