【技术实现步骤摘要】
基于对抗样本的非侵入自适应说话人匿名系统及方法
[0001]本专利技术涉及(音频数据身份隐私保护)领域,具体地说,涉及一种基于对抗样本的非侵入自适应说话人匿名系统及方法。
技术介绍
[0002]近年来,语音输入逐渐普及并广泛部署到各种服务应用中,支持自动语音转录、高效语音搜索和现时语言翻译等丰富强大的功能,从而提供以人为中心的智能化交互体验。然而,在语音服务强大功能的背后,语音数据公布的隐私风险引起了广泛关注。微软、谷歌等科技巨头长期收集和存储用户语音,苹果和亚马逊等语音供应商频频被曝窃听用户谈话。尽管这些公司在隐私条款中声称会对用户数据进行匿名化处理以消除账户联系,但用户的身份隐私依然面临着各种潜在威胁,特别是许多专业的自动说话人辨认工具能够仅从数十秒语音中轻易揭露用户的声纹特征,并用于精准用户画像、定向广告投放甚至个体身份伪造等恶意目的。面对语音服务功能和个人身份隐私之间的困境,用户亟需一个可靠的语音服务隐私保护方案。
[0003]已有的说话人匿名研究重点关注通过语音转换和语音合成的范式消除语音中的个体特征同时保 ...
【技术保护点】
【技术特征摘要】
1.一种基于对抗样本的非侵入自适应说话人匿名系统,其特征在于,所述的系统包括多样目标说话人生成模块、任意对任意对抗扰动构造模块和不可感知对抗扰动优化模块,所述的多样目标说话人生成模块根据所输入的目标标签按需生成目标说话人嵌入码,所述的任意对任意对抗扰动构造模块根据所输入的目标说话人嵌入码构造对抗扰动,所述的不可感知对抗扰动优化模块进一步优化所输入的对抗扰动得到人耳不可感知的对抗扰动,所述的人耳不可感知的对抗扰动叠加到用户源语音上生成最终的对抗样本。2.一种基于对抗样本的非侵入自适应说话人匿名方法,其特征在于,所述方法包括如下步骤:1)多样目标说话人生成模块利用嵌入码级别条件变分自编码器学习说话人嵌入码的分布,根据目标说话人的目标标签在说话人隐空间中采样隐变量,并通过预训练的解码器生成目标说话人嵌入码;2)所得的目标说话人嵌入码,输入任意对任意对抗扰动构造模块,所述的任意对任意对抗扰动构造模块根据目标说话人嵌入码和输入其中的用户源语音嵌入码构建三元组,采用Triplet架构迭代式地构造对抗扰动使得说话人隐空间中对抗样本偏向目标说话人而远离原始用户;3)所得的对抗扰动输入不可感知对抗扰动优化模块,应用声学掩蔽效应来优化扰动的不可感知性,通过使对抗扰动隐藏在不可听域来减少信号失真并保留较高的语音质量,得到人耳不可感知的对抗扰动;最终,通过以上步骤生成的对抗扰动叠加到用户源语音上形成对抗样本,该样本经过自动说话人辨认会被识别为不同的目标说话人,而输入到自动语音识别系统时仍然输出正确的转录文本,同时在声纹、文本、音质方面保持良好的一致性。3.根据权利要求2所述的基于对抗样本的非侵入自适应说话人匿名方法,其特征在于,所述的步骤1)中,所述的嵌入码级别条件变分自编码器是一个编码器
‑
解码器架构的深度神经网络,包括提取器、编码器和解码器。4.根据权利要求3所述的基于对抗样本的非侵入自适应说话人匿名方法,其特征在于,所述的嵌入码级别条件变分自编码器的具体工作流程分为预训练和生成两个阶段:所述的预训练阶段:1)输入是多个说话人的语音数据,提取器将这些语音转换为频域的MFCC特征并通过TDNN层和ResBlock层学习语音的本地局部特征和上下文信息,然后采用StatPooling层提取定长的声纹嵌入码并输入到编码器中;2)编码器将目标说话人标签的one
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。