当前位置: 首页 > 专利查询>武汉大学专利>正文

基于制造技术

技术编号:39728369 阅读:8 留言:0更新日期:2023-12-17 23:32
本发明专利技术公开了一种基于

【技术实现步骤摘要】
基于F

ratio自适应掩蔽的声纹识别系统对抗防御方法及系统


[0001]本专利技术属于生物识别安全
,涉及一种声纹识别系统对抗防御方法及系统,特别涉及一种基于
F

ratio
自适应掩蔽的声纹识别系统对抗防御方法及系统

技术背景
[0002]声纹识别系统,即说话人识别系统
(SRS)
,作为一种生物特征认证方法和一种从语音中识别特定说话人的自动化技术,已被商业产品
(

Microsoft Azure

Amazon Alexa)
采用在银行身份验证

取证测试和智能设备个性化服务中

然而,对抗性攻击的出现严重威胁着
SRSs
的安全

攻击者可以通过在干净的语音中引入难以察觉的扰动来使
SRS
错误分类,从而伪装成
SRS
信任的合法注册人

[0003]为了抵御对抗攻击,研究人员为
SRS
开发了各种对抗性防御

这些防御可以分为三类:对抗训练

随机平滑和输入重构

对抗训练以对抗样本作为增强数据重新训练分类器;随机平滑防御应用高斯噪声作为数据增强来微调分类器并使用它来构建软分类器;输入重构防御创建了一个单独的辅助模块,可以净化或破坏对抗性噪声

在现实应用需求下,一种有效的防御方法应该包括两个理想的属性:
1)
通用性,即它可以为不同的说话人识别模型提供防御,并能够防御不同的攻击;
2)
低成本,即防御的构建不需要额外的数据和计算开销,防御机制的引入不需要重新训练分类器

然而,对抗训练对于不同攻击的防御通用性差,且重训练带来了巨大的计算需求

同时,随机平滑方法在鲁棒证明阶段的高计算开销阻碍了其实际适用性

与对抗训练和随机平滑相比,输入重构防御可以更好地满足通用和低成本标准,使其在实际应用中更具前景

[0004]然而,输入重构对于自适应对抗攻击非常脆弱,因为其仅专注于净化或破坏输入数据中的对抗噪声,而忽略了输入本身就包含易被扰动特征的可能,这种遗漏为攻击者创造了使用防御信息进行自适应攻击的机会,从而产生重构防御无法轻易消除的对抗性扰动


技术实现思路


[0005]为了解决上述技术问题,本专利技术提出了一种基于
F

ratio
自适应掩蔽的声纹识别系统对抗防御方法及系统,本专利技术基于非鲁棒特征筛除的思想来保证防御能力,而不是对抗噪声的破坏或净化

[0006]本专利技术的方法所采用的技术方案是:一种基于
F

ratio
自适应掩蔽的声纹识别系统对抗防御方法,包括以下步骤:
[0007]步骤1:对输入语音进行特征提取,生成一个维度为
[
频带
×
时长
]的矩阵,记为幅度谱图;
[0008]步骤2:对幅度谱图进行去噪得到去噪幅度谱图;
[0009]步骤3:使用
F

ratio
统计去噪幅度谱图中用以区分说话人的高相关频带集合和低
相关频带集合;
[0010]步骤4:分别计算高说话人相关频带和低说话人相关频带的掩蔽阈值;
[0011]步骤5:对于高说话人相关频带,幅度值小于对应频带掩蔽阈值的点,其值置为0;对于低说话人相关频带,幅度值小于对应频带掩蔽阈值的点,其值置为0,得到最终重构幅度谱图;
[0012]步骤6:将重构幅度谱图利用
librosa.griffinlim
变换,得到对应波形信号作为重构语音;
[0013]步骤7:使用批量干净样本进行语音重构,使用重构语音进行
SRS
微调训练,以保证
SRS
的分类性能

[0014]作为优选,步骤1中,对输入语音进行短时傅里叶变化,之后求取绝对值,以进行特征提取

[0015]作为优选,步骤2的具体实现包括以下子步骤:
[0016]步骤
2.1
:随机生成一个与输入音频同长的高斯噪声,并将其经过短时傅里叶变化转换成高斯噪声幅度谱图;
[0017]步骤
2.2
:使用幅度谱图减去高斯噪声幅度谱图得到去噪幅度谱图

[0018]作为优选,步骤3的具体实现包括以下子步骤:
[0019]步骤
3.1
:利用
LibriSpeech
的干净数据集,选取
M
个人,每个人选取
N
句话,计算所有音频的平均长度,将所有音频补长或修剪到统一长度;其中,
M、N
为预设值;
[0020]步骤
3.2
:定义其中,代表第
i
个说话人的第
j
个幅度谱特征,
j

1,2,...,N

i

1,...,M

u
i

u
分别代表第
i
个说话人和全部说话人的平均特征,
[0021]各变量维度
d

dim(Fratio)

dim(x)

dim(u)

[
频带
×
时长
]=
[B
×
F];
[0022]步骤
3.3
:计算高说话人相关和低说话人相关的划分阈值其中
B
为总频带数目;
Fratio
b
表示第
b
个频带对应的平均
Fratio
数值,若
Fratio
b
>
τ
,则将此频带划分到高说话人相关频带集合,反之划入低说话人相关频带集合

[0023]作为优选,步骤4中,首先随机生成与输入音频同长且范围为
(
ε
,

ε
)
的均匀噪声作为模拟对抗噪声,
ε
表示用来控制噪声大小的参数;之后将模拟对抗噪声添加到原始音频得到模拟对抗样本,再将模拟对抗样本经过短时傅里叶变化转换提取特征得到加噪幅度谱图;然后将加噪幅度谱图减去幅度谱图得到差值谱图,之后以频带为单位,计算高说话人相关频带集合中每个频带对应的最大差值;将
α
×
高说话人相关频带集合中每个频带对应的最大差值,作为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
F

ratio
自适应掩蔽的声纹识别系统对抗防御方法,其特征在于,包括以下步骤:步骤1:对输入语音进行特征提取,生成一个维度为
[
频带
×
时长
]
的矩阵,记为幅度谱图;步骤2:对幅度谱图进行去噪得到去噪幅度谱图;步骤3:使用
F

ratio
统计去噪幅度谱图中用以区分说话人的高相关频带集合和低相关频带集合;步骤4:分别计算高说话人相关频带和低说话人相关频带的掩蔽阈值;步骤5:对于高说话人相关频带,幅度值小于对应频带掩蔽阈值的点,其值置为0;对于低说话人相关频带,幅度值小于对应频带掩蔽阈值的点,其值置为0,得到最终重构幅度谱图;步骤6:将重构幅度谱图利用
librosa.griffinlim
变换,得到对应波形信号作为重构语音;步骤7:使用批量干净样本进行语音重构,使用重构语音进行
SRS
微调训练,以保证
SRS
的分类性能
。2.
根据权利要求1所述的基于
F

ratio
自适应掩蔽的声纹识别系统对抗防御方法,其特征在于:步骤1中,对输入语音进行短时傅里叶变化,之后求取绝对值,以进行特征提取
。3.
根据权利要求1所述的基于
F

ratio
自适应掩蔽的声纹识别系统对抗防御方法,其特征在于,步骤2的具体实现包括以下子步骤:步骤
2.1
:随机生成一个与输入音频同长的高斯噪声,并将其经过短时傅里叶变化转换成高斯噪声幅度谱图;步骤
2.2
:使用幅度谱图减去高斯噪声幅度谱图得到去噪幅度谱图
。4.
根据权利要求1所述的基于
F

ratio
自适应掩蔽的声纹识别系统对抗防御方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤
3.1
:利用
LibriSpeech
的干净数据集,选取
M
个人,每个人选取
N
句话,计算所有音频的平均长度,将所有音频补长或修剪到统一长度;其中,
M、N
为预设值;步骤
3.2
:定义其中,代表第
i
个说话人的第
j
个幅度谱特征,
j

1,2,...,N

i

1,...,M

u
i

u
分别代表第
i
个说话人和全部说话人的平均特征,各变量维度
d

dim(Fratio)

dim(x)

dim(u)

[
频带
×
时长
]

[B
×
F]
;步骤
3.3

【专利技术属性】
技术研发人员:任延珍孙宗锟黄逸焕刘武洋朱洪承
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1