一种通用定向语音对抗样本生成方法、系统、介质及设备技术方案

技术编号:34011575 阅读:14 留言:0更新日期:2022-07-02 14:43
本发明专利技术公开了一种通用定向语音对抗样本生成方法、系统、介质及设备,设计目标优化损失函数以实现语音扰动的通用性,最小化分类为原始正确类别的置信度,最大化分类为目标类别的置信度,同时在损失函数中引入语音扰动和原始语音的分贝差,限定扰动大小并将语音扰动的l

【技术实现步骤摘要】
一种通用定向语音对抗样本生成方法、系统、介质及设备


[0001]本专利技术属于基于深度学习的安全
,具体涉及一种通用定向语音对抗样本生成方法、系统、介质及设备。

技术介绍

[0002]近年来,随着深度神经网络鲁棒性的不断提高,许多基于深度学习的应用也层出不穷,涉及到了图像、语音、文本等多个领域。然而,近期研究发现,基于深度神经网络的应用很容易对对抗样本数据识别错误。所谓对抗样本是指,在原始数据中加入人的感官难以察觉的微小扰动,就可以使得模型识别(分类)错误的假阳性数据。
[0003]具体地,根据是否提前预知网络的模型结构分为了白盒对抗样本与黑盒对抗样本;根据是否指定错误的识别结果(类别)分为了非定向对抗样本和定向对抗样本。最初,对抗样本用于图像领域的网络模型,随后,对抗样本在语音领域也被证实可行。由于引入语音扰动一方面会带来一定的噪声,另一方面由于声音传播会有衰减等现象,因此生成的语音扰动不能直接在物理世界中实现。为了解决语音扰动的噪声问题,现有方法针对每条原始数据生成特定的扰动,实用性不强;还有一些方法虽然可以生成通用扰动,但是一方面没有考虑真实世界中语音传播过程的失真等问题,另一方面只是生成了非定向扰动,不够实用,易于被察觉。为了实现物理语音扰动,现有方法仅在训练过程中加入了随机噪声,没有考虑到语音在空中传播过程所发生的一些衰减、失真和反射等现象,鲁棒性不强。
[0004]因此,如何通过已有的数据生成噪声尽可能小的通用扰动,并且可以在物理世界中依然可行,以及针对未曾见过的数据也能适用,是目前语音对抗样本领域亟待解决的问题。

技术实现思路

[0005]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种通用定向语音对抗样本生成方法、系统、介质及设备,首先通过自定义损失函数来解决通用定向扰动的生成;其次提出了如何对生成的通用定向扰动进行掩盖,使人更不易被察觉;最后实现了通用定向物理语音扰动。
[0006]本专利技术采用以下技术方案:
[0007]一种通用定向语音对抗样本生成方法,包括以下步骤:
[0008]S1、通过对语音命令分类器模型输出的置信度向量进行优化得到了生成通用扰动的损失优化函数;根据损失优化函数利用反向传播对初始的扰动进行迭代更新,得到通用定向扰动,将通用定向扰动加在任意的原始语音数据上就得到了通用定向语音对抗样本;
[0009]S2、首先采用日常环境噪声对扰动做初始化,然后利用心理声学原则得到扰动和初始日常环境噪声的相似度函数,将相似度函数加入步骤S1得到的损失优化函数中,得到新的损失优化函数,重新经过迭代训练得到环境噪声掩盖下的通用定向扰动,将得到的通用定向扰动加在原始语音数据上,得到环境噪声掩盖下的通用定向语音对抗样本;
[0010]S3、使用带通滤波器滤除步骤S2中初始日常环境噪声中的低频以及高频部分得到无失真扰动;然后通过对无失真扰动使用房间脉冲响应模拟得到在不同房间配置下经过混响以及反射后的混响扰动;再引入高斯白噪声到混响扰动音频中用于模拟物理世界中的背景噪声,得到物理扰动,将物理扰动作为扰动的初始值,基于步骤S2的损失优化函数对物理扰动重新迭代训练得到环境噪声掩盖下的通用定向物理扰动,将通用定向物理扰动加在原始数据中,生成通用定向物理语音对抗样本。
[0011]具体的,步骤S1具体为:
[0012]S101、首先选取语音命令分类器作为基准模型,生成基于基准模型的通用语音对抗样本;语音命令分类器一共包含8种语音命令;
[0013]S102、然后根据模型输出的置信度向量得到对应的置信度损失优化函数,同时引入分贝差权衡扰动的大小和定向目标识别成功率之间的关系,得到总的损失优化函数Loss
tar

[0014]S103、利用步骤S102的损失优化函数Loss
tar
,通过反向传播以及链式法则计算出梯度,将原始模型的参数固定不变,利用定义好的学习率对初始的通用扰动参数进行迭代更新。
[0015]进一步的,步骤S102中,损失优化函数Loss
tar
如下:
[0016]Loss
tar
=(L
tar1
+L
tar2
)/2+α
·
Diff
[0017]其中,L
tar1
为第一部分损失优化函数,L
tar2
为第二部分损失优化函数,α为权重系数,Diff为分贝差。
[0018]更进一步的,最小化原始正确类别置信度L
tar1
、最大化目标类别置信度L
tar2
以及DB损失优化函数计算如下:
[0019]L
tar1
=max(F
r
(x+δ)

max(F
i
(x+δ)),0),i≠r
[0020]L
tar2
=max(max(F
j
(x+δ))

F
t
(x+δ),

G),j≠t
[0021][0022]其中,x为原始语音数据,δ为通用扰动,F
m
(
·
)为模型识别为类别m的置信度函数,r为分类正确的类别,t为定向目标类别,G是超参数,N是语音数据总数,Decibel(δ)为通用扰动对应的分贝值,Decibel(x
i
)为第i条语音数据对应的分贝值。
[0023]具体的,步骤S2中,通过计算扰动和日常噪声的功率谱密度得到对应的相似度函数具体为:
[0024]首先对音频x做短时傅里叶变换得到频域信息,计算得到功率谱密度p
x
(i);然后对功率谱密度p
x
(i)进行归一化处理,得到归一化后的功率谱密度最后分别计算通用扰动δ和日常噪声θ的差值归一化后的功率谱密度与日常噪声θ归一化后的功率谱密度进一步得到相似度损失函数,通过对扰动进行迭代训练得到环境噪声掩盖下的通用定向扰动。
[0025]进一步的,相似度损失函数sim(δ

θ,θ)如下:
[0026][0027]其中,W为汉宁窗窗大小,为通用扰动和日常噪声差值的归一化后的功率谱密度,为日常噪声的归一化后的功率谱密度。
[0028]具体的,步骤S3具体为:
[0029]S301、采用带通滤波器将通用扰动语音中低于50Hz的失真信号滤除,同时滤除扰动语音数据中高于8kHz的阈值信号;
[0030]S302、采用房间脉冲响应对步骤S301处理后的通用扰动语音进行处理,根据符合T分布的不同的房间的长宽高(X,Y,Z)、麦克风的位置(x
m
,y
m
,z
m
)、扬声器的位置(x
s
,y
s
,z
s
)以及混响时间T...

【技术保护点】

【技术特征摘要】
1.一种通用定向语音对抗样本生成方法,其特征在于,包括以下步骤:S1、通过对语音命令分类器模型输出的置信度向量进行优化得到了生成通用扰动的损失优化函数;根据损失优化函数利用反向传播对初始的扰动进行迭代更新,得到通用定向扰动,将通用定向扰动加在任意的原始语音数据上就得到了通用定向语音对抗样本;S2、首先采用日常环境噪声对扰动做初始化,然后利用心理声学原则得到扰动和初始日常环境噪声的相似度函数,将相似度函数加入步骤S1得到的损失优化函数中,得到新的损失优化函数,重新经过迭代训练得到环境噪声掩盖下的通用定向扰动,将得到的通用定向扰动加在原始语音数据上,得到环境噪声掩盖下的通用定向语音对抗样本;S3、使用带通滤波器滤除步骤S2中初始日常环境噪声中的低频以及高频部分得到无失真扰动;然后通过对无失真扰动使用房间脉冲响应模拟得到在不同房间配置下经过混响以及反射后的混响扰动;再引入高斯白噪声到混响扰动音频中用于模拟物理世界中的背景噪声,得到物理扰动,将物理扰动作为扰动的初始值,基于步骤S2的损失优化函数对物理扰动重新迭代训练得到环境噪声掩盖下的通用定向物理扰动,将通用定向物理扰动加在原始数据中,生成通用定向物理语音对抗样本。2.根据权利要求1所述的通用定向语音对抗样本生成方法,其特征在于,步骤S1具体为:S101、首先选取语音命令分类器作为基准模型,生成基于基准模型的通用语音对抗样本;语音命令分类器一共包含8种语音命令;S102、然后根据模型输出的置信度向量得到对应的置信度损失优化函数,同时引入分贝差权衡扰动的大小和定向目标识别成功率之间的关系,得到总的损失优化函数Loss
tar
;S103、利用步骤S102的损失优化函数Loss
tar
,通过反向传播以及链式法则计算出梯度,将原始模型的参数固定不变,利用定义好的学习率对初始的通用扰动参数进行迭代更新。3.根据权利要求2所述的通用定向语音对抗样本生成方法,其特征在于,步骤S102中,损失优化函数Loss
tar
如下:Loss
tar
=(L
tar1
+L
tar2
)/2+α
·
Diff其中,L
tar1
为第一部分损失优化函数,L
tar2
为第二部分损失优化函数,α为权重系数,Diff为分贝差。4.根据权利要求3所述的通用定向语音对抗样本生成方法,其特征在于,最小化原始正确类别置信度L
tar1
、最大化目标类别置信度L
tar2
以及Diff损失优化函数计算如下:L
tar1
=max(F
r
(x+δ)

max(F
i
(x+δ)),0),i≠rL
tar2
=max(max(F
j
(x+δ))

F
t
(x+δ),

G),j≠t其中,x为原始语音数据,δ为通用扰动,F
m
(
·
)为模型识别为类别m的置信度函数,r为分类正确的类别,t为定向目标类别,G是超参数,N是语音数据总数,Decibel(δ)为通用扰动对应的分贝值,Decibel(x
i
)为第i条语音数据对应的分贝...

【专利技术属性】
技术研发人员:王宝旺丁菡赵衰翟临威王鸽惠维赵鲲赵季中
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1