一种通用定向语音对抗样本生成方法、系统、介质及设备技术方案

技术编号：34011575 阅读：14 留言：0更新日期：2022-07-02 14:43

本发明专利技术公开了一种通用定向语音对抗样本生成方法、系统、介质及设备，设计目标优化损失函数以实现语音扰动的通用性，最小化分类为原始正确类别的置信度，最大化分类为目标类别的置信度，同时在损失函数中引入语音扰动和原始语音的分贝差，限定扰动大小并将语音扰动的l

全部详细技术资料下载

【技术实现步骤摘要】
一种通用定向语音对抗样本生成方法、系统、介质及设备

[0001]本专利技术属于基于深度学习的安全
，具体涉及一种通用定向语音对抗样本生成方法、系统、介质及设备。

技术介绍

[0002]近年来，随着深度神经网络鲁棒性的不断提高，许多基于深度学习的应用也层出不穷，涉及到了图像、语音、文本等多个领域。然而，近期研究发现，基于深度神经网络的应用很容易对对抗样本数据识别错误。所谓对抗样本是指，在原始数据中加入人的感官难以察觉的微小扰动，就可以使得模型识别(分类)错误的假阳性数据。
[0003]具体地，根据是否提前预知网络的模型结构分为了白盒对抗样本与黑盒对抗样本；根据是否指定错误的识别结果(类别)分为了非定向对抗样本和定向对抗样本。最初，对抗样本用于图像领域的网络模型，随后，对抗样本在语音领域也被证实可行。由于引入语音扰动一方面会带来一定的噪声，另一方面由于声音传播会有衰减等现象，因此生成的语音扰动不能直接在物理世界中实现。为了解决语音扰动的噪声问题，现有方法针对每条原始数据生成特定的扰动，实用性不强；还有一些方法虽然可以生成通用扰动，但是一方面没有考虑真实世界中语音传播过程的失真等问题，另一方面只是生成了非定向扰动，不够实用，易于被察觉。为了实现物理语音扰动，现有方法仅在训练过程中加入了随机噪声，没有考虑到语音在空中传播过程所发生的一些衰减、失真和反射等现象，鲁棒性不强。
[0004]因此，如何通过已有的数据生成噪声尽可能小的通用扰动，并且可以在物理世界中依然可行，以及针对未曾见过的数据也能适用，是目前

【技术保护点】

【技术特征摘要】
1.一种通用定向语音对抗样本生成方法，其特征在于，包括以下步骤：S1、通过对语音命令分类器模型输出的置信度向量进行优化得到了生成通用扰动的损失优化函数；根据损失优化函数利用反向传播对初始的扰动进行迭代更新，得到通用定向扰动，将通用定向扰动加在任意的原始语音数据上就得到了通用定向语音对抗样本；S2、首先采用日常环境噪声对扰动做初始化，然后利用心理声学原则得到扰动和初始日常环境噪声的相似度函数，将相似度函数加入步骤S1得到的损失优化函数中，得到新的损失优化函数，重新经过迭代训练得到环境噪声掩盖下的通用定向扰动，将得到的通用定向扰动加在原始语音数据上，得到环境噪声掩盖下的通用定向语音对抗样本；S3、使用带通滤波器滤除步骤S2中初始日常环境噪声中的低频以及高频部分得到无失真扰动；然后通过对无失真扰动使用房间脉冲响应模拟得到在不同房间配置下经过混响以及反射后的混响扰动；再引入高斯白噪声到混响扰动音频中用于模拟物理世界中的背景噪声，得到物理扰动，将物理扰动作为扰动的初始值，基于步骤S2的损失优化函数对物理扰动重新迭代训练得到环境噪声掩盖下的通用定向物理扰动，将通用定向物理扰动加在原始数据中，生成通用定向物理语音对抗样本。2.根据权利要求1所述的通用定向语音对抗样本生成方法，其特征在于，步骤S1具体为：S101、首先选取语音命令分类器作为基准模型，生成基于基准模型的通用语音对抗样本；语音命令分类器一共包含8种语音命令；S102、然后根据模型输出的置信度向量得到对应的置信度损失优化函数，同时引入分贝差权衡扰动的大小和定向目标识别成功率之间的关系，得到总的损失优化函数Loss
tar
；S103、利用步骤S102的损失优化函数Loss
tar
，通过反向传播以及链式法则计算出梯度，将原始模型的参数固定不变，利用定义好的学习率对初始的通用扰动参数进行迭代更新。3.根据权利要求2所述的通用定向语音对抗样本生成方法，其特征在于，步骤S102中，损失优化函数Loss
tar
如下：Loss
tar
＝(L
tar1
+L
tar2
)/2+α
·
Diff其中，L
tar1
为第一部分损失优化函数，L
tar2
为第二部分损失优化函数，α为权重系数，Diff为分贝差。4.根据权利要求3所述的通用定向语音对抗样本生成方法，其特征在于，最小化原始正确类别置信度L
tar1
、最大化目标类别置信度L
tar2
以及Diff损失优化函数计算如下：L
tar1
＝max(F
r
(x+δ)
‑
max(F
i
(x+δ))，0)，i≠rL
tar2
＝max(max(F
j
(x+δ))
‑
F
t
(x+δ)，
‑
G)，j≠t其中，x为原始语音数据，δ为通用扰动，F
m
(
·
)为模型识别为类别m的置信度函数，r为分类正确的类别，t为定向目标类别，G是超参数，N是语音数据总数，Decibel(δ)为通用扰动对应的分贝值，Decibel(x
i
)为第i条语音数据对应的分贝...

【专利技术属性】
技术研发人员：王宝旺，丁菡，赵衰，翟临威，王鸽，惠维，赵鲲，赵季中，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人