一种基于自适应触发器的声纹识别后门样本生成方法技术

技术编号:35823216 阅读:22 留言:0更新日期:2022-12-03 13:49
一种基于自适应触发器的声纹识别后门样本生成方法,首先确定生成器、判别器、分类网络的参数结构,分类网络应能以高精度正确预测样本;其次生成器将语音样本与随机噪声维度拼接,通过编码

【技术实现步骤摘要】
一种基于自适应触发器的声纹识别后门样本生成方法


[0001]本专利技术涉及一种基于自适应触发器的声纹识别后门样本生成方法,本专利技术属于深度学习安全领域。

技术介绍

[0002]声纹识别作为生物特征识别的一种,即利用人体所固有的生理特征或行为特征来进行个人身份鉴定的技术。因声音采集便捷廉价,声纹识别的算法复杂度相对较低且声音涉及到的隐私较少,被大量应用于多个领域,如在金融领域,应用声纹识别技术将办理人与数据库进行比对匹配;在公共安全领域,利用通话时留下的语音数据进行声纹识别;在移动支付领域,可以采用动态支付口令结合声纹识别技术,构筑双重保障,确保支付安全等。
[0003]然而最近的研究证明,声纹识别模型容易受到中毒攻击,通过中毒数据集训练的中毒模型在干净的数据集上表现正常,但在带有触发器的数据集上会展现特定的错误。中毒攻击可分为三类:用户采用第三方数据集;用户采用第三方平台;用户直接采用第三方模型。现有的中毒攻击大部分是第一种情况,用户在不知情的情况下使用网上的中毒数据集训练自己的模型,然而这种攻击存在缺陷,攻击者在不知道模型架构的情况下中毒数据集,设置的中毒触发器都是固定且单一的,这种触发器与样本的特征有较大的差异从而导致了效果差或者容易被察觉。因此,怎样设置具有高隐蔽性的触发器至关重要。

技术实现思路

[0004]本专利技术要克服现有技术的上述缺点,提供一种基于自适应触发器的声纹识别后门样本生成方法。本专利技术利用生成器网络,判别器网络与分类模型联合训练,在不降低模型精度的情况下有效的中毒模型,生成器会基于样本的特征产生不同的触发器,具有更好的隐蔽性。
[0005]本专利技术解决其技术问题所采用的技术方案是:根据语音信号的特征搭建生成器网络、判别器网络以及分类模型的结构,生成器网络将样本与采样的随机噪声映射为自适应触发器,判别器用来区分加入触发器的样本与原样本的区别从而限制触发器的大小,分类网络在加入自适应触发器的数据集上进行中毒训练,最后训练好的生成器能产生更隐蔽的触发器且有效的欺骗模型。
[0006]一种基于自适应触发器的声纹识别后门样本生成方法,含有以下步骤:
[0007]步骤1:根据语音信号搭建生成器模型、判别器模型与分类网络;
[0008]步骤2:训练判别器的权重;
[0009]步骤3:训练分类网络的权重;
[0010]步骤4:利用联合网络,冻结判别器与分类网络,训练生成器的权重;
[0011]步骤5:不断重复步骤2~4,保存期望的分类网络、生成器的结构与权重;
[0012]步骤6:测试分类网络的测试精度与攻击成功率。
[0013]进一步,步骤1具体包括:搭建生成器模型G的结构、搭建判别器模型D 的结构,指
定分类模型F的结构与参数且不在变化。本专利技术直接对语音原始波形进行分类,因此生成器、判别器与分类模型均采用1DCNN形式,分类网络与判别器的结构包含1D卷积层、1D最大池化层、全连接层与批归一化层:其参数主要有卷积层的数量和大小,池化层的步长与尺寸、批归一化层的数量。生成器结构包含1D卷积层、1D最大池化层、1D上采样层:其参数主要有卷积层数量与大小、池化层与上采样层的尺寸。分类任务的数据集需预先给定,根据采样率提取其波形特征。
[0014]进一步,步骤2具体包括:训练判别器的权重,判别器用来限制触发器的大小,生成器的输出结合干净样本作为触发器的输入。生成器能将语音样本x 以及随机采样的噪声z映射为特定的触发器,其中语音样本、采样的噪声以及触发器具有相同的维度。在每次迭代中,随机从训练集X
train
中m个样本作为一个批次,将这些样本输入至生成器,与采样的m个随机噪声结合,生成器将其映射为触发器:G(x
i
,z
i
)。将触发器添加到干净样本中生成噪声样本,即G(x
i
,z
i
)+x
i
,利用判别器的二交叉熵损失函数进行梯度下降更新判别器的权重,损失函数如下所示:
[0015][0016]其中Φ表示判别器的权重参数,损失函数是二元交叉熵损失。对于判别器而言,干净样本被标记为1,来自生成器的中毒样本被标记为0。D(x
i
)表示判别器对于干净样本的输出,若第i个样本是噪声样本,D(G(x
i
,z
i
)+x
i
)则表示判别器对于噪声样本的输出,最小化该损失函数使判别器能够准确识别噪声样本与干净样本,用来限制触发器的大小。
[0017]进一步,步骤3具体包括:训练分类网络,首先预先指定中毒比例λ,从训练集X
train
中挑选出干净样本集X
clean
与预中毒样本集X
p
且不再变化,即:
[0018]X
train
=X
clean UX
p
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0019]|X
train
|=λ
·
|X
p
|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0020]然后在干净样本集和中毒样本集中分别挑选一个批次样本,数量都为m,将中毒样本的标签标记为期望攻击的类别t,保持干净样本集不变,利用干净交叉熵损失函数与中毒交叉熵损失函数训练一个中毒模型,总损失函数如下:
[0021][0022]其中,前半部分是干净交叉熵损失函数,后半部分是中毒交叉熵损失函数。其中Ψ表示分类模型的权重参数,N表示类别的数目;y
ij
表示第i个样本属于第 j个类别的真实概率(0或者1);C
j
(.)表示语音被分类为第j类的概率;t表示中毒类别;G(x

i
,z
i
)表示样本x
i
的触发器;G(x

i
,z
i
)+x

i
表示不断更新的中毒语音。另外, x和x

i
来自不同分布,其中他们是两个不重叠的子集,x

i
被采样去生成中毒样本。同时最小化干净交叉熵损失与中毒交叉熵损失,在保持模型精度的前提下使模型中毒,在所有样本上训练一次计作一次迭代。
[0023]进一步,步骤4具体包括:训练生成器,首先将生成器网络,判别器网络,分类模型结合为一个联合网络F;其次冻结判别器D的权重与分类模型C的权重,使两者的权重参数停止更新;然后从训练集中任意采样一个批次样本,数量为m,将其输入到联合网络F中,利用判别器与分类模型的输出反馈训练生成器,损失函数如下:
[0024][0025]其中,m表示采样样本的数量;Θ表示生成器的权重参数;G(x
i
,z
i
)表示样本x
i
的触发器;G(x
i
,z...

【技术保护点】

【技术特征摘要】
1.一种基于自适应触发器的声纹识别后门样本生成方法,其特征在于,包括以下步骤:步骤1:根据语音信号搭建生成器模型、判别器模型与分类网络;步骤2:训练判别器的权重;步骤3:训练分类网络的权重;步骤4:利用联合网络,冻结判别器与分类网络,训练生成器的权重;步骤5:不断重复步骤2~4,保存期望的分类网络、生成器的结构与权重;步骤6:测试分类网络的测试精度与攻击成功率。2.如权利要求1所述的基于自适应触发器的声纹识别后门样本生成方法,其特征在于,步骤1具体包括:搭建生成器模型G的结构、搭建判别器模型D的结构,指定分类模型F的结构与参数且不在变化。本发明直接对语音原始波形进行分类,因此生成器、判别器与分类模型均采用1DCNN形式,分类网络与判别器的结构包含1D卷积层、1D最大池化层、全连接层与批归一化层:其参数主要有卷积层的数量和大小,池化层的步长与尺寸、批归一化层的数量。生成器结构包含1D卷积层、1D最大池化层、1D上采样层:其参数主要有卷积层数量与大小、池化层与上采样层的尺寸。分类任务的数据集需预先给定,根据采样率提取其波形特征。3.如权利要求1所述的基于自适应触发器的声纹识别后门样本生成方法,其特征在于,步骤2具体包括:训练判别器的权重,判别器用来限制触发器的大小,生成器的输出结合干净样本作为触发器的输入。生成器能将语音样本x以及随机采样的噪声z映射为特定的触发器,其中语音样本、采样的噪声以及触发器具有相同的维度。在每次迭代中,随机从训练集X
train
中m个样本作为一个批次,将这些样本输入至生成器,与采样的m个随机噪声结合,生成器将其映射为触发器:G(x
i
,z
i
)。将触发器添加到干净样本中生成噪声样本,即G(x
i
,z
i
)+x
i
,利用判别器的二交叉熵损失函数进行梯度下降更新判别器的权重,损失函数如下所示:其中Φ表示判别器的权重参数,损失函数是二元交叉熵损失。对于判别器而言,干净样本被标记为1,来自生成器的中毒样本被标记为0。D(x
i
)表示判别器对于干净样本的输出,若第i个样本是噪声样本,D(G(x
i
,z
i
)+x
i
)则表示判别器对于噪声样本的输出,最小化该损失函数使判别器能够准确识别噪声样本与干净样本,用来限制触发器的大小。4.如权利要求1所述的基于自适应触发器的声纹识别后门样本生成方法,其特征在于,步骤3具体包括:训练分类网络,首先预先指定中毒比例λ,从训练集X
train
中挑选出干净样本集X
clean
与预中毒样本集X
p
且不再变化,即:X
train
=X
clean
∪X
p
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)|X
train
|=λ
·
|X
p
|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)然后在干净样本集和中毒样本集中分别挑选一个批次样本,数量都为m,将中毒样本的标签标记为期望攻击的类别t,保持干净样本集不变,利用干净交叉熵损失函数与中毒交叉
熵损失函数训练一个中毒模型,总损失函数如下:其中,前半部分是干净交叉熵损失函数,后半部分是中毒交叉熵损失函数。其中Ψ表示分类模型的权重参数,N表示类别的数目;y
ij
表示第i个样本属于第j个类别的真实概率(0或者1);C
...

【专利技术属性】
技术研发人员:徐东伟房若尘蒋斌宣琦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1