基于StarGAN的语音识别模型的防御方法技术

技术编号:27312586 阅读:24 留言:0更新日期:2021-02-10 09:38
本发明专利技术公开了一种基于StarGAN的语音识别模型的防御方法,包括:构建包含生成器、判别器以及分类器的StarGAN模型;构建包括对抗损失函数、分类损失函数,循环一致损失函数的损失函数;以训损失函数最小为目标对StarGAN模型进行训练;语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。以解决语音识别模型容易受到对抗攻击的问题,进而提高识别精度和鲁棒性。进而提高识别精度和鲁棒性。进而提高识别精度和鲁棒性。

【技术实现步骤摘要】
基于StarGAN的语音识别模型的防御方法


[0001]本专利技术属于深度学习算法及信息安全研究领域。具体设计一种基于StarGAN的语音识别模型的防御方法。

技术介绍

[0002]随着技术的发展,语音识别已在手机移动端,自动驾驶,智能家居等领域有了各种应用。如在移动端,随着语音识别算法、模型、自适应性等的加强,语音识别系统已经在移动端得到了广泛的应用,如苹果的Siri,微软的小娜,小米的小爱等产品已经实现了商品化。在自动驾驶领域,语音识别系统使驾驶者将注意力集中于汽车的驾驶中,驾驶者通过语音命令就可以控制汽车内的各种功能。如蔚来车载语音识别系统,可以通过语音命令控制座椅的加热、座椅的通风,空调的温度,遮阳帘的开启与关闭等;在智能家居领域,海尔,长虹,TCL等企业已经推出了自己的智能电视,海尔空调更是推出了语音遥控器,用户只需要对语音遥控器说话,遥控器就可以进行识别,实现空调的自动开关机,调温等操作。
[0003]近些年来,深度学习的发展给语音识别模型的训练带来了便捷,同时也提高了语音识别模型的识别精度。虽然深度学习简化了模型的训练,也提高了语音识别模型的识别精度,但是深度学习也给语音识别模型带来了潜在的安全风险。最近有研究表明,深度学习模型容易受到对输入数据进行添加精心设计过的扰动的对抗攻击,在这种攻击下,模型无法输出正确的预测结果。在一些语音识别的场景下,会早成巨大的危险。如在自动驾驶领域,若车载语音识别系统收到对抗攻击,车载语音识别系统将会错误的识别乘客的指令,若将乘客的“stop”指令识别为“go”时就有可能给汽车带来危险。
[0004]目前已经有一些对于语音识别系统的对抗攻击方法,主要分为白盒攻击和黑盒攻击。白盒攻击是在已知模型参数的前提下进行的,可以利用快速梯度符号法(FGSM),DeepFool,PGD(Project Gradient Descent)等方法对语音识别模型进行攻击。黑盒攻击是在未知模型参数的前提下进行的,可以利用一些启发式算法对语音识别模型进行攻击,如遗传算法(GA),粒子群算法(PSO),布谷鸟搜索算法(CS)等。
[0005]针对以上这些白盒攻击和黑盒攻击,现有的语音识别模型并不能对其进行很好的防御,会造成极大的安全隐患,因此,迫切地需要一种能够防御对抗攻击的语音识别方法。

技术实现思路

[0006]本专利技术的目的是提供一种基于StarGAN的语音识别模型的防御方法,以解决现有语音识别模型容易受到对抗攻击的问题,进而提高语音识别系统的识别精度和鲁棒性。
[0007]为实现上述专利技术目的,本专利技术提供以下技术方案:
[0008]一种基于StarGAN的语音识别模型的防御方法,包括以下步骤:
[0009]构建StarGAN模型,所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器,所述生成器用于根据输入音频样本生成具有给定属性的生成音频,所述判别器用于判别输入音频在给定属性下的真伪,所述分类器用于分类输入音频的分类置信
度;
[0010]构建StarGAN模型的训练损失函数,损失函数包括对抗损失函数、分类损失函数,循环一致损失函数,其中,所述对抗损失函数用来提升生成器和判别器的性能,使生成音频仍符合给定属性下的音频数据分布,所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升,所述循环一致性损失用于保留音频的语音信息以及生成器的多样性,即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效;
[0011]利用正常音频和对抗音频组成的训练样本集,以训损失函数最小为目标对StarGAN模型进行训练,训练结束后,提取训练好分类器和生成器用于语音识别;
[0012]语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。
[0013]与现有技术相比,本专利技术具有的有益效果至少包括:
[0014]通过构建并训练StarGAN模型,使得StarGAN模型中的分类器能够识别被攻击的对抗音频,并利用训练好的生成器对对抗音频进行去干扰处理,生成满足真实属性的正常音频,然后再利用语音识别模型对正常音频进行语音识别,使得语音识别模型的鲁棒性得到提升,并使语音识别模型能够抵御对抗音频的攻击。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0016]图1是实施例提供的基于StarGAN的语音识别模型的防御方法的流程图;
[0017]图2是实施例提供的StarGAN模型的结构示意图;
[0018]图3是实施例提供的生成器的结构示意图;
[0019]图4是实施例提供判别器的结构示意图;
[0020]图5是实施例提供的分类器的结构示意图;
[0021]图6是实施例提供的残差卷积块的结构示意图;
[0022]图7是实施例提供的利用分类器、生成器以及语音识别模型进行防御语音识别的流程图。
具体实施方式
[0023]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。
[0024]为了防止音频数据因为被对抗攻击导致语音识别结果不准确的问题,实施例提供了一种基于StarGAN的语音识别模型的防御方法,将StarGAN集成到语音识别模型中,对输入语音识别系统的音频进行检测和处理,将检测到的对抗样本进行去噪,保留正常的音频,
从而提高语音识别系统的识别精度和鲁棒性。
[0025]如图1所示,实施例提供的语音识别模型的防御方法包括以下步骤:
[0026]步骤1,构建用于StarGAN模型训练的数据集。
[0027]本实施例中,StarGAN模型的训练可以使用非并行数据集进行训练。由于本实施例中,StarGAN用于检测和处理对抗音频,因此用于StarGAN模型训练的数据集应由正常音频和对抗音频组成。分别使用白盒和黑盒攻击方法生成对抗音频,可获得不同攻击方法下生成的足量对抗音频,组成对抗音频数据集,将其与正常音频数据集组成数据集,并按照一定的比例划分为训练集和测试集。
[0028]对抗音频数据集的具体构建过程为:在白盒场景下,采用使用FGSM,DeepFool,PGD等方法攻击语音识别模型,获得白盒对抗音频。在黑盒场景下,可以使用GA,PSO,CS等方法攻击语音识别模型,获得黑盒对抗音频。将白盒对抗音频和黑盒对抗音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于StarGAN的语音识别模型的防御方法,其特征在于,包括以下步骤:构建StarGAN模型,所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器,所述生成器用于根据输入音频样本生成具有给定属性的生成音频,所述判别器用于判别输入音频在给定属性下的预测置信度,所述分类器用于分类输入音频的分类置信度;构建StarGAN模型的训练损失函数,损失函数包括对抗损失函数、分类损失函数,循环一致损失函数,其中,所述对抗损失函数用来提升生成器和判别器的性能,使生成音频仍符合给定属性下的音频数据分布,所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升,所述循环一致性损失用于保留音频的语音信息以及生成器的多样性,即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效;利用正常音频和对抗音频组成的训练样本集,以训损失函数最小为目标对StarGAN模型进行训练,训练结束后,提取训练好分类器和生成器用于语音识别;语音识别过程中,利用训练好的分类器对原始音频进行分类,当分类结果为正常音频时,直接利用语音识别模型对原始音频进行语音识别,获得语音识别结果;当分类结果不为正常音频时,利用生成器对原始音频生成符合给定的正常音频属性的生成音频,再利用语音识别模型对生成音频进行语音识别,获得语音识别结果。2.如权利要求1所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述对抗损失函数L
adv
为:为:为:其中,c~p(c)表示属性c服从属性c的概率分布p(c),y~p(y|c)表示训练样本集中具有属性c的音频y服从概率分布p(y|c),D(y,c)表示判别器D对音频y在给定属性c下的预测置信度,E(
·
)表示数学期望值,x~p(x)表示训练样本集中具有任意属性的音频x服从概率分布p(x),G(x,c)表示生成器G基于音频x生成具有给定属性c的生成音频,D(G(x,c),c)表示判别器D对生成音频G(x,c)在给定属性c下的预测置信度。3.如权利要求1或2所述的基于StarGAN的语音识别模型的防御方法,其特征在于,所述分类损失函数L
cls
为:为:为:其中,p
C
(c|y)表示分类器C对音频y在属性c下的分类置信度分布,p
C
(c|G(x,c))表示分类器C对生成音频G(x,c)在属性c下的分...

【专利技术属性】
技术研发人员:陈晋音叶林辉
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1