一种基于CycleGAN的语音识别模型的防御方法及装置制造方法及图纸

技术编号:25525448 阅读:121 留言:0更新日期:2020-09-04 17:14
本发明专利技术公开了一种基于CycleGAN的语音识别模型的防御方法及装置,所述防御方法利用对抗样本数据集和正常语音数据集训练CycleGAN模型,使该模型中的G

【技术实现步骤摘要】
一种基于CycleGAN的语音识别模型的防御方法及装置
本专利技术属于深度学习算法及信息安全研究领域,具体涉及一种基于CycleGAN的语音识别模型的防御方法。
技术介绍
随着技术的不断发展,语音识别技术正在越来越多的被人们使用。语音识别技术带来了极大的便利性,简化了人与机器之间的通信,省略了中间键盘输入和手写的步骤,有着丰富的应用场景。在智能化家电领域,有语音控制的家电设备,人们用语音就可以控制家里的所有语音设备;在国防领域,自动语音识别系统通过语音命令提供选定的驾驶舱控制,为飞行员带来了方便;在医疗领域,利用语音识别技术帮助有显著发声障碍的患者的语言表达;在自动驾驶领域,可以利用语音控制车载设备,甚至可以控制汽车的行驶。近些年来,深度学习的应用给语音识别系统带来了极为便捷的训练步骤,并且大幅度的提高了语音识别模型的识别精度,2017年,微软语音识别系统错误率由5.9%降低到5.1%,可达到专业速记员的水平;国内语音识别行业的佼佼者科大讯飞的语音听写准确率则达到了95%,表现优良。虽然深度学习带来了便捷的训练步骤也提高了模型的识别精度,但是深度学习也给语音识别系统带来了潜在的风险。最近的研究表明,深度神经网络容易受到对输入数据进行细微扰动形式的对抗攻击。这种做法会导致模型输出不正确的预测结果,在一些场景下会造成一些严重的事故。如在自动驾驶领域,若语音识别系统被外加的细微扰动所攻击,汽车将会错误的识别乘客的指令,如将“stop”识别为“go”,这给自动驾驶系统带来了极大的安全隐患,极有可能引发交通事故,造成人员的伤亡。已有的语音识别攻击方法主要分为白盒和黑盒攻击。白盒攻击是攻击者已知模型内部参数的情况下进行的,如利用快速梯度符号法(FGSM),通过反向传播计算模型关于噪声的梯度,不断迭代生成对抗样本。黑盒攻击是攻击者在未知模型内部参数的情况下进行的,利用一些寻优算法,如利用遗传算法(GA),粒子群算法(PSO)不断优化所需要添加的扰动,迭代生成对抗样本。由此可以利用白盒或黑盒攻击方法,对语音识别模型进行攻击,使生成的对抗样本能够被识别为目标短语。基于以上语音识别模型易被攻击的问题,研究一种利用CycleGAN作为语音识别系统的前端,将其集成到语音识别模型中,对输入语音识别系统的语音进行处理,对于对抗样本进行去噪操作,而保留正常的语音,使语音识别系统达到抵御对抗样本攻击的效果具有重要的意义和实践价值。
技术实现思路
针对目前语音识别系统存在识别精度不高,容易受到对抗样本攻击的安全性问题,本专利技术提供了一种基于CycleGAN的语音识别模型的防御方法,该方法可以提高语音识别模型的识别精度,并可以使语音识别模型的能够抵御对抗样本的攻击,提高语音识别模型的安全性及鲁棒性。本专利技术的技术方案为:一种基于CycleGAN的语音识别模型的防御方法,包括如下步骤:S1生成用于CycleGAN模型训练的数据集,所述的数据集包括对抗样本数据集和正常语音数据集,将所述数据集划分为训练集和测试集;S2搭建CycleGAN模型,所述的CycleGAN模型由两组GAN模型以对偶的形式构成;一组GAN模型将对抗样本传递给生成器GA~B滤除噪音,由判别器DB判别是否为正常语音,然后将滤除噪音后的语音传递给生成器GB~A添加噪音;另一组GAN模型将正常语音传递给生成器GB~A添加噪音,由判别器DA判别是否为对抗样本,然后将添加噪音后的语音传递给生成器GA~B滤除噪音;S3构建CycleGAN模型的损失函数LcycleGAN;所述损失函数LcycleGAN由Ladv、Lcyc和Lid组成,如式(2)所示,LcycleGAN=ladv+λlcyc+λidlid(2);其中,所述λ和λid为缩放因子,ladv为对抗性损失函数,lcyc为循环一致损失函数,lid为身份映射损失函数;S4利用训练集对CycleGAN模型进行训练,训练完成后,用测试集进行测试,统计经过CycleGAN模型处理后的对抗样本的失效率,若失效率达不到预设标准,则更改CycleGAN模型参数继续训练模型,直到失效率达到预设标准;S5将失效率达到预设标准的CycleGAN模型中的生成器GA~B集成到语音识别模型中,以抵御对抗样本的攻击。构建CycleGAN模型的损失函数,该损失函数L由三个部分构成,Ladv,Lcyc和Lid,Lady损用来实现两个尘成器的功能以及判别器和生成器性能的提升;Lcyc用来保证生成器的多样性;Lid用来保留语音信息,即让生成器只对对抗样本进行处理,而尽量不影响正常的语音。公式(3)为一般的GAN模型的损失函数,若仅使用公式(3),由于使用的是非平行的数据集,那么生成器很可能将数据集A映射为数据集B中的某一句话造成损失函数失效,因此引入公式(4),保证两个生成器的多样性,由于公式(3)和(4)都没有考虑生成器对语音中的语义信息,若公式(2)中未加入公式(5),则生成器GA~B可能会有滤噪声过渡造成语义信息丢失,因此引入公式(5)保证语音不会被过渡处理。本专利技术还提供了基于上述防御方法的装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于CycleGAN的语音识别模型的防御方法。与现有技术相比,本专利技术具有如下有益效果:(1)本专利技术所述防御方法使用的CycleGAN模型及其损失函数,一方面可以使用非平行的语料库进行训练,另一方面避免了生成器将对抗样本映射为正常语音中的一条语音而造成的损失函数失效的问题。(2)针对可能存在的对语音识别模型的白盒或黑盒的攻击,本专利技术利用对抗样本数据集和正常语音数据集对CycleGAN模型进行训练,使CycleGAN模型能够在不影响正常样本的前提下对对抗样本进行降噪操作,使CycleGAN模型成为语音识别系统的前端,集成到语音识别模型中,使语音识别模型的识别准确率得到提升,并能抵御对抗样本的攻击。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。图1为本专利技术所述四个不同卷积块的组成。其中,a是门控卷积块,b是实例归一化门控卷积块,c是残差卷积块,d是pixelshuffed后的实例归一化门控卷积块。图2为本专利技术所述CycleGAN模型的两个生成器的组成。图3为本专利技术所述CycleGAN模型的两个生成器的组成。其中,图2、图3中GatedC表示门控卷积块,I-GatedC表示实例归一化门控卷积块,Res-C表示残差卷积块,SI-GatedC表示pixelshuffed后的实例归一化门控卷积块。图4为本专利技术CycleGAN模型及其损本文档来自技高网
...

【技术保护点】
1.一种基于CycleGAN的语音识别模型的防御方法,其特征在于,包括如下步骤:/nS1生成用于CycleGAN模型训练的数据集,所述的数据集包括对抗样本数据集和正常语音数据集,将所述数据集划分为训练集和测试集;/nS2搭建CycleGAN模型,所述的CycleGAN模型由两组GAN模型以对偶的形式构成;/n一组GAN模型将对抗样本传递给生成器G

【技术特征摘要】
1.一种基于CycleGAN的语音识别模型的防御方法,其特征在于,包括如下步骤:
S1生成用于CycleGAN模型训练的数据集,所述的数据集包括对抗样本数据集和正常语音数据集,将所述数据集划分为训练集和测试集;
S2搭建CycleGAN模型,所述的CycleGAN模型由两组GAN模型以对偶的形式构成;
一组GAN模型将对抗样本传递给生成器GA~B滤除噪音,由判别器DB判别是否为正常语音,然后将滤除噪音后的语音传递给生成器GB~A添加噪音;
另一组GAN模型将正常语音传递给生成器GB~A添加噪音,由判别器DA判别是否为对抗样本,然后将添加噪音后的语音传递给生成器GA~B滤除噪音;
S3构建CycleGAN模型的损失函数LcycleGAN;所述损失函数LcycleGAN由Ladv、Lcyc和Lid组成,如式(2)所示,
LcycleGAN=ladv+λlcyc+λidlid(2);
其中,所述λ和λid为缩放因子,ladv为对抗性损失函数,lcyc为循环一致损失函数,lid为身份映射损失函数;
S4利用训练集对CycleGAN模型进行训练,训练完成后,用测试集进行测试,统计经过CycleGAN模型处理后的对抗样本的失效率,若失效率达不到预设标准,则更改CycleGAN模型参数继续训练模型,直到失效率达到预设标准;
S5将失效率达到预设标准的CycleGAN模型中的生成器GA~B集成到语音识别模型中,以抵御对抗样本的攻击。


2.根据权利要求1所述的基于CycleGAN的语音识别模型的防御方法,其特征在于,所述抗样本数据集由以下步骤生成:
S11初始化遗传算法的损失函数如式(1)所示:
L=lctc(x,t)(1);
其中,lctc表示CTC损失函数用于衡量对抗样本经语音识别模型转录的结果与目标短语的相近程度,x表示迭代过程中的最优样本,t表示设置的目标短语;设定种群大小设为100,精英数量为10,迭代次数为3000;
S12通过复制原始样本将样本数量扩大至设定的种群大小,给个体添加随机噪声进行变异,在变异后,攻击语音识别模型,根据公式(1)选择损失函数较小的10个样本作为精英群体,根据公式(1),从精英群体中挑选100次,组成父辈1,再挑选100次组成父辈2;
S13通过从父辈1和父辈2中各取一半的样本进行交叉变异来生成子代,根据公式(1)选择最优样本;
S14判断迭代次数是否达到3000或最优样本的转录结果是否为目标短语,若是,则该样本就为对抗样本数据集,若否,将该最优样本作为...

【专利技术属性】
技术研发人员:陈晋音叶林辉
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1