基于StarGAN的语音识别模型的防御方法技术

技术编号：27312586 阅读：24 留言：0更新日期：2021-02-10 09:38

本发明专利技术公开了一种基于StarGAN的语音识别模型的防御方法，包括：构建包含生成器、判别器以及分类器的StarGAN模型；构建包括对抗损失函数、分类损失函数，循环一致损失函数的损失函数；以训损失函数最小为目标对StarGAN模型进行训练；语音识别过程中，利用训练好的分类器对原始音频进行分类，当分类结果为正常音频时，直接利用语音识别模型对原始音频进行语音识别，获得语音识别结果；当分类结果不为正常音频时，利用生成器对原始音频生成符合给定的正常音频属性的生成音频，再利用语音识别模型对生成音频进行语音识别，获得语音识别结果。以解决语音识别模型容易受到对抗攻击的问题，进而提高识别精度和鲁棒性。进而提高识别精度和鲁棒性。进而提高识别精度和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
基于StarGAN的语音识别模型的防御方法

[0001]本专利技术属于深度学习算法及信息安全研究领域。具体设计一种基于StarGAN的语音识别模型的防御方法。

技术介绍

[0002]随着技术的发展，语音识别已在手机移动端，自动驾驶，智能家居等领域有了各种应用。如在移动端，随着语音识别算法、模型、自适应性等的加强，语音识别系统已经在移动端得到了广泛的应用，如苹果的Siri，微软的小娜，小米的小爱等产品已经实现了商品化。在自动驾驶领域，语音识别系统使驾驶者将注意力集中于汽车的驾驶中，驾驶者通过语音命令就可以控制汽车内的各种功能。如蔚来车载语音识别系统，可以通过语音命令控制座椅的加热、座椅的通风，空调的温度，遮阳帘的开启与关闭等；在智能家居领域，海尔，长虹，TCL等企业已经推出了自己的智能电视，海尔空调更是推出了语音遥控器，用户只需要对语音遥控器说话，遥控器就可以进行识别，实现空调的自动开关机，调温等操作。
[0003]近些年来，深度学习的发展给语音识别模型的训练带来了便捷，同时也提高了语音识别模型的识别精度。虽然深度学习简化了模型的训练，也提高了语音识别模型的识别精度，但是深度学习也给语音识别模型带来了潜在的安全风险。最近有研究表明，深度学习模型容易受到对输入数据进行添加精心设计过的扰动的对抗攻击，在这种攻击下，模型无法输出正确的预测结果。在一些语音识别的场景下，会早成巨大的危险。如在自动驾驶领域，若车载语音识别系统收到对抗攻击，车载语音识别系统将会错误的识别乘客的指令，若将乘客的“stop”指令识别为“go”时...

【技术保护点】

【技术特征摘要】
1.一种基于StarGAN的语音识别模型的防御方法，其特征在于，包括以下步骤：构建StarGAN模型，所述StarGAN模型包括均由卷积神经网络构成的生成器、判别器以及分类器，所述生成器用于根据输入音频样本生成具有给定属性的生成音频，所述判别器用于判别输入音频在给定属性下的预测置信度，所述分类器用于分类输入音频的分类置信度；构建StarGAN模型的训练损失函数，损失函数包括对抗损失函数、分类损失函数，循环一致损失函数，其中，所述对抗损失函数用来提升生成器和判别器的性能，使生成音频仍符合给定属性下的音频数据分布，所述分类损失函数用于使生成器生成多类别的生成音频以及分类器分类性能的提升，所述循环一致性损失用于保留音频的语音信息以及生成器的多样性，即避免生成器将输入音频映射为对抗音频和正常音频中的某一个而失效；利用正常音频和对抗音频组成的训练样本集，以训损失函数最小为目标对StarGAN模型进行训练，训练结束后，提取训练好分类器和生成器用于语音识别；语音识别过程中，利用训练好的分类器对原始音频进行分类，当分类结果为正常音频时，直接利用语音识别模型对原始音频进行语音识别，获得语音识别结果；当分类结果不为正常音频时，利用生成器对原始音频生成符合给定的正常音频属性的生成音频，再利用语音识别模型对生成音频进行语音识别，获得语音识别结果。2.如权利要求1所述的基于StarGAN的语音识别模型的防御方法，其特征在于，所述对抗损失函数L
adv
为：为：为：其中，c～p(c)表示属性c服从属性c的概率分布p(c)，y～p(y|c)表示训练样本集中具有属性c的音频y服从概率分布p(y|c)，D(y,c)表示判别器D对音频y在给定属性c下的预测置信度，E(
·
)表示数学期望值，x～p(x)表示训练样本集中具有任意属性的音频x服从概率分布p(x)，G(x,c)表示生成器G基于音频x生成具有给定属性c的生成音频，D(G(x,c),c)表示判别器D对生成音频G(x,c)在给定属性c下的预测置信度。3.如权利要求1或2所述的基于StarGAN的语音识别模型的防御方法，其特征在于，所述分类损失函数L
cls
为：为：为：其中，p
C
(c|y)表示分类器C对音频y在属性c下的分类置信度分布，p
C
(c|G(x,c))表示分类器C对生成音频G(x,c)在属性c下的分...

【专利技术属性】
技术研发人员：陈晋音，叶林辉，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人