当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于深度语音波形先验的对抗样本还原方法技术

技术编号:39139360 阅读:14 留言:0更新日期:2023-10-23 14:54
本发明专利技术公开了一种即插即用的动态对抗样本防御方法——LowDDAWP

【技术实现步骤摘要】
一种基于深度语音波形先验的对抗样本还原方法


[0001]本专利技术涉及一种基于深度语音波形先验的对抗样本还原方法,属于计算机语音识别


技术介绍

[0002]随着深度学习技术的发展,研究者们开始将深度学习应用于语音识别中。深度学习技术可以自动学习语音信号的特征,显著提高了语音识别的准确率和鲁棒性。因此,自动语音识别技术开始融入不同的领域,如智能家居、智能汽车、智能机器人等等,使人们的生产和生活更加高效、便捷。然而,近期的研究表明,通过向良性样本上添加黑客精心制作的对抗扰动就可以生成使ASR系统做出错误判决的对抗样本,并且在人类感知上二者几乎没有任何差别。这些语音对抗样本不仅可以使受害模型做出错误分类,甚至使受害模型将其转录成攻击者所期望的目标结果,从而对相关应用(如语音助手、语音验证码等)造成安全隐患。
[0003]当前对语音对抗样本的防御研究主要停留在检测防御上,只有少数研究针对对抗样本进行还原,而一个鲁棒的ASR系统的目标应该是对任意样本都能正确转录,而不仅仅是检测对抗样本并拒绝服务。并且现有的还原防御对对抗样本的还原性能较低且对良性样本的影响较大,还需要对目标模型进行更改,同时现有的防御研究所提出的防御模块参数基本固定,一旦通过梯度估计等方式获得了固定的参数就会被再次攻破。
[0004]本专利技术针对现有问题,提出了LowDDAWP

Net算法,实现了对对抗样本的动态防御。该方法基于深度语音波形先验理论对对抗样本进行还原,并且设计了低分辨率信息提取模块,加快了LowDDAWP

Net网络的拟合速度;设计了双DAWP网络对对抗扰动和话语片段进行重建分离,提高了LowDDAWP

Net算法的对抗样本还原性能。该方法无需预训练且梯度信息实时改变,有效增加了攻击难度。

技术实现思路

[0005]本专利技术的目的在于提供一种基于深度语音波形先验的对抗样本还原方法,用于将语音对抗样本的语音识别内容恢复成良性样本的转录。
[0006]本专利技术为解决上述问题采用以下技术方案:
[0007]本专利技术提供一种基于深度语音波形先验的对抗样本动态还原方法,该方法可以在对良性样本的转录结果影响较小的前提下,对对抗样本实现高精度还原。以对抗样本为例,具体步骤如下:
[0008]步骤1,随机读取一个对抗样本,将该样本通过VAD算法进行静音片段和话语片段的分割;
[0009]步骤2,将得到的包含有大量噪声信息和对抗扰动信息的静音片段作为对抗扰动拟合网络(DAWP
noise
)的标签,以随机生成的高斯噪声作为网络的输入,获得拟合的对抗扰动音频;
[0010]具体地,DAWP
noise
的网络结构为U型的编码器和解码器结构,解码器由6个卷积编码块和一个单层双向的LSTM块组成;编码器为6个卷积解码块组成。其中,每个卷积编码块由两个一维卷积层组成,第一个卷积层的卷积核大小为8,步长为4,第2个卷积层的卷积核和步长均为1,每个卷积层的输出使用ReLU函数激活,最深层的卷积编码块将输出送入单层双向LSTM层,然后使用一个线性层将融合的高维特征映射回输入规模的大小;每个解码块由一个卷积核大小为3、步长为1的一维卷积层和一个卷积核大小为8、步长为4的转置卷积层级联而成,每个卷积层输出同样经过ReLU函数激活之后输入到下一层中,最后一个卷积解码块将合成最终的波形信号。
[0011]DAWP
noise
的输入是均值为0、方差为0.1的随机高斯噪声,输出是对静音音频的估计,损失函数计算公式如下:
[0012][0013]步骤3,对于得到的话语片段,它作为话语信息拟合网络(DAWP
speec
h)的标签和低分辨率信息提取模块的输入;低分辨率音频和DAWP
speec
h的输出音频共同拟合话语片段。
[0014]具体的,DAWP
speec
h的网络结构和输入与DAWP
noise
网络完全相同,DAWP
speec
h的损失函数为:
[0015][0016]其中,base为低分辨率信息提取模块的输出。低分辨率信息提取模块的组成为AMR

V和Logmmse_SPU

cohen算法的级联。对抗样本首先经过AMR

V算法滤除冗余信号以及破坏对抗扰动的完整性;然后通过Logmmse_SPU

cohen算法对解压缩音频进行增强,旨在进一步滤除噪声和对抗扰动并保证低频的结构信息得到保留。
[0017]步骤4,使用得到的话语音频的估计和对抗扰动音频的估计共同拟合给定的对抗样本,旨在保证对抗扰动的拟合音频以及话语音频的拟合均在正确的方向上进行。
[0018]相对于现有技术,本专利技术利用卷积神经网络能够自动提取语音先验信息,而无需进行预训练的特性,将其应用到语音对抗样本的还原防御上。并且采用双DAWP网络重建并分离对抗扰动和话语信息,同时设计低分辨率信息提取模块加快了DAWP网络的拟合速度。
[0019]与现有技术相比,本专利技术具有的有益效果是:
[0020]1.本专利技术方法首先将深度语音波形先验理论引入到语音对抗样本的还原防御中,该方法无需提前训练,而是通过对每一个单独输入的对抗样本进行针对性训练以获取每个样本独立的降噪器,这意味着对于任意一个的输入都会获得与其他样本不同的梯度,有效增加了攻击难度。
[0021]2.本专利技术方法是一种基于深度语音波形先验的对抗样本还原方法。该方法无需对目标模型进行更改,可以独立作为语音识别系统的预处理或后处理模块,可即插即用于任意ASR系统上。
[0022]3.本专利技术方法设计了低分辨率信息提取模块,加快了LowDDAWP

Net网络的拟合速度;设计了双DAWP网络对对抗扰动和话语片段进行重建分离,提高了LowDDAWP

Net算法的对抗样本还原性能。
[0023]4.本专利技术方法在设置初始值后,无需调整其它参数,是一种端到端的、即插即用的语音对抗样本还原算法。
附图说明
[0024]图1为本专利技术的整个流程示意图。
[0025]图2为本专利技术的网络构成示意图。
[0026]图3为所述DAWP神经网络的构成示意图。
[0027]图4为本专利技术的低分辨率信息提取模块的结果与原始音频的对比图。
[0028]图5为本专利技术的防御样本与原始样本的语谱图对比结果。
具体实施方式
[0029]下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0030]实施例1:参见图1,一种基于深度语音波形先验的对抗样本还原方法,具体步骤如下:...

【技术保护点】

【技术特征摘要】
1.一种基于深度语音波形先验的对抗样本还原方法,其特征在于,所述方法具体步骤如下:步骤1,将良性样本或者对抗样本输入到LowDDAWP

Net算法中,旨在对良性样本处理后不会影响其转录,而对抗样本的转录会恢复为良性转录,使用语音活动检测算法将输入的语音分割为语音活动片段(即话语片段)和包含大量对抗扰动和噪声信息的静音片段;步骤2,将得到的噪音片段作为对抗扰动拟合网络(DAWP
noise
)的标签,以随机生成的高斯噪声作为网络的输入,获得拟合的对抗扰动音频;步骤3,将得到的话语片段作为话语信息拟合网络(DAWP
speec
h)的标签;以随机生成的高斯噪声作为网络的输入,并且使用AMR算法和Logmmse_SPU

cohen增强算法构成的低分辨率信息提取模块提取包含话语结构的低分辨率音频,在低分辨率音频的基础之上,DAWP
speec
h拟合良性音频;步骤4,拟合的对抗扰动音频和拟合的良性音频的加和拟合给定的对抗样本,LowDDAWP

Net算法输出DAWP
speec
h拟合的良性音频,即为给定的对抗样本防御后的良性样本估计。2.根据权利要求1所述的一种基于深度语音波形先验的对抗样本还原方法,其特征在于,在算法的防御阶段,有两个DAWP网络需要实时训练,包括DAWP
speec
h和DAWP
noise
,两个DAWP网络的结构和输入完全相同,输入的都是均值为0、方差为0.1的随机高斯噪声;网络结构为U型的编码器和解码器结构,解码器由6个卷积编码块和一个单层双向的LSTM块组成;编码器为6个卷积解码块组成,其中,每个卷积编码块由两个一维卷积层组成,第...

【专利技术属性】
技术研发人员:陈阳陈凯汪哲贤
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1