一种语音对抗样本检测方法、系统、存储介质及应用技术方案

技术编号:28749017 阅读:27 留言:0更新日期:2021-06-06 19:29
本发明专利技术属于深度学习安全技术领域,公开了一种语音对抗样本检测方法、系统、存储介质及应用,读取输入的音频并进行谱减法降噪;接着对降噪前后的音频进行mfcc特征提取,输入到语音识别系统DeepSpeech中得到转录文本;接着,根据转录文本计算相似度;根据初始输入音频的mfcc特征矩阵计算对抗度;加载音频对抗样本二分类网络的模型和参数,将相似度和对抗度输入二分类网络中,预测音频是否为对抗样本。本发明专利技术对相似度衡量标准WER进行简单的归一化处理;提出了对抗度的概念,将不同维度的音频mfcc特征压缩,扩大样本适应度的同时,保留了音频mfcc特征的性质;相比现有的音频对抗样本检测方法来说,提高了精确率和召回率。提高了精确率和召回率。提高了精确率和召回率。

【技术实现步骤摘要】
一种语音对抗样本检测方法、系统、存储介质及应用


[0001]本专利技术属于深度学习安全
,尤其涉及一种语音对抗样本检测方法、系统、存储介质及应用。

技术介绍

[0002]目前:随着物联网技术的发展,越来越多的智能产品选择语音作为人机交互的接口;而语音识别的准确率也在深度学习的飞速发展下稳步提升。深度学习给语音识别系统带来更高识别准确率的同时,也给系统的安全性带来了潜在风险。最新研究表明,深度神经网络容易受到对输入数据添加细微扰动的对抗攻击,使得模型输出错误的预测结果,导致语音识别系统准确率的下降,甚至给自动驾驶、身份认证等安全等级较高的应用领域带来严重的安全隐患。
[0003]然而,针对语音对抗样本领域的研究却少之又少,而且主要集中于语音对抗样本的生成,仅有的语音对抗样本的检测方法要么基于音频预处理进行相似度比对,即将待检测音频进行压缩、语音编码、过滤或音频平移等,然后与初始音频进行转录比对;要么基于音频的mfcc特征进行分类训练,即将语音对抗样本的检测问题转换为二分类问题进行神经网络训练,选取大量的音频良性样本和对抗样本,提取其mfcc特征作为神经网络的输入,进行二分类训练,最后将训练好的模型用于对抗样本的检测。
[0004]基于音频预处理进行相似度比对的检测方法需要对两次转录的文本进行相似度对比,相似度一般选取词错率作为衡量标准,即WER越小,表明相似度越高。WER取值范围为[0,+∞),因此,该方法需要进行手动阈值threshold的设置,即将WER≥threshold的样本视为对抗样本。
[0005]基于音频mfcc特征直接进行二分类训练的检测方法一般通过卷积神经网络的方法来进行训练,不同时长的音频具有不同维度的mfcc特征。然而,在神经网络中,一般要求输入的维度必须保持一致(不一致时进行填充或截断),对mfcc特征进行截断或填充处理将破坏mfcc的性质。因此,该检测方法要求音频具有相同时长,不具有普遍性。
[0006]此外,经实验证明,现有的语音对抗样本检测方法普遍具有较低的精确率和召回率,防御效果一般。
[0007]通过上述分析,现有技术存在的问题及缺陷为:
[0008](1)基于音频预处理进行相似度比对的检测方法需要手动设置阈值。
[0009](2)基于音频mfcc特征直接进行二分类训练的检测方法一般通过卷积神经网络的方法来进行训练,对样本的要求比较苛刻,不具有普遍性。
[0010](3)此外,现有的语音对抗样本检测方法普遍具有较低的精确率和召回率,防御效果一般。
[0011]解决以上问题及缺陷的难度为:
[0012](1)如何解决手动阈值设置的问题或提出一种不需要设置阈值的方法;
[0013](2)如何处理不同时长音频的问题,更加合理地使用音频mfcc特征;
[0014](3)如何进一步提升语音对抗样本的精确率和召回率。
[0015]解决以上问题及缺陷的意义为:通过解决以上问题,将语音对抗样本的防御方法落地,无疑会大大提升依赖于语音识别系统的产品的安全性,降低其被攻击的风险,进一步增加这些产品受欢迎的程度。

技术实现思路

[0016]针对现有技术存在的问题,本专利技术提供了一种语音对抗样本检测方法、系统、存储介质及应用。
[0017]本专利技术是这样实现的,一种语音对抗样本检测方法包括:
[0018](1)读取输入的音频audio
ori
,对输入音频进行谱减法降噪得audio
den

[0019](2)提取audio
ori
和audio
den
的音频mfcc特征矩阵fea
ori
和fea
den

[0020](3)加载Deep Speech语音识别系统的深度神经网络模型和参数,同时将提取的音频mfcc特征矩阵fea
ori
和fea
den
输入到Deep Speech语音识别系统中,得到转录文本phrase
ori
和phrase
den

[0021](4)根据转录文本phrase
ori
和phrase
den
计算相似度ratio
sim

[0022](5)根据初始输入音频的mfcc特征矩阵fea
ori
计算对抗度ratio
adv

[0023](6)加载音频对抗样本二分类网络的模型和参数,输入相似度ratio
sim
和对抗度ratio
adv
,预测音频audio
ori
是否为对抗样本。
[0024]进一步,步骤(1)中,所述读取输入的音频audio
ori
时,采用python语言中scipy库中的scipy.io.savfile函数;
[0025]所述谱减法降噪采用Berouti的改进方法,公式如下:
[0026][0027]withα≥1,and 0<β<<1
[0028]其中,|Y(ω)|2为带噪音频的功率谱,|X(ω)|2为纯净音频的功率谱,|D(ω)|2为加性噪声的功率谱,α为过减因子,β为谱下限参数。
[0029]进一步,步骤(2)中,所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取,得到N
×
M维音频mfcc特征矩阵,其中,N与输入音频的长度有关,M取固定值40维。
[0030]进一步,步骤(4)中,所述相似度ratio
sim
基于编辑距离和WER的思维进行改进,进行简单的归一化处理,计算公式如下:
[0031][0032]其中,S为替换的字数,D为删除的字数,I为插入的字数,C为正确的字数,N为S+D+C的字数。
[0033]进一步,步骤(5)中,所述对抗度ratio
adv
通过进一步压缩提取的音频mfcc特征矩阵而来,具体计算公式如下:
[0034][0035]其中,fea为音频mfcc特征矩阵,N为步骤(2)中提取的fea的第一维度。
[0036]进一步,步骤(6)中,所述音频对抗样本二分类网络,其训练所需的良性音频数据集源于Mozilla发起的CommonVoice项目中的公共数据集以及Google的语音识别mini speech commands数据集,训练所需的对抗样本数据集通过现有的几种对抗样本的生成方法攻击所得,接着按照步骤(4)和步骤(5)生成数据集对应的相似度ratio
sim
和对抗度ratio
adv
,辅之以标签,选取二分类网络架构进行训练。
[0037]进一步,所述音频对抗样本二分类网络架构中的loss选取keras深度学习库中的categorical_cros本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音对抗样本检测方法,其特征在于,所述语音对抗样本检测方法首先读取输入的音频并进行谱减法降噪;接着对降噪前后的音频进行mfcc特征提取,然后输入到语音识别系统Deep Speech中得到转录文本;接着,根据转录文本计算相似度;根据初始输入音频的mfcc特征矩阵计算对抗度;最后,加载音频对抗样本二分类网络的模型和参数,将相似度和对抗度输入二分类网络中,预测音频是否为对抗样本。2.如权利要求1所述的语音对抗样本检测方法,其特征在于,所述语音对抗样本检测方法具体包括:读取输入的音频audio
ori
,对输入音频进行谱减法降噪得audio
den
;提取audio
ori
和audio
den
的音频mfcc特征矩阵fea
ori
和fea
den
;加载Deep Speech语音识别系统的深度神经网络模型和参数,同时将提取的音频mfcc特征矩阵fea
ori
和fea
den
输入到Deep Speech语音识别系统中,得到转录文本phrase
ori
和phrase
den
;根据转录文本phrase
ori
和phrase
den
计算相似度ratio
sim
;根据音频mfcc特征矩阵fea
ori
计算对抗度ratio
adv
;加载音频对抗样本二分类网络的模型和参数,输入相似度ratio
sim
和对抗度ratio
adv
,预测音频audio
ori
是否为对抗样本。3.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述读取输入的音频audio
ori
时,采用python语言中scipy库中的scipy.io.savfile函数;所述谱减法降噪采用Berouti的改进方法,公式如下:其中,|Y(ω)|2为带噪音频的功率谱,|X(ω)|2为纯净音频的功率谱,|D(ω)|2为加性噪声的功率谱,α为过减因子,β为谱下限参数。4.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取,得到N
×
M维音频mfcc特征矩阵,其中,N与输入音频的长度有关,M取固定值40维;所述相似度ratio
sim
基于编辑距离和WER的思维进行改进,进行简单的归一化处理,计算公式如下:其中,S为替换的字数,D为删除的字数,I为插入的字数,C为正确的字数,N为S+D+C的字数。5.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述对抗度ratio
adv
通过进一步压缩提取的音频mfcc特征矩阵而来,具体计算公式如下:
其中,fea为音频mfcc特征矩阵,N为提取的fea的第一维度。6.如权利要求2所述的语音对抗样本检测方法,其特征在于...

【专利技术属性】
技术研发人员:裴庆祺刘杰肖阳
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1