【技术实现步骤摘要】
一种语音对抗样本检测方法、系统、存储介质及应用
[0001]本专利技术属于深度学习安全
,尤其涉及一种语音对抗样本检测方法、系统、存储介质及应用。
技术介绍
[0002]目前:随着物联网技术的发展,越来越多的智能产品选择语音作为人机交互的接口;而语音识别的准确率也在深度学习的飞速发展下稳步提升。深度学习给语音识别系统带来更高识别准确率的同时,也给系统的安全性带来了潜在风险。最新研究表明,深度神经网络容易受到对输入数据添加细微扰动的对抗攻击,使得模型输出错误的预测结果,导致语音识别系统准确率的下降,甚至给自动驾驶、身份认证等安全等级较高的应用领域带来严重的安全隐患。
[0003]然而,针对语音对抗样本领域的研究却少之又少,而且主要集中于语音对抗样本的生成,仅有的语音对抗样本的检测方法要么基于音频预处理进行相似度比对,即将待检测音频进行压缩、语音编码、过滤或音频平移等,然后与初始音频进行转录比对;要么基于音频的mfcc特征进行分类训练,即将语音对抗样本的检测问题转换为二分类问题进行神经网络训练,选取大量的音频良性样本和对抗样本,提取其mfcc特征作为神经网络的输入,进行二分类训练,最后将训练好的模型用于对抗样本的检测。
[0004]基于音频预处理进行相似度比对的检测方法需要对两次转录的文本进行相似度对比,相似度一般选取词错率作为衡量标准,即WER越小,表明相似度越高。WER取值范围为[0,+∞),因此,该方法需要进行手动阈值threshold的设置,即将WER≥threshold的样本视为对抗样本。 ...
【技术保护点】
【技术特征摘要】
1.一种语音对抗样本检测方法,其特征在于,所述语音对抗样本检测方法首先读取输入的音频并进行谱减法降噪;接着对降噪前后的音频进行mfcc特征提取,然后输入到语音识别系统Deep Speech中得到转录文本;接着,根据转录文本计算相似度;根据初始输入音频的mfcc特征矩阵计算对抗度;最后,加载音频对抗样本二分类网络的模型和参数,将相似度和对抗度输入二分类网络中,预测音频是否为对抗样本。2.如权利要求1所述的语音对抗样本检测方法,其特征在于,所述语音对抗样本检测方法具体包括:读取输入的音频audio
ori
,对输入音频进行谱减法降噪得audio
den
;提取audio
ori
和audio
den
的音频mfcc特征矩阵fea
ori
和fea
den
;加载Deep Speech语音识别系统的深度神经网络模型和参数,同时将提取的音频mfcc特征矩阵fea
ori
和fea
den
输入到Deep Speech语音识别系统中,得到转录文本phrase
ori
和phrase
den
;根据转录文本phrase
ori
和phrase
den
计算相似度ratio
sim
;根据音频mfcc特征矩阵fea
ori
计算对抗度ratio
adv
;加载音频对抗样本二分类网络的模型和参数,输入相似度ratio
sim
和对抗度ratio
adv
,预测音频audio
ori
是否为对抗样本。3.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述读取输入的音频audio
ori
时,采用python语言中scipy库中的scipy.io.savfile函数;所述谱减法降噪采用Berouti的改进方法,公式如下:其中,|Y(ω)|2为带噪音频的功率谱,|X(ω)|2为纯净音频的功率谱,|D(ω)|2为加性噪声的功率谱,α为过减因子,β为谱下限参数。4.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述提取音频mfcc特征矩阵采用python_speech_features库的mfcc函数进行提取,得到N
×
M维音频mfcc特征矩阵,其中,N与输入音频的长度有关,M取固定值40维;所述相似度ratio
sim
基于编辑距离和WER的思维进行改进,进行简单的归一化处理,计算公式如下:其中,S为替换的字数,D为删除的字数,I为插入的字数,C为正确的字数,N为S+D+C的字数。5.如权利要求2所述的语音对抗样本检测方法,其特征在于,所述对抗度ratio
adv
通过进一步压缩提取的音频mfcc特征矩阵而来,具体计算公式如下:
其中,fea为音频mfcc特征矩阵,N为提取的fea的第一维度。6.如权利要求2所述的语音对抗样本检测方法,其特征在于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。