The invention relates to the technical field of countermeasure sample generation, and discloses a directional countermeasure audio generation method and system in a black-box scenario. The methods include: (1) selecting the target black-box speech recognition model as the audio recognition model, selecting the source audio and setting the attack target; (2) resampling the source audio according to the requirement of the input audio sampling rate of the audio recognition model; (3) extracting the MFCC features of the resampled source audio; (4) using the audio recognition model to recognize the MFCC features and get the recognition results. (5) Setting the target function, using particle swarm optimization to find the best noise which minimizes the target function value, superimposing the best noise with the source audio, and obtaining the directional countermeasure audio whose recognition result is the attack target. This method can make the speech recognition model recognize specific content by adding small disturbances to the source audio.
【技术实现步骤摘要】
一种黑盒场景下的定向对抗音频生成方法及系统
本专利技术涉及对抗样本生成
,尤其涉及一种黑盒场景下的定向对抗音频生成方法及系统。
技术介绍
语音识别正以磅礴之势占据着一个智能时代的高点。美国谷歌公司发布的一项调查报告显示,13岁到18岁之间的青少年中,每天都要使用语音搜索的人数比率约为55%。随着大数据、机器学习、云计算、人工智能等技术的发展,语音识别在一步步解放用户的双手,语音输入框也大有取代鼠标、键盘之势。伴随着智能移动设备的普及,语音交互作为一种新型的人机交互方式,正越来越引起整个IT业界的重视。虽然人工智能技术的发展极大程度上提升了语音识别模型准确率,但是人工智能神秘莫测的内部机制也为实际应用埋下了许多安全隐患。通常在设计机器学习系统时,为了保证设计的系统是安全的、可信赖的并且结果能达到预期效果,我们通常会考虑特定的威胁模型,这些模型是对那些企图使我们的机器学习系统出错的攻击者的攻击能力和攻击目标的假设。迄今为止,现有大多数的机器学习模型都是针对一个非常弱的威胁模型设计实现的,没有过多地考虑攻击者。尽管在面对自然的输入时,这些模型能有非常完美的表现,但最近的研究发现,即使性能优良的模型也容易遭受对抗样本攻击——在样本中添加人眼察觉不到的微小扰动后,样本会以很高的置信度被分类错误。如果对抗样本被分类为攻击者指定的类别,那么就称之为定向对抗样本。目前已有的工作大多数考虑的是对抗图像的生成,对抗音频少有人研究,尤其是黑盒场景下的定向对抗音频。在黑盒场景下,攻击者不知道要攻击的模型的内部架构和参数,只能获取输入数据被分类为每个类别的概率。由于这种场景下 ...
【技术保护点】
1.一种黑盒场景下的定向对抗音频生成方法,其特征在于,包括以下步骤:(1)选择目标黑盒语音识别模型作为音频识别模型,选择源音频并设定攻击目标;(2)根据音频识别模型对输入音频采样率的要求,对源音频进行重采样;(3)提取重采样后源音频的MFCC特征;(4)采用音频识别模型对所述的MFCC特征进行识别,得到识别结果;(5)设定目标函数,利用粒子群算法寻找使目标函数值最小的最佳噪声,将最佳噪声与源音频叠加,获得识别结果为攻击目标的定向对抗音频。
【技术特征摘要】
1.一种黑盒场景下的定向对抗音频生成方法,其特征在于,包括以下步骤:(1)选择目标黑盒语音识别模型作为音频识别模型,选择源音频并设定攻击目标;(2)根据音频识别模型对输入音频采样率的要求,对源音频进行重采样;(3)提取重采样后源音频的MFCC特征;(4)采用音频识别模型对所述的MFCC特征进行识别,得到识别结果;(5)设定目标函数,利用粒子群算法寻找使目标函数值最小的最佳噪声,将最佳噪声与源音频叠加,获得识别结果为攻击目标的定向对抗音频。2.根据权利要求1所述的黑盒场景下的定向对抗音频生成方法,其特征在于,所述的黑盒语音识别模型为对语音进行分类且输出类别固定的语音识别模型。3.根据权利要求1所述的黑盒场景下的定向对抗音频生成方法,其特征在于,步骤(3)包括:(3-1)对预处理后的音频进行预加重处理,使音频的频谱变得平坦;(3-2)之后将音频分成若干帧,并将每一帧乘以汉明窗;(3-3)对各帧音频进行快速傅里叶变换,得到各帧音频的频谱,从音频的频谱获得音频的能量谱;(3-4)将音频的能量谱通过一组Mel尺度的三角形滤波器组;(3-5)计算每个三角形滤波器输出的对数能量,将对数能量经离散余弦变换,得到MFCC系数阶数阶的Mel-scaleCepstrum参数;提取音频的动态差分参数;(3-6)得到MFCC特征。4.根据权利要求3所述的黑盒场景下的定向对抗音频生成方法,其特征在于,MFCC特征提取中的参数为:预加重参数为0.97;512个采样点为一帧,帧与帧之间的重叠区域包含171个采样点,加窗参数为0.46;快速傅立叶变换点数为512;三角形滤波器个数为26;MFCC阶数为16。5.根据权利要求1所述的黑盒场景下的定向对抗音频生成方法,其特征在于,所述的目标函数为:其中,x为源音频,pi(i=1,...,N)为第i个粒子,N为正整数;f(x+pi)j为音频识别模型针对...
【专利技术属性】
技术研发人员:纪守领,杜天宇,李进锋,陈建海,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。