一种语音对抗样本生成方法技术

技术编号:22388968 阅读:276 留言:0更新日期:2019-10-29 06:59
本发明专利技术公开了一种语音对抗样本生成方法,包括读取输入的语音数据,并对其进行预处理操作,提取输入语音数据的语音特征值;加载DeepSpeech语音识别系统的深度神经网络模型和参数,同时将提取的语音特征值输入到DeepSpeech语音系统中,计算每帧输入语音数据识别结果的概率分布,并根据该结果与给定目标值之间的CTC Loss初始化误差值和误差阈值,并对误差值以及生成的对抗样本进行钳位操作;构建语音对抗样本生成算法的损失函数,并多次迭代,对误差值进行更新;若生成的对抗样本的识别结果为给定的目标值,则减小误差阈值进行阈值误差更新,继续迭代直至迭代结束输出结果。本算法生成的对抗样本与原始样本的相似度更高。

【技术实现步骤摘要】
一种语音对抗样本生成方法
本专利技术属于深度学习安全领域中的对抗样本生成算法,特别是一种语音对抗样本生成方法。
技术介绍
近年来,随着深度神经网络的发展,深度学习已经逐渐应用到各个领域,尤其在计算机视觉、语音识别、自然语言处理等方面已经达到甚至超过人类的能力。与此同时,深度学习带来的安全问题也越来越受到人们的关注。其中,对抗样本的生成方法逐渐成为深度学习技术安全领域中的热点问题。对抗样本是指在深度神经网络模型可以做出正确判断的原始数据上,增加人类感官难以分辨的微小扰动后,深度神经网络模型会做出错误判断的样本。语音识别技术得到了重大的突破。深度神经网络以其深层次和非线性的网络结构,在语音信息特征提取和语音声学建模等方面表现突出。2009年,Hinton采用深度置信网络(DBN)来代替GMM,首次提出DBN-HMM模型,该模型在TIMIT数据集上,实现了23.3%的词错误率。2013年,随着循环神经网络(RNN)的发展,大量的研究将RNN应用到语音识别系统中,其中包括百度团队提出的DeepSpeech语音识别系统等。目前绝大部分语音识别系统均采用深度神经网络技术。然而由于深度神经网络的高本文档来自技高网...

【技术保护点】
1.一种语音对抗样本生成方法,其特征在于,包括以下步骤:步骤1,读取输入的语音数据,并对输入的语音数据进行预处理操作,提取输入语音数据的语音特征值;步骤2,加载DeepSpeech语音识别系统的深度神经网络模型和参数,同时将提取的语音特征值输入到DeepSpeech语音系统中,计算每帧输入语音数据识别结果的概率分布,并根据该概率分布计算识别结果与给定目标值之间的CTC Loss;步骤3,初始化误差值和误差阈值,并对误差值以及生成的对抗样本进行钳位操作;步骤4,构建语音对抗样本生成算法的损失函数,并采用神经网络训练中的优化器进行多次迭代,以此来减小该损失函数,并对误差值进行更新;步骤5,在迭代过...

【技术特征摘要】
1.一种语音对抗样本生成方法,其特征在于,包括以下步骤:步骤1,读取输入的语音数据,并对输入的语音数据进行预处理操作,提取输入语音数据的语音特征值;步骤2,加载DeepSpeech语音识别系统的深度神经网络模型和参数,同时将提取的语音特征值输入到DeepSpeech语音系统中,计算每帧输入语音数据识别结果的概率分布,并根据该概率分布计算识别结果与给定目标值之间的CTCLoss;步骤3,初始化误差值和误差阈值,并对误差值以及生成的对抗样本进行钳位操作;步骤4,构建语音对抗样本生成算法的损失函数,并采用神经网络训练中的优化器进行多次迭代,以此来减小该损失函数,并对误差值进行更新;步骤5,在迭代过程中,若生成的对抗样本的识别结果为给定的目标值,则减小误差阈值进行阈值误差更新,继续进行迭代,直至迭代结束;迭代结束后,输出最终的对抗样本结果。2.根据权利要求1所述的方法,其特征在于:步骤1中,读取语音数据的方式采用scipy库中的scipy.io.wavfile模块,在python以数组的形式表示;提取输入语音数据的语音特征值采用mfcc算法,通过调用DeepSpeech语音识别系统的mfcc模块实现。3.根据权利要求1所述的方法,其特征在于:步骤2中,计算输入语音数据的识别结果与给定目标值之间的CTCLoss采用TensorFlow平台中的tensorflow.nn.ctc_loss()函数;其中设置该函数中的标签序列时,根据给定目标值中的字母在26个字母中的位置,将字母字符转换...

【专利技术属性】
技术研发人员:张国和匡泽杰朱聚卿梁峰
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1