一种对抗样本的生成方法及装置制造方法及图纸

技术编号：19829053 阅读：38 留言：0更新日期：2018-12-19 17:04

本发明专利技术公开了一种对抗样本的生成方法及装置，涉及数据分析技术领域，主要目的在于结合训练模型的参数生成具有训练针对性的对抗样本，以提升训练模型的鲁棒性。本发明专利技术主要的技术方案为：获取一组训练样本，所述训练样本至少包含输入数据以及对应的标签值；利用随机梯度下降算法和所述训练样本更新训练模型的模型参数；根据所述模型参数以及训练模型的超参数确定对抗扰动值，所述超参数为所述训练模型初始化时随机生成的；根据所述对抗扰动值生成所述训练样本对应的对抗样本。本发明专利技术用于训练样本的扩充以及模型训练。

全部详细技术资料下载

【技术实现步骤摘要】
一种对抗样本的生成方法及装置
本专利技术涉及数据分析
，尤其涉及一种对抗样本的生成方法及装置。
技术介绍
随着人工智能的飞速发展，智能语音交互已经成为了各种智能产品最直接的入口。深度学习在语音识别领域的成功应用，加速了智能语音交互在各种智能产品和应用场景中的落地。基于神经网络的声学模型，需要大量的带有标注的语音数据来进行训练，才能达到实用的效果。目前，被各大平台采用的商用语音识别模型，都是采用了上万小时的带有人工标注的语音数据进行训练。然而，语音训练数据的采集，成本高，需要考虑各种不同的应用场景、口音覆盖等因素，才能保证声学模型的泛化和推广能力，达到实用的标准。目前，大量的数据采集和录制过程，都是在相对安静的场景下进行的，数据的噪声较小。采用这种数据训练的模型，在实际应用中，会出现对噪声不鲁棒的问题。用户在实际应用语音识别功能时，周围的声学环境往往较为复杂，背景噪声、混响，以及各种干扰声，都会增加语音识别的难度，导致识别率的下降。为了提高声学模型在有带噪声真实环境下的效果，可以在训练数据中，增加大量的带噪语音，以提高模型的鲁棒性。但是，由于录制大量的真实的带噪语音代价较高，数据仿真，成为了广泛采用的一中扩充训练数据的方法，该方法是通过对干净数据添加噪声来仿真带噪语音，然后将仿真的语音加入到训练数据中，以实现有效地提高模型对噪声的鲁棒性。然而，这种方式所扩充的训练数据只是基于数据本身进行的简单加噪处理，并为考虑对于添加噪声大小的控制以及噪声对训练模型的影响，导致这些扩充的训练数据应用在不同的训练模型中时很难达到有针对性的训练模型鲁棒性的效果。专利技术内...

【技术保护点】
1.一种对抗样本的生成方法，其特征在于，所述方法包括：获取一组训练样本，所述训练样本至少包含输入数据以及对应的标签值；利用随机梯度下降算法和所述训练样本更新训练模型的模型参数；根据所述模型参数以及训练模型的超参数确定对抗扰动值，所述超参数为所述训练模型初始化时随机生成的；根据所述对抗扰动值生成所述训练样本对应的对抗样本。

【技术特征摘要】
1.一种对抗样本的生成方法，其特征在于，所述方法包括：获取一组训练样本，所述训练样本至少包含输入数据以及对应的标签值；利用随机梯度下降算法和所述训练样本更新训练模型的模型参数；根据所述模型参数以及训练模型的超参数确定对抗扰动值，所述超参数为所述训练模型初始化时随机生成的；根据所述对抗扰动值生成所述训练样本对应的对抗样本。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：利用随机梯度下降算法和所述对抗样本更新训练模型的模型参数；根据所述模型参数判断所述训练模型是否收敛；若未收敛，则利用另一个训练样本生成新的对抗样本更新所述训练模型的模型参数，直至所述训练模型收敛。3.根据权利要求1或2所述的方法，其特征在于，根据所述模型参数以及训练模型的超参数确定对抗扰动值包括：设置损失函数J(θ,x,y)，其中，θ为所述模型参数，x为训练样本的输入数据，y为所述训练样本的标签值；利用快速梯度符号法计算所述损失函数对应的对抗扰动值，所述快速梯度符号法的计算表达式为：δFGSM＝εsign(▽xJ(θ,x,y))，其中，δFGSM为对抗扰动值，ε为所述超参数，▽xJ(θ,x,y)为损失函数在输入数据上的梯度，sign(▽xJ(θ,x,y))的取值为1或-1。4.根据权利要求3所述的方法，其特征在于，根据所述对抗扰动值生成所述训练样本对应的对抗样本包括：对抗样本的输入数据为：其中，xm为一组训练样本中第m个训练样本的输入数据，为第m个训练样本的对抗扰动值；所述对抗样本为其中ym为第m个训练样本的标签值。5.一种对抗样本的生成装置，其特征在于，所述装置包括：获取单元，用于获取一组训练样本，所述训练样本至少包含输入数据以及对应的标签值；更新单元，用于利用随机梯度下降算法和所述获取单元获取的训练样本更新训练模型的模型参数；确定单元，用于根据所述更新单元得到的模型参数...

【专利技术属性】
技术研发人员：孙思宁，
申请(专利权)人：出门问问信息科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人