【技术实现步骤摘要】
一种基于高斯白噪声的文本对抗攻击方法
[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于高斯白噪声的文本对抗攻击方法。
技术介绍
[0002]深度学习技术在各个行业得到日益深化的应用,大规模的深度学习模型被部署到人脸识别、车辆识别、机器翻译等应用系统中。自然语言处理技术与现实生活的联系日益密切,成功推出各项应用,例如舆情检测、智能搜索、非结构化信息提取等等,极大提升现实生活体验。对抗攻击作为可以不断提高深度学习模型泛化能力的有效手段,得到工业界的青睐。
[0003]对抗攻击是指通过向原始样本添加人为察觉不到的噪音,就使得分类模型对新构造的样本产生错误的分类判断,这一过程就称为对抗攻击,新构造的样本称为对抗样本。对抗攻击最早来源于图像分类的研究,研究人员发现,对于一个性能卓越的熊猫图像分类器,在原始图像中添加FGSM扰动项,分类器就以99.3%的置信度判定为长臂猿,因此研究人员对于深度学习模型的稳定性与安全性产生极大的兴趣。目前在自然语言处理领域,对于对抗攻击的研究远远少于图像领域,究其原因,在于图像的特 ...
【技术保护点】
【技术特征摘要】
1.一种基于高斯白噪声的文本对抗攻击方法,其特征在于,首先向模型输入自然语言文本,经词嵌入层、核心层、线性层后,得到前向训练损失,经反向传播获得梯度;接着在词嵌入向量的梯度上添加扰动项,生成对抗样本,继续进行前向计算损失值;经数次迭代训练后,模型学习到当前向量在变动范围内的最优解;扰动项促使模型参数更新向着损失增大的方向移动,达到攻击模型的目的。2.根据权利要求1所述的方法,其特征在于,流程步骤如下:1)对给定文本进行处理;2)正向模型训练;3)设定迭代次数K,梯度变化范围,初始梯度,初始嵌入向量;4)计算出Embedding梯度干扰项;5)判断干扰项是否超出范围;是则执行步骤6)否则执行步骤7);6)将干扰项限制在特定范围内;7)利用干扰项生产对抗样本;8)判断当前迭代次数达到K;9)梯度还原为初始梯度;10)正向模型训练;11)输出模型检测结果。3.根据权利要求1所述的方法,其特征在于,步骤8)中,若当前迭代次数未达到K,则进行8.1)梯度归一化为零矩阵;8.2)正向模型训练;8.3)迭代次数增加1;8.4)返回步骤4)。4.根据权利要求1所述的方法,其特征在于,具体包括:S1、对给定文本进行处理;设定文本中最大字符长度为L,不足的部分进行“padding”补全;文本张量T维度为R
L
,其中R表示实数空间;S2、将T输入到Embedding层,得到嵌入向量矩阵X;S3、正向模型训练,接着将X依次输入到神经网络Encoder层、两层全连接层,其中最后一层全连接层的激活函数选为Sigmoid,得到正向损失Loss。5.根据权利要求4所述的方法,其特征在于,计算Loss关于X的梯度g,计算公式如下6.根据权利要求5所述的方法,其特征在于,S4、设定迭代次数K,梯度变化范围ε,初始梯度g0=g,初始嵌入向量X0=X;将梯度g进行备份,设为g
copy
;其中K为正整数,ε为趋近于0的正数。
7.根据权利要求6所述的方法,其特征在于,S5、对于第t次迭代,在Embedding层中基于梯度g
t
计算出干扰项r
adv
,接着判断干扰项的取值范围,若||r
adv
||2>ε,执行S6,反之执行S...
【专利技术属性】
技术研发人员:何彬彬,李明明,潘心冰,伊文超,朱利霞,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。