一种基于对抗训练的文本通用对抗防御方法及系统技术方案

技术编号：35131973 阅读：31 留言：0更新日期：2022-10-05 10:05

本发明专利技术请求保护一种基于对抗训练的文本通用对抗防御方法及系统，属于人工智能自然语言处理领域。用于增强基于深度神经网络的文本分类模型对于通用对抗攻击的鲁棒性。获取文本分类的数据集，将数据集分为训练集、验证集和测试集，并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列；在神经网络模型的训练过程中，首先初始化一个全局唯一的通用对抗扰动序列，然后将该扰动序列随机添加到一个批次的训练数据中，最后在更新模型参数的同时更新扰动序列，迭代训练直至模型收敛。本发明专利技术证明以对抗训练为基础的对抗防御方法不仅可以降低对抗训练的计算成本，而且可以提升模型的鲁棒性和性能。的鲁棒性和性能。的鲁棒性和性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗训练的文本通用对抗防御方法及系统

[0001]本专利技术涉及人工智能自然语言处理领域，尤其涉及一种针对通用对抗攻击的防御方法，具体涉及一种基于对抗训练的通用对抗防御方法。

技术介绍

[0002]近年来，深度神经网络在自然语言处理领域的研究与应用成效十分显著，文本分类作为一个基础任务，在现实中的应用十分广泛，如情感分析、新闻分类、垃圾信息过滤等。这些基于深度神经网络的文本分类器在遇到对抗攻击时，性能会显著下降并引起应用安全性、有效性的担忧。比如攻击者可以利用对抗攻击把对某件事的恶意观点进行处理，“欺骗”文本分类器将其分类为正向观点，扩大恶意观点的传播范围；将对产品或电影的恶意评价“伪装”成正向评价，影响人们的购买倾向；将垃圾邮件、垃圾短信等负面信息处理成正常信息，文本分类器错误地将其放在正常的邮件、短信文件夹下，误导人们对正确信息的判断。因此人们往往会采取对抗样本检测、对抗训练等防御方法来加强模型对于对抗攻击的鲁棒性。
[0003]通用对抗攻击是最近提出的一种对抗攻击方法，不仅可以在白盒情况下实现较高的攻击成功率，而且在相似的模型中具有较高的迁移性。最重要的是，通用对抗攻击可以提前生成一个单一的扰动，将其添加到任意的干净样本中构成对抗样本。在文本领域中，扰动是指一个固定短语，本文称为通用对抗扰动序列。这意味着攻击方在实际的攻击过程中，几乎不需要任何的攻击成本就可以在短时间内对深度神经网络模型发起大规模的攻击，这有可能会给深度神经网络系统带来不可估量的损失。在文本领域中...

【技术保护点】

【技术特征摘要】
1.一种基于对抗训练的文本通用对抗防御方法，其特征在于，包括以下步骤：获取文本分类的数据集，将数据集分为训练集、验证集和测试集，并随机初始化文本分类模型的参数和全局唯一的通用对抗扰动序列；文本分类模型是指常用于文本分类任务的深度神经网络模型，文本分类模型的参数包括嵌入层、隐藏层、输出层各个网络层的参数；将初始化后的通用对抗扰动序列插入到一个批次的训练数据中，每条训练数据的插入位置是随机的，并将处理后的批次数据输入到文本分类模型中；利用损失函数计算当前批次的损失值，同时利用反向传播更新模型参数，接着计算通用对抗扰动序列在当前批次上的平均梯度，结合通用对抗攻击方法来更新通用对抗扰动序列；重复以上步骤直至训练的文本分类模型收敛；利用通用对抗攻击方法生成对抗样本，将对抗样本用于文本分类模型训练；在训练集和验证集上训练并优化模型参数，在测试集上观察模型的鲁棒性。2.根据权利要求1所述的一种基于对抗训练的文本通用对抗防御方法，其特征在于，所述通用对抗扰动序列，具体包括：通用对抗扰动序列是由通用对抗攻击方法计算生成的一个固定短语，将其添加到任意样本中生成对抗样本，这些对抗样本可以误导文本分类模型以很高的概率输出一个错误的输出或者输出一个指定的输出；不影响人们对其原始语义的理解，通用对抗攻击的定义如下：其中F表示基于深度神经网络的文本分类模型；X表示输入的文本数据集合，服从数据分布D(X)；Y表示输出的预测结果集合；δ＝{δ1,δ2,
…
,δ
k
‑1,δ
k
}表示通用对抗扰动序列，其长度为k；x'表示生成的对抗样本，每个对抗样本都包含通用对抗扰动序列。3.根据权利要求2所述的一种基于对抗训练的文本通用对抗防御方法，其特征在于，所述初始化全局唯一的通用对抗扰动序列，包括：提前设定通用对抗扰动序列的长度；初始化的过程可以分为两种，第一种是通过重复一些无意义的词，来初始化通用对抗扰动序列；第二种是从对应语言的语料库中随机选择一些词来初始化。4.根据权利要求3所述的一种基于对抗训练的文本通用对抗防御方法，其特征在于，所述将初始化后的通用对抗扰动序列插入到一个批次的训练数据中，每条训练数据的插入位置是随机的，具体包括：通用对抗扰动序列添加到当前批次的训练样本中生成对抗样本，选择插入的位置不同，生成的对抗样本也不一样，为了保证对抗样本的多样性，并且为了防止模型在学习的过程中总是忽略固定位置上的词，插入的位置是随机的，而不是固定位置。5.根据权利要求4所述的一种基于对抗训练的文本通用对抗防御方法，其特征在于，所述利用损失函数计算当前批次的损失值，包括：当前批次是指将通用对抗扰动序列添加到原始批次文本中生成的对抗样本；损失函数
采用交叉熵损失函数或其他损失函数，当采用交叉熵损失函数时，损失值计算如下：其中y
i
表示第i个对抗样本的标签值；y
′
i
表示文本分类模型对于第i个对抗样本的预测值；b表示一个批次中对抗样本的数量。6.根据权利要求5所述的一种基于对抗训练的文本通用对抗防御方法，其特征在于，所述利用反向传...

【专利技术属性】
技术研发人员：陈龙，郝志荣，黄嘉成，谢荣鹏，艾锐，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人