一种文本对抗样本生成方法、设备及介质技术

技术编号：36557270 阅读：29 留言：0更新日期：2023-02-04 17:12

本发明专利技术公开了一种文本对抗样本生成方法、设备及介质，包括基于文本分类模型和雅可比矩阵对文本数据集进行预处理后的文本进行计算定位关键词，构建替换语料库，将关键词与所述替换语料库进行比对，若匹配则采用替换语料库中的替换案例进行替换生成对抗样本；若不匹配则采用预训练模型生成该关键词的替换候选词，采用贪心算法从替换候选词中选取替换词对关键词进行替换并生成对抗样本。本发明专利技术提供了一种文本对抗样本生成方法，使用预训练模型生成符合当前语境上下文的多种替换策略和改进现有的替换词搜索方法，解决现有文本白盒攻击中存在的文本对抗样本质量不足和效率太低的问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本对抗样本生成方法、设备及介质

[0001]本专利技术涉及人工智能信息安全
，具体涉及一种文本对抗样本生成方法、设备及介质。

技术介绍

[0002]在互联网时代，随着海量数据积累、计算能力升级以及机器学习框架不断创新进化，深度神经网络(Deep Neural Networks,DNNs)在解决计算机视觉、语音识别、自然语言处理(Natural Language Processing,NLP)等领域取得巨大成功，人工智能正在走向人类的历史性时刻。现如今，大量的深度学习技术日趋成熟，并逐步地应用于各行各业，极大地促进深度学习领域产业化发展。在自然语言处理领域，基于深度学习的文本分类、机器翻译、智能问答等任务得到迅猛发展，形成了情感分析、有害内容检测、翻译助手、智慧客服等一系列具有现实意义的应用。然而，尽管深度神经网络模型在各个领域都有着出色的表现，但其自身也存在许多安全问题。据机器学习和安全领域的研究表明，在面对精心构造的恶意对抗性样本时，即使表现非常出色的深度神经网络模型也显现出极大的脆弱性。这类攻击在合法输入中通过添加精心设计且难以察觉的扰动，愚弄模型做出错误预测的同时又不会影响人的判断。
[0003]常用对抗攻击方法根据是否了解模型的具体信息划分为：白盒攻击和黑盒攻击。白盒攻击：能够完全访问目标模型，知道模型的完整信息，包括输入输出、模型结构、参数、损失函数、激活函数等，攻击者可以通过使用目标模型的梯度来精心设计对抗样本，通常这种攻击非常有效，难以防御；黑盒攻击：不清楚目标模型的体系结构，无法访...

【技术保护点】

【技术特征摘要】
1.一种文本对抗样本生成方法，其特征在于，包括如下步骤：获取文本数据集，并对所述文本数据集进行预处理，得到文本；基于文本分类模型和雅可比矩阵对文本进行计算，得到文本中词语的贡献度并通过词语的贡献度定位关键词；使用替换成功的案例构建替换语料库，将所述关键词与所述替换语料库的案例进行比对；若所述关键词与所述替换语料库的案例匹配，采用替换语料库中的替换案例进行替换生成对抗样本；若所述关键词与所述替换语料库的案例不匹配，则采用预训练模型生成该关键词的替换候选词，采用贪心算法从替换候选词中选取替换词对关键词进行替换并生成对抗样本。2.根据权利要求1所述的一种文本对抗样本生成方法，其特征在于，基于文本分类模型和雅可比矩阵，对文本进行计算之前还包括：采用文本数据集对文本分类模型和预训练模型进行训练，使文本分类模型和预训练模型学习所述文本数据集中文本的序列特征。3.根据权利要求1所述的一种文本对抗样本生成方法，其特征在于，采用预训练模型生成该关键词的替换候选词的方法如下：将文本中的关键词用[MASK]标记进行掩码；在预训练模型中引入掩码语言任务，基于完形填空的特性用掩码语言任务生成掩码的替换候选词。4.根据权利要求3所述的一种文本对抗样本生成方法，其特征在于，将文本中的关键词用[MASK]标记进行掩码还包括在关键词的左侧插入[MASK]标记或在关键词的右侧插入[MASK]标记。5.根据权利要求4所述的一种文本对抗样本生成方法，其特征在于，采用贪心算法从替换候选词中选取替换词的方法如下：A、计算使用替换候选词替换前文本的置信值以及使用替换候选词替换后文本的置信值；B、根据步骤A使用替换候选词替换前后文本置信值的变化选择最优候选词；C、使用最优候选词替换掩码获得扰动文本S
′
；D、使用余弦相似度计算扰动文本S
′
与未替换之前的文本S的语义相似性，若扰动文...

【专利技术属性】
技术研发人员：吴渝，秦先进，先兴平，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人