对抗样本的生成方法及装置制造方法及图纸

技术编号：38209601 阅读：23 留言：0更新日期：2023-07-21 17:00

本公开提供一种对抗样本的生成方法及装置，所述对抗样本的生成方法包括：获取训练样本集合和机器学习模型，其中，训练样本集合中的每个训练样本具有离散字段属性，离散字段属性指的是字段值为离散变量的字段属性；将每个训练样本在每个离散字段属性上的字段值转换为字段值向量，得到向量样本；对每个向量样本在每个离散字段属性上的字段值向量施加扰动，将施加扰动后的向量样本作为第一扰动样本；基于第一扰动样本，生成对抗样本。根据本公开的对抗样本的生成方法及装置解决了难以针对离散变量数据生成对抗样本的问题，可以通过将离散字段属性上的字段值转换为字段值向量，针对具有离散变量的数据生成用于对抗学习的对抗样本。样本。样本。

全部详细技术资料下载

【技术实现步骤摘要】
对抗样本的生成方法及装置

[0001]以下描述涉及人工智能
，具体地涉及一种对抗样本的生成方法及装置。

技术介绍

[0002]对抗学习是通过攻击目标机器学习模型，使模型给出错误的预测结果，以此来研究机器学习模型的稳健性的一种手段。具体来说，可以对用于训练机器学习模型的原始训练样本进行一定程度的扰动，得到对抗样本，使得机器学习模型对于扰动前后的输入样本(即，原始训练样本和对抗样本)给出不一致的预测结果，或者使得机器学习模型对于扰动之后的对抗样本给出某个特定的错误预测结果。
[0003]现有的对抗学习的对抗样本生成方法通常局限于原始训练样本为诸如图像数据、文本数据等的连续变量数据的情况，这使得在一些具有离散变量数据的领域中，难以针对离散变量数据生成对抗学习的对抗样本。例如，在金融、医疗、教育等许多领域，常见的数据类型是表数据(或称结构化数据)，这些数据可能具有离散的字段值，现有的对抗样本生成方法不能对这样的离散的字段值施加扰动，导致无法对这些领域的机器学习模型进行对抗学习，进而无法通过对抗学习来提高机器学习模型的稳健性。
专利本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种对抗样本的生成方法，其特征在于，包括：获取训练样本集合和机器学习模型，其中，所述训练样本集合中的每个训练样本具有离散字段属性，所述离散字段属性指的是字段值为离散变量的字段属性，所述机器学习模型是基于所述训练样本集合训练得到的；将每个训练样本在每个离散字段属性上的字段值转换为字段值向量，得到向量样本，其中，字段值与字段值向量一一对应；对每个向量样本在每个离散字段属性上的字段值向量施加扰动，将施加扰动后的向量样本作为第一扰动样本；基于所述第一扰动样本，生成对抗样本。2.根据权利要求1所述的生成方法，其特征在于，将每个训练样本在每个离散字段属性上的字段值转换为字段值向量的步骤包括：针对每个离散字段属性，确定合法字段值之间的相对关系的编码值，其中，所述合法字段值指的是在字段属性下允许存在的字段值，所述合法字段值之间的相对关系的编码值根据预定的编码规则来确定；基于合法字段值之间的相对关系的编码值，确定与合法字段值对应的合法字段值向量，其中，合法字段值与合法字段值向量一一对应；基于所述合法字段值和所述合法字段值向量，确定与每个训练样本在相应离散字段属性上的字段值对应的字段值向量。3.根据权利要求1所述的生成方法，其特征在于，对每个向量样本在每个离散字段属性上的字段值向量施加扰动，将施加扰动后的向量样本作为第一扰动样本的步骤包括：针对每个向量样本，确定样本扰动量，其中，所述样本扰动量为所述机器学习模型的损失函数对向量样本的梯度；将所述样本扰动量施加到向量样本，以得到所述第一扰动样本。4.根据权利要求2所述的生成方法，其特征在于，基于所述第一扰动样本，生成对抗样本的步骤包括：针对每个第一扰动样本，从每个离散字段属性的所有合法字段值向量中，选取至少一个合法字段值向量作为与所述每个离散字段属性对应的合法搜索向量；针对每个第一扰动样本，获取在所有离散字段属性上的合法搜索向量的所有可能的向量组合，并与每个向量组合一一对应地生成第二扰动样本；从与每个第一扰动样本对应的所有第二扰动样本中确定能够成功攻击所述机器学习模型的第二扰动样本，并基于成功攻击的第二扰动样本，生成对抗样本，其中，成功攻击所述机器学习模型指的是：所述机器学习模型的与第二扰动样本对应的输出结果为预设的目标输出结果，并且第二扰动样本与对应的第一扰动样本所对应的训练样本之间的样本距离小于预设阈值，...

【专利技术属性】
技术研发人员：何雨橙，王海，赵申宜，涂威威，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人