检测深度神经网络(DNN)上的对抗攻击制造技术

技术编号：33540152 阅读：13 留言：0更新日期：2022-05-21 09:44

一种用于保护具有包括一个或多个中间层的多个层的深度神经网络(DNN)的方法、装置和计算机程序产品。在该方法中，接收训练数据集。在使用所接收的训练数据集来训练DNN期间，记录与中间层相关联的激活的表示。针对表示中的至少一个或多个，训练单独的分类器(模型)。分类器共同地用于训练离群值检测模型。在训练之后，使用离群值检测模型来检测深度神经网络上的对抗输入。离群值检测模型生成预测以及给定输入是否是对抗输入的指示符。根据另一方面，响应于检测到对抗输入，采取动作以保护与DNN相关联的部署的系统。相关联的部署的系统。相关联的部署的系统。

全部详细技术资料下载

【技术实现步骤摘要】
检测深度神经网络(DNN)上的对抗攻击

[0001]本公开一般涉及信息安全，并且具体地涉及保护机器学习模型免于错误的再现、分发和使用。

技术介绍

[0002]作为现有技术的人工智能(AI)服务的关键组成部分的机器学习技术在为诸如图像识别、语音识别和自然语言处理等各种任务提供人类级能力方面已经显示出巨大的成功。大多数主要技术公司正在构建其AI产品和服务，其中深度神经网络(DNN)作为关键组成部分。构建生产级深度学习模型是非平凡的任务，它需要大量的训练数据、强大的计算资源和人类专业知识。例如，Google的Inception v4模型是为图像分类设计的切割边缘卷积神经网络(CNN)；用具有数百万张图像的图像数据集在多个GPU上从该网络创建模型需要几天到几周的时间。此外，设计深度学习模型需要大量的机器学习专业知识和用于定义模型架构和选择模型超参数的大量试错迭代。
[0003]尽管DNN在许多任务上具有显著的性能，但最近的研究已经表明它们易受对抗攻击(adversarial attack)，这些对抗攻击被设计成有意地向DNN的输入数据注入小的扰动(也被称为“对抗示例”)以导致错误分类。如果目标DNN被用于关键应用，诸如自主驾驶、机器人技术、视觉认证和识别等，则这种攻击尤其危险。在一个报告的示例中，示出了对自主驾驶DNN模型的对抗攻击导致目标DNN将停止标志错误分类为速度限制，从而产生危险驾驶状况。
[0004]也已经提出了对抗攻击的几种形式的防御，包括对抗训练、输入预处理和不同的模型强化。尽管这些防御使得攻击...

【技术保护点】

【技术特征摘要】
1.一种保护具有包括一个或多个中间层的多个层的深度神经网络(DNN)的方法，包括：记录与中间层相关联的激活的表示；针对一个或多个表示中的每一个，训练分类器；以及在针对每个表示训练分类器之后，使用从至少一个或多个表示训练的分类器来检测深度神经网络上的对抗输入。2.如权利要求1所述的方法，其中训练分类器生成标签阵列的集合，标签阵列是用于与中间层相关联的激活的表示的标签的集合。3.如权利要求2所述的方法，其中使用分类器还包括将相应的标签阵列的集合聚集到离群值检测模型中。4.如权利要求3所述的方法，其中离群值检测模型生成预测，连同给定输入是否是对抗输入的指示符。5.如权利要求4所述的方法，还包括响应于检测到对抗攻击而采取动作。6.如权利要求5所述的方法，其中，所述动作是以下之一：发出通知，防止对抗者提供被确定为对抗输入的一个或多个附加输入，采取动作以保护与D...

【专利技术属性】
技术研发人员：张佳龙，顾钟蔬，张智勇，MP斯托克林，IM莫洛伊，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人