对抗性插值后门检测制造技术

技术编号:37999459 阅读:13 留言:0更新日期:2023-06-30 10:13
一个或多个计算机处理器确定与不可信模型和对抗性训练方法相关联的容限值和范数值。一个或多个计算机处理器利用对抗性训练方法生成在图像对之间测距的多个插值的对抗性图像,其中,该对图像中的每个图像来自不同的类别。一个或多个计算机处理器利用所生成的多个插值的对抗性图像来检测与不可信模型相关联的后门。一个或多个计算机处理器通过利用所生成的多个经插值的对抗性图像训练不可信模型来硬化不可信模型。来硬化不可信模型。来硬化不可信模型。

【技术实现步骤摘要】
【国外来华专利技术】对抗性插值后门检测

技术介绍

[0001]本专利技术一般涉及机器学习领域,尤其涉及检测经后门攻击的神经网络。
[0002]深度学习是基于一组算法的机器学习的分支,该组算法通过使用具有复杂结构或另外的通常由多个非线性变换组成的模型架构来对数据中的高级抽象建模。深度学习是基于数据的学习表示的更广泛的机器学习方法家族的一部分。观察结果(例如,图像)可以以许多方式表示,例如每个像素的强度值的向量,或者以更抽象的方式表示为一组边缘、特定形状的区域等。一些表示使得更容易从示例学习任务(例如,面部识别或面部表情识别)。深度学习算法通常使用多个非线性处理单元层的级联来进行特征提取和变换。每个连续层使用来自前一层的输出作为输入。算法可以是有监督的或无监督的,并且应用包括模式分析(无监督的)和分类(有监督的)。
[0003]神经网络(NN)是由生物神经网络启发的计算系统。NN不是简单的算法,而是针对用于一起工作并处理复杂的数据输入的许多不同机器学习算法的框架。这样的系统通过考虑示例来学习执行任务,通常不用任何任务特定的规则来编程。例如,在图像识别中,NN通过分析被正确标记为真或假(例如,猫或非猫)的示例图像并使用结果识别其他图像中的对象(例如,猫),来学习识别包含猫的图像。在该示例中,NN在没有关于猫的任何先验知识的情况下分类,例如,猫具有毛、尾巴、胡须和尖的耳朵。相反,NN自动根据学习材料生成识别特征。NN基于称为人工神经元的连接单元或节点的集合,这些连接单元或节点对生物脑中的神经元进行松散的建模,其中每个连接像生物脑中的突触一般可以将信号从一个人工神经元传输到另一人工神经元。接收信号的人工神经元可以处理该信号并随后将该信号传递至附加的人工神经元。
[0004]在常见的NN实施方式中,人工神经元之间的连接处的信号是实数,并且每个人工神经元的输出是通过其输入之和的某一非线性函数来计算的。人工神经元之间的连接被称为边。人工神经元和边通常具有权重,该权重随着学习的进行而被调整。权重增加或减少连接处的信号强度。人工神经元可以具有阈值,使得仅在聚合信号越过阈值时才发送信号。通常,人工神经元聚合成层。不同的层可以对它们的输入执行不同类型的变换。信号可能在多次穿过各层之后从第一层(输入层)传播到最后一层(输出层)。
[0005]卷积神经网络(CNN)是一类神经网络,最通常应用于分析视觉图像。CNN是多层感知器(例如,全连接网络)的正则化版本,其中一层中的每个神经元连接到下一层中的所有神经元。CNN利用数据中的分层模式,并使用更小和更简单的模式来组装更复杂的模式。CNN将图像分解成小块(例如,5
×
5像素块),然后以指定的步长在图像上移动。因此,在连通性和复杂性的尺度上,CNN处于下限,因为CNN与其他图像分类算法相比使用相对较少的预处理,从而允许网络学习在传统算法中被手工工程化的过滤器。

技术实现思路

[0006]本专利技术的实施例公开了一种计算机实现的方法、计算机程序产品和系统。该计算机实现的方法包括一个或多个计算机处理器确定与不可信模型和对抗性训练方法相关联
的容限值和范数值。一个或多个计算机处理器利用对抗性训练方法生成范围在图像对之间的多个经插值的对抗性图像,其中该图像对中的每个图像来自不同的类别。一个或多个计算机处理器利用所生成的多个经插值的对抗性图像来检测与不可信模型相关联的后门。一个或多个计算机处理器通过利用所生成的多个经插值的对抗性图像训练不可信模型来硬化(harden)该不可信模型。
附图说明
[0007]图1是示出根据本专利技术的实施例的计算环境的功能框图;
[0008]图2是描绘根据本专利技术的实施例的在图1的计算环境内的服务器计算机上的程序的操作步骤的流程图,操作步骤用于利用所生成的经插值的对抗性图像来检测和硬化经后门攻击的神经网络;
[0009]图3是根据本专利技术的实施例的生成范围在猫类别和狗类别之间的多个经插值的图像的程序的图示;以及
[0010]图4是根据本专利技术实施例的服务器计算机的组件的框图。
具体实施方式
[0011]当训练数据被恶意篡改时,在存在被称为后门攻击的经设计的触发模式的情况下,所得的经训练模型(例如,深度卷积神经网络(CNN))的相关联预测可以被操纵。深度CNN在如计算机视觉、语音理解、玩游戏等领域中实现了最新的表现,然而,在训练阶段存在恶意注入的漏洞,这称为后门攻击。后门攻击可能损坏机器学习系统,特别是涉及图像分类、面部识别和自主车辆的系统,从而对模型和应用可信性提出了严峻挑战。对手或不良行动者可以利用具有将攻击者选择的输入分类到一些目标标签的能力的后门示例来对神经网络进行后门访问,同时仍然保持对正常输入的正确预测。异常行为被后门和神经网络在训练阶段中学习的一些“键”输入激活。对手攻击将人不可感知的扰动添加到测试数据,使得数据输入在测试阶段容易被错误地分类。对手通过将精心制作的恶意数据(例如,后门攻击)插入训练集中来获得惊人的控制机器学习模型。这与不安全或众包数据采集、频繁再训练、模型定制(例如,来自模型市场)和转移学习的场景尤其相关。
[0012]本专利技术的实施例确定模型是否已利用恶意的键或触发器被后门访问。本专利技术的实施例生成多个经插值的对抗性扰动以确定在模型中是否存在后门。本专利技术的实施例通过利用所生成的经插值的对抗性扰动和相关联的对抗性图像来训练/再训练模型,从而硬化模型。本专利技术的实施例利用人机回环(human

in

the

loop)训练方法来维持模型效率并改进对可能的后门和相关联图像的检测。本专利技术的实施例的实现可以采取各种形式,并且随后参考附图讨论示例性实现细节。
[0013]现在将参照附图详细描述本专利技术。
[0014]图1是示出根据本专利技术一个实施例的计算环境的功能框图,通常指定为100。在本说明书中使用的术语“计算”描述了包括多个物理上不同的设备的计算机系统,这些设备作为单个计算机系统一起操作。图1仅提供了一种实现的图示,并且不暗示对其中可以实现不同实施例的环境的任何限制。本领域技术人员可以对所描述的环境进行许多修改,而不脱离权利要求所陈述的本专利技术的范围。
[0015]计算环境100包括通过网络102连接的服务器计算机120。网络102可以是例如电信网络、局域网(LAN)、诸如因特网的广域网(WAN)、或这三者的组合,并且可以包括有线、无线、或光纤连接。网络102可以包括能够接收和发送包括多媒体信号在内的数据、语音和/或视频信号的一个或多个有线和/或无线网络,该多媒体信号包括语音、数据和视频信息。通常,网络102可以是支持服务器计算机120和模型110以及计算环境100内的其它计算设备(未示出)之间的通信的连接和协议的任何组合。在各种实施例中,网络102经由有线、无线或光学连接在本地操作,并且可以是连接和协议(例如,个人区域网(PAN)、近场通信(NFC)、激光、红外、超声等)的任何组合。
[0016]模型110表示利用深度学习技术进行训练、计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:由一个或多个计算机处理器确定与不可信模型和对抗性训练方法相关联的容限值和范数值;由一个或多个计算机处理器利用所述对抗性训练方法生成范围在图像对之间的多个经插值的对抗性图像,其中,所述图像对中的每个图像来自不同的类别;由一个或多个计算机处理器利用所生成的多个经插值的对抗性图像来检测与所述不可信模型相关联的后门;以及由一个或多个计算机处理器通过用所生成的多个经插值的对抗性图像训练所述不可信模型来硬化所述不可信模型。2.根据权利要求1所述的计算机实现的方法,其中,利用所述对抗性训练方法生成范围在所述图像对之间的所述多个经插值的对抗性图像包括:由一个或多个计算机处理器针对测试集中包含的每个类别,迭代地执行朝向指定类别的到经插值的对抗性图像的子集中的一个或多个扰动。3.根据权利要求2所述的计算机实现的方法,其中所述一个或多个扰动是经线性插值的。4.根据权利要求1所述的计算机实现的方法,还包括:由一个或多个计算机处理器利用人机回环训练方法来监控所述不可信模型。5.根据权利要求4所述的计算机实现的方法,还包括:由一个或多个计算机处理器周期性地显示与所述不可信模型相关联的一个或多个梯度。6.根据权利要求1所述的计算机实现的方法,还包括:由一个或多个计算机处理器过滤包含检测到的后门的一个或多个后续输入。7.根据权利要求1所述的计算机实现的方法,其中,经硬化的模型被部署用于推断。8.根据权利要求1所述的计算机实现的方法,还包括:由一个或多个计算机处理器接收所述不可信模型、相关联的预先训练的权重、干净测试集、验证集以及所述对抗性训练方法,其中,所述干净测试集和所述验证集各自包含具有相关联的标签的多个图像。9.一种计算机程序产品,包括:一个或多个计算机可读存储介质和存储在所述一个或多个计算机可读存储介质上的程序指令,所存储的程序指令包括:用于确定与不可信模型和对抗性训练方法相关联的容限值和范数值的程序指令;用于利用所述对抗性训练方法生成范围在图像对之间的多个经插值的对抗性图像的程序指令,其中,所述图像对中的每个图像来自不同的类别;用于利用所生成的多个经插值的对抗性图像来检测与所述不可信模型相关联的后门的程序指令;以及用于通过利用所生成的多个经插值的对抗性图像训练所述不可信模型来硬化所述不可信模型的程序指令。10.根据权利要求9所述的计算机程序...

【专利技术属性】
技术研发人员:H
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1