减轻机器学习系统中的对抗效应技术方案

技术编号:33343285 阅读:15 留言:0更新日期:2022-05-08 09:31
提供用于净化机器学习(ML)模型的技术。接收第一ML模型以及干净的训练数据。使用干净的训练数据训练第一ML模型与第二ML模型之间的路径。基于经训练的路径上的至少一个点,生成经净化的ML模型。然后,使用经净化的ML模型促进一个或多个ML功能。进一个或多个ML功能。进一个或多个ML功能。

【技术实现步骤摘要】
【国外来华专利技术】减轻机器学习系统中的对抗效应


[0001]本公开涉及机器学习,并且更具体地,涉及减轻机器学习系统中的对抗效应。

技术介绍

[0002]各种机器学习模型和技术已经被应用于各种应用中,并且继续显示巨大的潜力。然而,许多模型需要大量的训练数据以便返回满意的结果。获得这些数据通常是困难、昂贵和耗时的。为了减少这些负担,许多都依赖于预先训练的模型或预先标记的训练数据。然而,这些模型和数据相对未知,并且可能被污染或中毒。例如,训练数据可能被与目标标签相关联的指定触发器模式破坏。在训练期间,这些模型结合了该对抗性行为,以使得当存在指定触发器时,这些模型可能被欺骗或被迫将输入数据错误地分类到目标类别中。其它攻击也是可能的。
[0003]尽管现有的解决方案通常通过执行一些附加的调整或细化来定制预先训练的模型,但是,在这一阶段可用的训练数据通常相当少,并且不足以完全训练新的模型。这使得模型对于预先训练的篡改(例如,使用触发器)具有强的偏差。通常,这些对抗性偏差难以检测或者不可能检测。因此,需要净化或修复可能被污染的模型,而无需大量的附加数据或者模型的完整重新训练。

技术实现思路

[0004]根据本公开的一个实施例,提供了一种方法。该方法包括接收第一机器学习(ML)模型和干净的训练数据。该方法进一步包括由计算设备使用干净的训练数据来训练第一ML模型与第二ML模型之间的路径。然后,基于经训练的路径上的至少一个点,生成经净化的ML模型。该方法还包括使用经净化的ML模型促进一个或多个ML功能。有利地,这种方法使得ML模型能够被净化和使用,并且风险降低。
[0005]根据本公开的另一实施例,可使用有毒的训练数据来预先训练第一ML模型,以使得第一ML模型对具有预定义触发器的对抗性输入数据进行错误分类。在一个这种实施例中,净化ML模型相对不太可能对对抗性输入数据进行错误分类。这种实施例的一个优点是中毒的模型可被挽救和净化,从而降低与预先训练的模型相关联的风险,同时保持准确度和逼真度。
[0006]根据本公开的一些实施例,生成经净化的ML模型包括:确定经净化的ML模型的预定义可接受准确度,选择训练路径上的与第一ML模型相距最远且满足预定义可接受准确度的点,以及基于在所选择的点处指定的权重,实例化经净化的ML模型。有利地,该实施例允许生成足够准确的经净化的模型,同时最小化与模型相关联的风险。
[0007]根据本公开的至少一个实施例,从第三方接收第一ML模型和第二ML模型,并且未接收用于训练第一ML模型和第二ML模型的训练数据。在这样的实施例中,本公开使得具有未知行为(例如,未知训练数据)的预先训练的模型能够被安全且确信地使用,这显著改进了这样的系统。
[0008]根据本公开的另一个实施例,该方法包括:通过使用干净的训练数据迭代地改进第一ML模型,生成第二ML模型。有利地,这样的实施例使得能够基于单个预先训练的模型来生成经净化的模型。也就是说,这样的实施例不需要多个预先训练的模型,甚至单个(可能中毒的)模型也可以被净化。
[0009]根据本公开的又一个实施例,训练第一ML模型与第二ML模型之间的路径包括:确定对应于第一ML模型的第一组权重w1和对应于第二ML模型的第二组权重w2。该方法还包括:生成具有参数θ的连续分段平滑参数曲线φ
θ
(t),以使得φ
θ
(0)=w1并且φ
θ
(1)=w2。有利地,这样的实施例使得能够生成连接模型的经训练的路径,以使得可以使用该路径创建经净化的模型。这通过降低对抗性风险同时保持准确度来提高模型的性能。
[0010]根据本公开的另一个实施例,生成连续分段平滑参数曲线包括:通过以下操作来确定参数θ:最小化在由定义的曲线上的均匀分布的期望。这种实施例的一个优点是它使得能够训练高逼真路径,这可以保持模型的准确度,同时降低或消除对抗性风险。这使得能够使用预先训练的模型而不用担心。
[0011]根据本专利技术的不同实施例,上述实施例的任何组合可由计算机可读存储介质实现。计算机可读存储介质包含计算机程序代码,该计算机程序代码在由一个或多个计算机处理器的操作执行时执行操作。在实施例中,所执行的操作可以对应于上述方法和实施例的任何组合。
[0012]根据本公开的又一不同实施例,上述实施例的任何组合可以由系统实现。该系统包括一个或多个计算机处理器和包含程序的存储器,该程序当由一个或多个计算机处理器执行时执行操作。在实施例中,所执行的操作可以对应于上述方法和实施例的任何组合。
附图说明
[0013]现在将参考附图仅通过示例的方式描述本专利技术的实施例,在附图中:
[0014]图1示出根据本文所公开的一个实施例的用于净化和修复可能中毒的机器学习模型的工作流程。
[0015]图2A和2B描绘根据本文所公开的一个实施例的使用受污染的训练数据来使机器学习模型中毒。
[0016]图2C示出根据本文所公开的一个实施例的用于净化和修复可能中毒的机器学习模型的经训练的路径。
[0017]图3描绘根据本文所公开的一个实施例的作为经训练的路径上的位置的函数的经净化的机器学习模型的准确度。
[0018]图4是示出根据本文所公开的一个实施例的被配置为修复中毒的机器学习模型的人工智能系统的框图。
[0019]图5是示出根据本文所公开的一个实施例的用于生成经净化的机器学习模型的方法的流程图。
[0020]图6是示出根据本文所公开的一个实施例的用于微调中毒的机器学习模型以生成经净化的模型的方法的流程图。
[0021]图7是示出根据本文所公开的一个实施例的用于使用经净化的机器学习模型处理
数据的方法的流程图。
[0022]图8是示出根据本文所公开的一个实施例的用于对机器学习模型进行净化的方法的流程图。
具体实施方式
[0023]本公开的实施例提供了用于净化和/或修复机器学习(ML)模型以便减轻对抗性攻击的技术。如本文所使用的,对抗性数据和对抗性模型一般是指在一些空间中接近合法(或看上去合法)但在其他空间中展现不需要或恶意行为的数据或模型。例如,对抗性模型可以用某组输入数据提供准确且期望的结果。然而,如果模型包含一些内部权重或偏差使得它以对抗性或不期望的方式对一些输入作出反应,则该模型是对抗性的。例如,当在输入中存在某些触发器时,被感染的或中毒的模型可能返回不正确的结果。在许多实施例中,这些触发器可以包括输入数据中的模式。通常,这些触发器被隐藏在输入数据中,并且对于人类观察者是察觉不到的。
[0024]对抗性模型的一个例子是用后门训练的模型。在这种模型中,一个或多个触发器可以被嵌入在输入数据中(并且在训练阶段期间被教导给模型)。然后,当在运行时输入数据中存在这些触发器时,则它们可使得模型对数据进行错误分类或者以其它方式表现得与预期相反。作为对抗性攻击的另一个示例,错误注入攻击可用于在训练期间扰乱或修改模型的权重或其他参数(例如,通过在训练期间错误标记特定范例(e本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:接收第一机器学习ML模型;接收干净的训练数据;由计算设备使用所述干净的训练数据来训练所述第一ML模型与第二ML模型之间的路径;基于经训练的路径上的至少一个点,生成经净化的ML模型;以及使用所述经净化的ML模型促进一个或多个ML功能。2.根据权利要求1所述的方法,其中,使用有毒的训练数据来预先训练所述第一ML模型,以使得所述第一ML模型对具有预定义触发器的对抗性输入数据进行错误分类,并且其中,所述经净化的ML模型相对不太可能对所述对抗性输入数据进行错误分类。3.根据权利要求1所述的方法,其中,生成经净化的ML模型包括:确定所述经净化的ML模型的预定义可接受准确度;选择所述经训练的路径上的与所述第一ML模型相距最远且满足所述预定义可接受准确度的点;以及基于在所选择的点处指定的权重,实例化所述经净化的ML模型。4.根据权利要求1所述的方法,其中,从第三方接收所述第一ML模型和所述第二ML模型,并且其中,用于训练所述第一ML模型和所述第二ML模型的训练数据未被接收。5.根据权利要求1所述的方法,所述方法进一步包括:通过使用所述干净的训练数据迭代地细化所述第一ML模型,生成所述第二ML模型。6.根据权利要求1所述的方法,其中,训练所述第一ML模型与所述第二ML模型之间的所述路径包括:确定对应于所述第一ML模型的第一组权重w1;确定对应于所述第二ML模型的第二组权重w2;以及生成具有参数θ的连续分段平滑参数曲线φ
θ
(t),以使得φ
θ
(0)=w1并且φ
θ
(1)=w2。7.根据权利要求6所述的方法,其中,生成所述连续分段平滑参数曲线包括:确定所述参数θ,其包括:最小化在由定义的曲线上的均匀分布的期望。8.根据权利要求1所述的方法,其中,所述第一ML模型是在第一训练数据集上进行训练的,其中,所述第一训练数据集不包括所述干净的训练数据,并且其中,所述第一训练数据集大于所述干净的训练数据。9.一种包含计算机程序代码的计算机可读存储介质,所述计算机程序代码在由一个或多个计算机处理器的操作执行时执行操作,所述操作包括:接收第一机器学习ML模型;接收干净的训练数据;使用所述干净的训练数据来训练所述第一ML模型和第二ML模型之间的路径;基于经训练的路径上的至少一个点,生成经净化的ML模型;以及使用所述经净化的ML模型促进一个或多个ML功能。10.根据权利要求9所述的计算机可读存储介质,其中,使用有毒的训练数据来预先训
练所述第一ML模型,以使得所述第一ML模型对具有预定义触发器的对抗性输入数据进行错误分类,并且其中,所述净化ML模型相对不太可能对所述对抗性输入数据进行错误分类。11.根据权利要求9所述的计算机可读存储介质,其中,生成所述经净化的ML模型包括:确定所述经净化的M...

【专利技术属性】
技术研发人员:陈品谕P
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1