一种对抗攻击的监测方法和装置制造方法及图纸

技术编号:23891227 阅读:21 留言:0更新日期:2020-04-22 06:33
说明书披露一种对抗攻击的监测方法和装置。所述方法包括:获取目标模型的对抗样本空间;采集调用所述目标模型的输入数据;判断所述输入数据是否落入所述对抗样本空间;根据判断结果计算监测周期内落入到所述对抗样本空间的输入数据的监测参数,当所述监测参数满足预设的攻击条件时,确定监测到面向所述目标模型的对抗攻击。上述方案可有效监测对抗攻击,有效降低隐私泄露、资金损失等安全风险,保证数据安全。

A monitoring method and device against attack

【技术实现步骤摘要】
一种对抗攻击的监测方法和装置
本说明书涉及人工智能领域,尤其涉及一种对抗攻击的监测方法及装置。
技术介绍
随着人工智能的不断发展,机器学习模型越来越复杂,精确度越来越高。然而精确度越高的模型,鲁棒性却可能越差,即模型的稳健性越差,这就给攻击制造了机会。以对抗攻击为例,攻击者对样本进行细微的修改形成对抗样本,并输入模型,以使模型输出错误的预测结果。对抗攻击可能会带来安全风险,例如,对于依靠人脸识别进行身份认证的场景,攻击者构造了一对抗样本并输入人脸识别模型,若模型将该对抗样本识别为某合法用户,攻击者就能够通过身份认证,带来私有数据泄露、资金损失等安全风险。
技术实现思路
有鉴于此,本说明书提供一种对抗攻击的监测方法和装置。具体地,本说明书是通过如下技术方案实现的:一种对抗攻击的监测方法,包括:获取目标模型的对抗样本空间;采集调用所述目标模型的输入数据;判断所述输入数据是否落入所述对抗样本空间;根据判断结果计算监测周期内落入到所述对抗样本空间的输入数据的监测参数,当所述监测参数满足预设的攻击条件时,确定监测到面向所述目标模型的对抗攻击。一种对抗攻击的监测装置,包括:获取单元,获取目标模型的对抗样本空间;采集单元,采集调用所述目标模型的输入数据;判断单元,判断所述输入数据是否落入所述对抗样本空间;监测单元,根据判断结果计算监测周期内落入到所述对抗样本空间的输入数据的监测参数,当所述监测参数满足预设的攻击条件时,确定监测到面向所述目标模型的对抗攻击。一种对抗攻击的监测装置,包括:处理器;用于存储机器可执行指令的存储器;其中,通过读取并执行所述存储器存储的与对抗攻击的监测逻辑对应的机器可执行指令,所述处理器被促使:获取目标模型的对抗样本空间;采集调用所述目标模型的输入数据;判断所述输入数据是否落入所述对抗样本空间;根据判断结果计算监测周期内落入到所述对抗样本空间的输入数据的监测参数,当所述监测参数满足预设的攻击条件时,确定监测到面向所述目标模型的对抗攻击。本说明书一个实施例实现了,采集调用目标模型的输入数据,判断输入数据是否落入所述目标模型的对抗样本空间,并根据判断结果计算监测周期内落入到对抗样本空间的输入数据的监测参数,若监测参数满足攻击条件,则确认监测到面向目标模型的对抗攻击。上述方法不影响目标模型的正常使用,还可以及时监测到对抗攻击,有效降低私有数据泄露、资金损失等安全风险。附图说明图1是本说明书一示例性实施例示出的一种对抗攻击的监测的方法的流程示意图。图2是本说明书一示例性实施例示出的另一种对抗攻击的监测方法的流程示意图。图3是本说明书一示例性实施例示出的一种获取目标模型对抗样本空间的方法的流程示意图。图4是本说明书一示例性实施例示出的另一种对抗攻击监测的方法的流程示意图。图5是本说明书一示例性实施例示出的一种用于对抗攻击监测装置的一结构示意图。图6是本说明书一示例性实施例示出的一种对抗攻击监测装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。随着人工智能的不断发展,研究者们不断地设计出更深、更复杂的机器学习模型,以使模型输出更准确的预测结果。然而随着模型精确度的不断提高,模型的鲁棒性却可能越来越差,这使得模型很容易遭受攻击。以对抗攻击为例,通过对样本进行细微的修改形成对抗样本,将对抗样本输入模型后能使模型输出错误的预测结果。例如,在图像识别模型中,这种细微的修改可以是对图像增加一些具有干扰性的噪声。将修改后的图像输入图像识别模型后,图像识别模型可能会把一张小狗的图片识别为一辆汽车的图片,导致输出一个完全错误的识别结果。对抗攻击可以存在于图像识别、语音识别、文字识别等领域。在一些场景下,对抗攻击可能会带来安全风险。例如,对于依靠人脸识别进行身份认证的场景,攻击者构造了一对抗样本并输入人脸识别模型,若人脸识别模型将该对抗样本识别为某合法用户,攻击者就能够通过身份认证,带来私有数据泄露、资金损失等安全风险。本说明书提供了一种对抗攻击的监测方法及装置。图1是本说明书一示例性实施例示出的一种对抗攻击的监测的方法的流程示意图。所述对抗攻击的监测方法可以应用于具有处理器、存储器的电子设备中,例如服务器或服务器集群等,本说明书对此不作特殊限制。请参考图1,所述对抗攻击的监测方法可以包括以下步骤:步骤101,获取目标模型的对抗样本空间。在本说明书中,在应用场景维度下,目标模型可以为语音识别模型、图像识别模型、文字识别模型等;在模型结构维度下,目标模型可以为基于神经网络的模型等,本说明书对此不作特殊限制。在本说明书中,所述对抗样本空间可以是在目标模型完成训练后、正式上线前,经过预先计算得到的。当然,所述对抗样本空间也可以在目标模型上线后计算得到,本说明书对此不作特殊限制。在本说明书中,可以通过攻击测试得到对抗样本,并根据对抗样本生成对抗样本空间。在一个例子中,所述攻击测试可以为基于边界攻击的黑盒测试。边界攻击指的是先构造一个干扰性较大的对抗样本以测试目标模型,并在保证对抗性的前提下不断地降低样本的干扰性,最终得到干扰性较小的对抗样本。在实际应用中,在基于原始图像生成对抗样本时,可以先生成一个干扰性较大的对抗样本。例如,可随机更改原始图像上的一些像素点的像素值,并将修改后的原始图像输入目标模型,若目标模型输出误判的预测结果,则将修改后的图像作为对抗样本。获取对抗样本后,可根据该对抗样本的空间坐标和该原始图像的空间坐标,在空间中以所述对抗样本为起点,沿着靠近原始图像的方向对所述对抗样本进行随机扰动,在保证该对抗样本对抗性的前提下,不断减小扰动后的对抗样本与原始图像的距离。例如,可将扰本文档来自技高网...

【技术保护点】
1.一种对抗攻击的监测方法,包括:/n获取目标模型的对抗样本空间;/n采集调用所述目标模型的输入数据;/n判断所述输入数据是否落入所述对抗样本空间;/n根据判断结果计算监测周期内落入到所述对抗样本空间的输入数据的监测参数,当所述监测参数满足预设的攻击条件时,确定监测到面向所述目标模型的对抗攻击。/n

【技术特征摘要】
1.一种对抗攻击的监测方法,包括:
获取目标模型的对抗样本空间;
采集调用所述目标模型的输入数据;
判断所述输入数据是否落入所述对抗样本空间;
根据判断结果计算监测周期内落入到所述对抗样本空间的输入数据的监测参数,当所述监测参数满足预设的攻击条件时,确定监测到面向所述目标模型的对抗攻击。


2.根据权利要求1所述方法,所述目标模型的对抗样本空间的确定方式,包括:
对所述目标模型进行攻击测试,以获得所述目标模型的至少一个对抗样本;
基于所述对抗样本,确定所述目标模型的对抗样本空间。


3.根据权利要求2所述方法,所述攻击测试,包括:
基于边界攻击的黑盒测试;或
基于边界攻击的白盒测试。


4.根据权利要求2所述方法,所述基于所述对抗样本,确定所述目标模型的对抗样本空间,包括:
确定每个对抗样本的空间坐标;
基于所述空间坐标对所述对抗样本进行聚类,得到若干对抗样本簇;
为每个对抗样本簇生成对应的凸包络,作为所述对抗样本空间。


5.根据权利要求4所述方法,所述判断所述输入数据是否落入所述对抗样本空间,包括:
确定所述输入数据的空间坐标;
判断所述空间坐标是否落入任意凸包络;
若是,则确定所述输入数据落入所述对抗样本空间。


6.根据权利要求4所述方法,所述判断所述输入数据是否落入所述对抗样本空间,包括:
确定所述输入数据的空间坐标;
根据所述空间坐标,判断所述输入数据与任意对抗样本簇的距离是否小于距离阈值;
若是,则确定所述输入数据落入所述对抗样本空间。


7.根据权利要求1所述方法,所述监测参数为落入所述对抗样本空间的输入数据的数量,所述攻击条件为所述数量达到数量阈值。


8.根据权利要求1所述方法,所述监测参数为落入所述对抗样本空间的输入数据的比例,所述攻击条件为所述比例达到比例阈值。


9.根据权利要求1所述方法,所述确定监测到面向所述目标模型的对抗攻击后,所述方法还包括:
发送告警信息。


10.一种对抗攻击的监测装置,包括:
获取单元,获取目标模型的对抗样本空间;
采集单元,采集调用所述目标模型的输入数据;
判断单元,判断所述输入数据是否落入所述对抗样本空间;
监测单元,根...

【专利技术属性】
技术研发人员:宗志远
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1