【技术实现步骤摘要】
交互式攻击测试方法、优化方法及装置
[0001]本专利技术涉及计算机
,尤其涉及一种交互式攻击测试方法
、
优化方法及装置
。
技术介绍
[0002]在无障碍人机识别场景,可以通过让用户对移动终端设备执行固定操作,比如摇一摇,然后采集移动终端设备在动作过程中的传感器数据,从而进行人机判断
。
这类人机判断机制面临呈现式攻击,也即攻击者通过机械臂等自动化手段,完成指定动作,攻破人机识别机制
。
一般情况下,我们通过机械臂模仿攻击动作,并采集攻击数据,然后基于攻击数据可以一定程度上地优化移动终端设备的人机识别机制
。
但是,这类攻击模仿依赖预先定义的攻击动作,因此对于移动终端设备的人机识别机制的提升能力非常有限
。
技术实现思路
[0003]本专利技术的目的之一在于提供一种交互式攻击测试方法,该方法能够使机械臂自动化地对人机识别模型进行攻击,并根据人机识别结果调整攻击策略,有效提升攻击效率
。
[0004]根据上 ...
【技术保护点】
【技术特征摘要】
1.
一种交互式攻击测试方法,包括对目标终端中部署的人机识别模型进行至少一次攻击;其中,每一次攻击包括:基于攻击策略模型确定攻击策略,所述攻击策略包括执行预设交互动作的动作参数;通过机械臂抓取所述目标终端,并基于所述攻击策略对所述目标终端执行所述交互动作,以实现对所述目标终端中部署的人机识别模型的攻击;基于所述人机识别模型针对所述攻击的响应,确定奖励;基于所述目标终端在被攻击过程中的姿态数据,确定环境信息;采用强化学习,基于所述奖励和所述环境信息更新所述攻击策略模型,以得到新的攻击策略
。2.
如权利要求1所述的方法,所述基于所述人机识别模型针对所述攻击的响应,确定奖励,具体包括:响应于所述人机识别模型被攻破,确定奖励信号;响应于所述人机识别模型未被攻破,确定惩罚信号
。3.
如权利要求1所述的方法,所述基于所述目标终端在被攻击过程中的姿态数据,确定环境信息,具体包括:针对每一次所述攻击,通过姿态传感器采集所述目标终端在被攻击过程中的姿态数据;基于所述姿态数据,确定所述目标终端在被攻击过程中的姿态变化特征向量,将所述姿态变化特征向量作为所述环境信息
。4.
一种优化方法,所述方法包括对部署在目标终端中的所述人机识别模型持续进行的至多
N
轮优化,直至所述人机识别模型的被攻破率低于预设的第一阈值;其中,每一轮优化包括:采用权利要求1至3任意一项所述的方法对所述人机识别模型进行攻击,直至获得满足预设攻破率条件的攻击策略模型;基于所述满足预设攻破率条件的攻击策略模型生成的所述攻击策略,对所述人机识别模型进行持续攻击,并获取攻破所述人机识别模型时的攻击数据;基于所述攻击数据优化所述人机识别模型
。5.
如权利要求4所述的方法,所述人机识别模型采用以下方式预先训练得到:获取人机交互过程中所述目标终端的姿态数据,作为正样本,并添加正样本标签;获取机器攻击过程中所述目标终端的姿态数据,作为负样本,并添加负样本标签;基于所述正样本
、
所述正样本标签
、
所述负样本和所述负样本标签,训练预先构建的模型,直至获得满足预设条件的人机识别模型
。6.
如权利要求4所述的方法,所述获得满足预设攻破率条件的攻击策略模型,具体包括:获取所述机械臂基于当前攻击策略在目标时间段内攻破所述人机识别模型的攻破次数和实施所述攻击的总次数;基于所述攻破次数和所述总次数,确定攻破率;基于所述攻破率和预设的第二阈值,确定所述攻击策略模型是否满足所述攻破率条件,所述第二阈值大于所述第一阈值
。
7.
如权利要求4所述的方法,所述基于所述攻击数据优化所述人机识别模型,具体包括:将所述攻击数据作为负样本,并添加负样本标签;基于所述攻击数据和所述负样本标签,训练所述人机识别模型
。8.
一种交互式攻击测试装置,包括:攻击策略生成模块,配置为基于攻击策略模型确定攻击策略;以及采用强化学习,基于目标终端反馈的强化信号更新所述攻击策略模型,以得到新的攻击策略;所述强化信号包括:基于所述目标终端在被攻击过程中的姿态数据确定的环境信息,以及基于所述目标终端中部署的人机识别模型被攻击后的响应确定的奖励;机械臂,配置为抓取所述目标终端,并基于所述攻击策略生成模块生成的攻击策略,对所述目标终端施加相应的交互动作,以实现对所述人机识别模型的攻击
。9.
一种优化装置,包括:如权利要求8所述的交互式攻击测试装置
、
控制模块和优化模块;所述控...
【专利技术属性】
技术研发人员:李若愚,李哲,秦兴彬,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。