针对连续动作空间下深度强化学习的黑盒攻击方法及装置制造方法及图纸

技术编号:39663576 阅读:7 留言:0更新日期:2023-12-11 18:26
本发明专利技术涉及一种针对连续动作空间下深度强化学习的黑盒攻击方法及装置,其方法包括:获取深度强化学习模型的状态空间参数

【技术实现步骤摘要】
针对连续动作空间下深度强化学习的黑盒攻击方法及装置


[0001]本专利技术属于深度强化学习
,具体涉及一种针对连续动作空间下深度强化学习的黑盒攻击方法及装置


技术介绍

[0002]强化学习(
Reinforcement Learning

RL
)模拟类人脑思维方式,搭载强化学习算法的智能体可以根据所处环境的相关信息进行相应的动作行为决策

深度强化学习(
Deep Reinforcement Learning

DRL
)在强化学习的基础上,引入深度神经网络作为其决策模型

在每一个单独的时间步中,深度强化学习决策智能体根据环境信息输出相应动作信号反作用于环境,并从中获得重要的反馈奖励信号,随后决策智能体根据奖励信号的好坏调整自己的模型参数,即选择不同动作的策略,循环往复使得智能体能够在规定的任务中获得最大的奖励,达到收敛的效果,并用于实处

得益于其优秀的决策逻辑,深度强化学习在实际生活中得到了广泛的应用,尤其是连续动作空间下的深度强化学习更加贴近现实场景,因此受到了学术界和工业界的广泛重视和应用

同时连续动作空间下的深度强化学习主要应用的领域包括无人驾驶

无人工厂等都是与安全高度相关的行业,然而现阶段仍然缺乏对连续动作空间下的深度强化学习面对黑盒攻击的脆弱性研究

[0003]黑盒攻击是即使攻击者不知道真实模型算法及参数的前提下,也能进行有效攻击的一种攻击方案

在深度强化学习安全领域常见的攻击对象包括:智能体所处的环境

智能体选取的动作以及智能体获得的奖励,常见的攻击目标包括:使智能体无法收敛

使智能体学习到攻击者指定的行为策略

通常通过修改环境或者奖励信号来攻击智能体是最直接的,相反通过动作信号来攻击智能体就会变得十分困难,且并不容易控制,尤其是在连续动作空间条件下,可选择的动作相当于是无限的,进一步加深了攻击动作信号的难度

在攻击目标方面使智能体学习到攻击者的指定策略也是最难实现的,同时攻击效果也是最难以察觉的


技术实现思路

[0004]为实现智能体在连续动作空间下有效的黑盒攻击,在本专利技术的第一方面提供了一种针对连续动作空间下深度强化学习的黑盒攻击方法,包括:获取深度强化学习模型的状态空间参数

动作空间参数和学习策略,并根据所述状态空间参数和动作空间参数构建置信下界树;基于智能体在每个时间步内学习策略输出的动作,与目标策略指定的动作的相似度,判断是否需要攻击智能体;收集智能体在每个时间步内的环境信息

动作和环境奖励,并形成轨迹数据;基于一段或多段轨迹数据,判断置信下界树中的每个叶子节点是否分裂;基于判断结果,更新置信下界树的每个叶子节点的置信下界

[0005]在本专利技术的一些实施例中,所述基于智能体在每个时间步内学习策略输出的动作,与目标策略指定的动作的相似度,判断是否需要攻击智能体包括:分别获取智能体在每个时间步内深度强化学习模型的学习策略和目标策略下,根据当前环境信息作出的
动作信号和;基于欧式距离,通过动作信号和的相似度判断是否需要攻击智能体

[0006]进一步的,所述基于欧式距离,通过动作信号和的相似度判断是否需要攻击智能体包括:若和相似,则判断不向智能体发起攻击;否则,则从置信下界树中检索出前状态信息最差动作,并根据最差动作向智能体发起攻击

[0007]在本专利技术的一些实施例中,所述基于一段或多段轨迹数据,判断置信下界树中的每个叶子节点是否分裂包括:基于一段或多段轨迹数据,计算当前时间步内,所述置信下界树中每个节点的累计奖励;基于预设的奖励折扣因子

动作距离因子,判断每个叶子节点是否分裂

[0008]进一步的,所述基于判断结果,更新置信下界树的每个叶子节点的置信下界包括:所述基于判断结果和累计奖励,更新置信下界树的每个叶子节点及其子节点的信下界;根据更新后的每个叶子节点及其子节点的信下界,确定每个叶子节点的最终置信下界

[0009]在上述的实施例中,所述根据所述状态空间参数和动作空间参数构建置信下界树包括:基于所述状态空间参数和动作空间参数,分别计算动作相似半径和状态相似半径;根据所述状态相似半径划分状态空间;根据所述状态空间参数

动作空间参数

动作相似半径和预设马尔可夫过程的总步长,构建置信下界树

[0010]本专利技术的第二方面,提供了一种针对连续动作空间下深度强化学习的黑盒攻击装置,包括:获取模块,用于获取深度强化学习模型的状态空间参数

动作空间参数和学习策略,并根据所述状态空间参数和动作空间参数构建置信下界树;判断模块,用于基于智能体在每个时间步内学习策略输出的动作,与目标策略指定的动作的相似度,判断是否需要攻击智能体;收集模块,用于收集智能体在每个时间步内的环境信息

动作和环境奖励,并形成轨迹数据;更新模块,用于基于一段或多段轨迹数据,判断置信下界树中的每个叶子节点是否分裂;基于判断结果,更新置信下界树的每个叶子节点的置信下界

[0011]本专利技术的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术在第一方面提供的针对连续动作空间下深度强化学习的黑盒攻击方法

[0012]本专利技术的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本专利技术在第一方面提供的针对连续动作空间下深度强化学习的黑盒攻击方法

[0013]本专利技术的有益效果是:
[0014]在本专利技术中,我们研究了连续动作空间下深度强化学习对黑盒攻击的脆弱性,研究提出针对动作信号的黑盒攻击方案,实现迫使被攻击算法模型学习到攻击方的指定目标策略的效果

据我们所知,这是首次针对通过上述方式达到此效果的攻击方法

同时我们针对攻击所耗费的步骤进行了严格证明求解,以保证我们的攻击方式可以在有限的时间内达到相应的效果,确保其在时间消耗上具备有效性和可行性

附图说明
[0015]图1为本专利技术的一些实施例中的针对连续动作空间下深度强化学习的黑盒攻击方法的基本流程示意图;
[0016]图2为本专利技术的一些实施例中的针对连续动作空间下深度强化学习的黑盒攻击方法的攻击智能体的具体流程示意图;
[0017]图3为本专利技术的一些实施例中的针对连续动作空间下深度强化学习的黑盒攻击方法的的基本原理示意图;
[0018本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种针对连续动作空间下深度强化学习的黑盒攻击方法,其特征在于,包括:获取深度强化学习模型的状态空间参数

动作空间参数和学习策略,并根据所述状态空间参数和动作空间参数构建置信下界树;基于智能体在每个时间步内学习策略输出的动作,与目标策略指定的动作的相似度,判断是否需要攻击智能体;收集智能体在每个时间步内的环境信息

动作和环境奖励,并形成轨迹数据;基于一段或多段轨迹数据,判断置信下界树中的每个叶子节点是否分裂;基于判断结果,更新置信下界树的每个叶子节点的置信下界
。2.
根据权利要求1所述的针对连续动作空间下深度强化学习的黑盒攻击方法,其特征在于,所述基于智能体在每个时间步内学习策略输出的动作,与目标策略指定的动作的相似度,判断是否需要攻击智能体包括:分别获取智能体在每个时间步内深度强化学习模型的学习策略
π
和目标策略
π
+
下,根据当前环境信息作出的动作信号和;基于欧式距离,通过动作信号和的相似度判断是否需要攻击智能体
。3.
根据权利要求2所述的针对连续动作空间下深度强化学习的黑盒攻击方法,其特征在于,所述基于欧式距离,通过动作信号和的相似度判断是否需要攻击智能体包括:若和相似,则判断不向智能体发起攻击;否则,则从置信下界树中检索出前状态信息最差动作,并根据最差动作向智能体发起攻击
。4.
根据权利要求1所述的针对连续动作空间下深度强化学习的黑盒攻击方法,其特征在于,所述基于一段或多段轨迹数据,判断置信下界树中的每个叶子节点是否分裂包括:基于一段或多段轨迹数据,计算当前时间步内,所述置信下界树中每个节点的累计奖励;基于预设的奖励折扣因子

动作距离因子,判断每个叶子节点是否分裂
。5.
根据权利要求4所述的针对连续动作空间下深度强化学习的黑盒攻击方法,其特征在于,所述基于判断结果,更新置信下界树的每个叶子节点的置信下界包括:所述基于判断结果和累计奖励,更新置信下界树的每个叶子节点及其子节点的信下界;根据更新后的每个...

【专利技术属性】
技术研发人员:周潘杨喜源罗志丁晓锋徐子川
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1