针对连续动作空间下深度强化学习的黑盒攻击方法及装置制造方法及图纸

技术编号：39663576 阅读：7 留言：0更新日期：2023-12-11 18:26

本发明专利技术涉及一种针对连续动作空间下深度强化学习的黑盒攻击方法及装置，其方法包括：获取深度强化学习模型的状态空间参数

全部详细技术资料下载

【技术实现步骤摘要】
针对连续动作空间下深度强化学习的黑盒攻击方法及装置

[0001]本专利技术属于深度强化学习
，具体涉及一种针对连续动作空间下深度强化学习的黑盒攻击方法及装置
。

技术介绍

[0002]强化学习（
Reinforcement Learning
，
RL
）模拟类人脑思维方式，搭载强化学习算法的智能体可以根据所处环境的相关信息进行相应的动作行为决策
。
深度强化学习（
Deep Reinforcement Learning
，
DRL
）在强化学习的基础上，引入深度神经网络作为其决策模型
。
在每一个单独的时间步中，深度强化学习决策智能体根据环境信息输出相应动作信号反作用于环境，并从中获得重要的反馈奖励信号，随后决策智能体根据奖励信号的好坏调整自己的模型参数，即选择不同动作的策略，循环往复使得智能体能够在规定的任务中获得最大的奖励，达到收敛的效果，并用于实处
。
得益于其优秀的决策逻辑，深度强化学习在实际生活中得到了广泛的应用，尤其是连续动作空间下的深度强化学习更加贴近现实场景，因此受到了学术界和工业界的广泛重视和应用
。
同时连续动作空间下的深度强化学习主要应用的领域包括无人驾驶
、
无人工厂等都是与安全高度相关的行业，然而现阶段仍然缺乏对连续动作空间下的深度强化学习面对黑盒攻击的脆弱性研究
。
[0003]黑盒攻击是即使攻击者不知道真实模型算法及...

【技术保护点】

【技术特征摘要】
1.
一种针对连续动作空间下深度强化学习的黑盒攻击方法，其特征在于，包括：获取深度强化学习模型的状态空间参数
、
动作空间参数和学习策略，并根据所述状态空间参数和动作空间参数构建置信下界树；基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体；收集智能体在每个时间步内的环境信息
、
动作和环境奖励，并形成轨迹数据；基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂；基于判断结果，更新置信下界树的每个叶子节点的置信下界
。2.
根据权利要求1所述的针对连续动作空间下深度强化学习的黑盒攻击方法，其特征在于，所述基于智能体在每个时间步内学习策略输出的动作，与目标策略指定的动作的相似度，判断是否需要攻击智能体包括：分别获取智能体在每个时间步内深度强化学习模型的学习策略
π
和目标策略
π
+
下，根据当前环境信息作出的动作信号和；基于欧式距离，通过动作信号和的相似度判断是否需要攻击智能体
。3.
根据权利要求2所述的针对连续动作空间下深度强化学习的黑盒攻击方法，其特征在于，所述基于欧式距离，通过动作信号和的相似度判断是否需要攻击智能体包括：若和相似，则判断不向智能体发起攻击；否则，则从置信下界树中检索出前状态信息最差动作，并根据最差动作向智能体发起攻击
。4.
根据权利要求1所述的针对连续动作空间下深度强化学习的黑盒攻击方法，其特征在于，所述基于一段或多段轨迹数据，判断置信下界树中的每个叶子节点是否分裂包括：基于一段或多段轨迹数据，计算当前时间步内，所述置信下界树中每个节点的累计奖励；基于预设的奖励折扣因子
、
动作距离因子，判断每个叶子节点是否分裂
。5.
根据权利要求4所述的针对连续动作空间下深度强化学习的黑盒攻击方法，其特征在于，所述基于判断结果，更新置信下界树的每个叶子节点的置信下界包括：所述基于判断结果和累计奖励，更新置信下界树的每个叶子节点及其子节点的信下界；根据更新后的每个...

【专利技术属性】
技术研发人员：周潘，杨喜源，罗志，丁晓锋，徐子川，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人