一种面向扰动奖励的深度强化学习对抗防御方法技术

技术编号：34612849 阅读：27 留言：0更新日期：2022-08-20 09:18

本发明专利技术公开了一种面向扰动奖励的深度强化学习对抗防御方法，该方法在深度强化学习算法PPO的基础上构建了一个名叫RecRe的奖励复原模块，该模块能够从扰动奖励中复原得到干净奖励。随后，强化学习智能体根据干净奖励学习得到具有防御能力的最优策略。本发明专利技术的创新点在于将深度学习环境中的扰动奖励看作是监督学习中的噪声标签，借助噪声标签学习的思想，构建了RecRe模块从噪声奖励中复原奖励，使得最终根据复原奖励学习的策略具备对抗防御性。相比于先前的替代策略和预测策略，本发明专利技术所提出的结合RecRe模块的PPO训练框架学习得到的复原策略具有更好的防御效果。复原策略具有更好的防御效果。复原策略具有更好的防御效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向扰动奖励的深度强化学习对抗防御方法

[0001]本专利技术涉及计算机
，涉及深度强化学习领域，特别涉及深度强化学习中的对抗防御领域，具体地说是一种面向扰动奖励的深度强化学习对抗防御方法。

技术介绍

[0002]
技术介绍
涉及三大块：深度强化学习，对抗攻防及泛化的交叉熵损失。
[0003]1)深度强化学习
[0004]强化学习是机器学习中一个重要的分支，不同于监督学习和非监督学习模式，它以试错的方式进行学习。其训练过程为智能体与环境交互，根据环境反馈的奖励信号来调整决策，并通过最大化累积期望奖励来获得最优策略。通常来说，任何强化学习问题都可以被一个马尔可夫决策过程(MDP)表示，其形式为一个五元组：在t时刻，假设智能体处于状态然后根据策略π(策略π是状态到动作的映射)选择了一个动作那么环境将会根据奖励函数R(s
t
，a
t
，s
t+1
)反馈一个即时奖励r
t+1
，以及根据状态转移函数P(s
t+1
|s＝s
t
，a＝a
t
)返回下一个状态s
t+1
，此时的样本为{s
t
，a
t
，r
t
}。随后智能体与环境以s
t+1
为当前状态进行下一轮的交互。当智能体到达结束状态，交互停止并且会形成一条轨迹τ＝{s
t
，a
t
，r
t+1
，s<...

【技术保护点】

【技术特征摘要】
1.一种面向扰动奖励的深度强化学习对抗防御方法，其特征在于，构建了奖励复原模块RecRe，它能够从扰动后的奖励中复原出干净奖励，并将其与深度强化学习算法PPO相结合，训练得到对奖励中的扰动具备对抗防御性质的最优策略；该方法包括如下步骤：步骤一：配置环境，PPO的n个线程智能体与各自的环境进行交互收集样本，即智能体根据当时的策略采样得到状态s和动作a，以及环境反馈的扰动奖励并将这些结果组合成样本步骤二：采用卷积神经网络以及GCE损失函数构建RecRe模块，将步骤一收集到的样本以固定频率送往奖励复原RecRe模块；该模块以{s,a}为输入，为标签，输出复原后的干净奖励r
p
，然后将{s,a,r
p
}传送到PPO的全局网络；步骤三：PPO的全局网络接收到样本{s,a,r
p
}后，计算其包含的两个子网络Actor网络和Critic网络的损失函数以及梯度，并对各自参数进行更新；步骤四：在训练过程中，PPO的全局网络以固定频率将Actor网络和Critic网络的参数分发到n个线程中对应的子网络中以保持同步更新；步骤五：训练完成后，这种结合了RecRe模块的PPO算法最终学到对奖励中的扰动具备对抗防御性的最优策略。2.根据权利要求1所述的面向扰动奖励的深度强化学习对抗防御方法，其特征在于，步骤二所述的奖励复原模块RecRe，具有如下结构：一个特征抽取器、一个展平层、一个加性层和一个全连接层；该模块符合以下公式：s
f
＝Flatten(Conv(s))，
ꢀꢀꢀꢀ
(1)p(r
p
)＝Softmax(Concat(s
f
，a))，
ꢀꢀꢀꢀ
(2)其输入为各个线程中智能体和环境交互得到的状态
‑
动作对{s,a}，其输出为复原的奖励r
p
；是扰动后的标签；具体而言，状态向量s首先经过一个由多个...

【专利技术属性】
技术研发人员：孙仕亮，余梦然，赵静，毛亮，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人