一种面向扰动奖励的深度强化学习对抗防御方法技术

技术编号:34612849 阅读:27 留言:0更新日期:2022-08-20 09:18
本发明专利技术公开了一种面向扰动奖励的深度强化学习对抗防御方法,该方法在深度强化学习算法PPO的基础上构建了一个名叫RecRe的奖励复原模块,该模块能够从扰动奖励中复原得到干净奖励。随后,强化学习智能体根据干净奖励学习得到具有防御能力的最优策略。本发明专利技术的创新点在于将深度学习环境中的扰动奖励看作是监督学习中的噪声标签,借助噪声标签学习的思想,构建了RecRe模块从噪声奖励中复原奖励,使得最终根据复原奖励学习的策略具备对抗防御性。相比于先前的替代策略和预测策略,本发明专利技术所提出的结合RecRe模块的PPO训练框架学习得到的复原策略具有更好的防御效果。复原策略具有更好的防御效果。复原策略具有更好的防御效果。

【技术实现步骤摘要】
一种面向扰动奖励的深度强化学习对抗防御方法


[0001]本专利技术涉及计算机
,涉及深度强化学习领域,特别涉及深度强化学习中的对抗防御领域,具体地说是一种面向扰动奖励的深度强化学习对抗防御方法。

技术介绍

[0002]
技术介绍
涉及三大块:深度强化学习,对抗攻防及泛化的交叉熵损失。
[0003]1)深度强化学习
[0004]强化学习是机器学习中一个重要的分支,不同于监督学习和非监督学习模式,它以试错的方式进行学习。其训练过程为智能体与环境交互,根据环境反馈的奖励信号来调整决策,并通过最大化累积期望奖励来获得最优策略。通常来说,任何强化学习问题都可以被一个马尔可夫决策过程(MDP)表示,其形式为一个五元组:在t时刻,假设智能体处于状态然后根据策略π(策略π是状态到动作的映射)选择了一个动作那么环境将会根据奖励函数R(s
t
,a
t
,s
t+1
)反馈一个即时奖励r
t+1
,以及根据状态转移函数P(s
t+1
|s=s
t
,a=a
t
)返回下一个状态s
t+1
,此时的样本为{s
t
,a
t
,r
t
}。随后智能体与环境以s
t+1
为当前状态进行下一轮的交互。当智能体到达结束状态,交互停止并且会形成一条轨迹τ={s
t
,a
t
,r
t+1
,s<br/>t+1
,a
t+1
,r
t+2
...}。智能体的学习目标是最大化从初始状态s0开始累积的期望奖励,即
[0005][0006]其中γ是折扣因子,其决定了智能体更关注长期收益还是短期收益。最终,智能体学到了一个最优的策略π
*
。图2展示了强化学习智能体与环境交互的过程。
[0007]强化学习算法主要分为三类:基于值函数的算法、基于策略函数的算法以及演员

评论家算法(Actor

Critic)。基于值函数的方法通过最大化策略对应的状态值函数或者状态动作值函数,从而间接地获得最优策略。这种方法优化得到的策略是确定性策略,并且不适用于高维或者连续动作空间的问题。基于策略函数的算法则是在策略空间进行优化,最终直接在策略空间中学得最优策略。通过这种方法训练得到的策略是随机性策略,并且可以解决高维或者连续动作空间问题。然而,这类方法理论上能够找到最优策略,但在实际应用中,它需要采样完整的轨迹才能更新参数,这会产生很长的优化时间,而且可能找不到最优策略。
[0008]Actor

Critic算法结合了上述两类方法的优点,同时优化值函数和策略函数。其中,演员Actor表示的是策略函数π(a|s),它是状态到动作的映射;评论家Critic表示的是值函数V(s)或者Q(s,a)。Actor

Critic算法结合了时序差分和策略梯度的学习机制,它可以单步更新参数。在每步的更新过程中,Actor和Critic都需要学习更新。这里假设Critic表示的是状态值函数V(s),那么该函数的损失函数为:
[0009][0010]其中,s

表示下一状态。因此,该损失函数表示的是最小化Critic预测的状态值V(s)和采样得到的状态值r+γV(s

)的差异。Actor表示的策略函数希望最大化累积期望奖励,假设此时的Actor是一个关于θ的连续函数,那么通过策略梯度定理,参数θ的更新方式如下:
[0011][0012]其中,A
t
=Q(s,a)

V(s)是优势函数,它表示的是当前状态下选择某个动作后的奖励变化。因此,该损失函数表示的是最大化能够获得更多奖励的动作的概率。在训练过程中,Actor根据智能体当前所处的状态s和当前的策略π(a|s)选择动作a,随后Critic对当前的动作选择进行评价并且根据环境反馈的真实奖励和预测奖励之间的差异来调整自己的评分准则。在下一回合中,Actor根据Critic的评价来调整自身的策略,希望能够获得更高的评分。二者相互促进,在多轮迭代之后,Critic的评价越来越精准,Actor执行的动作能够获得越来越高的累积期望奖励。最终,Actor获得一个能够获得最大累计期望奖励的最优策略。
[0013]上述介绍的强化学习算法虽然有效,但是只能应用于状态空间和动作空间比较小的问题。而对于大规模问题,上述强化学习算法难以求解。幸运的是,随着深度学习的不断发展和进步,强化学习结合深度学习形成了深度强化学习。它结合了深度学习强大的感知能力和拟合能力,可以直接对输入图像等高维数据进行处理、决策和控制。在深度强化学习中,人们通常采用神经网络来模拟策略函数或者值函数,从而可以解决大规模问题。因此相比于强化学习,深度强化学习更适用于实际问题。
[0014]上述介绍的强化学习算法Actor

Critic虽然比较简单,但是在大规模问题中很难求解,并且在实际应用中很难收敛。随着深度强化学习的研究和发展,许多基于Actor

Critic的深度强化学习算法被提出来解决大规模问题和收敛问题。其中,PPO算法是比较具有代表性的算法之一。它采用了两个神经网络分别模拟策略函数和状态动作值函数。接下来,将具体介绍PPO算法。
[0015]在策略函数的学习过程中,策略更新的步长非常关键。如果步长不合适,那么更新后参数对应的策略可能是更不好的策略,那么利用这个更差的策略进行后续的采样学习时,再次更新的参数可能会更差。因此,PPO算法希望通过某些约束来保证更新后的策略的累计期望奖励不会更差。对于Actor网络模拟的策略函数,它的优化目标是限制策略的变化幅度。具体来说,首先将新策略对应的回报函数分解为旧策略对应的回报函数加上新策略下的优势函数,然后根据重要性采样以及KL散度的下界公式将问题转化为在限制新旧策略的变化幅度(步长)的情况下,最大化优势函数的值。因为求解该问题涉及到求逆矩阵的操作,直接求解有很大的难度。因此,PPO算法采用裁剪的技巧来惩罚变化比较大的策略。所以在PPO算法中,Actor网络的损失函数表达式如下:
[0016][0017]其中θ是Actor网络的参数,x
t
(θ)是新旧策略的比值,clip是裁剪函数,其作用是将x
t
(θ)限制在[1

∈,1+∈]之间,使得新策略相对于旧策略的变化不会过大。PPO算法中Critic网络模拟的是状态值函数其优化目标仍然是最小化预测值和真实值之间的
差异。Critic网络的损失函数表达式如下:
[0018][0019]其中,s

是下一个状态。Actor网络和Critic网络交替训练,最终学到一个能够获得最大化累积期望本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向扰动奖励的深度强化学习对抗防御方法,其特征在于,构建了奖励复原模块RecRe,它能够从扰动后的奖励中复原出干净奖励,并将其与深度强化学习算法PPO相结合,训练得到对奖励中的扰动具备对抗防御性质的最优策略;该方法包括如下步骤:步骤一:配置环境,PPO的n个线程智能体与各自的环境进行交互收集样本,即智能体根据当时的策略采样得到状态s和动作a,以及环境反馈的扰动奖励并将这些结果组合成样本步骤二:采用卷积神经网络以及GCE损失函数构建RecRe模块,将步骤一收集到的样本以固定频率送往奖励复原RecRe模块;该模块以{s,a}为输入,为标签,输出复原后的干净奖励r
p
,然后将{s,a,r
p
}传送到PPO的全局网络;步骤三:PPO的全局网络接收到样本{s,a,r
p
}后,计算其包含的两个子网络Actor网络和Critic网络的损失函数以及梯度,并对各自参数进行更新;步骤四:在训练过程中,PPO的全局网络以固定频率将Actor网络和Critic网络的参数分发到n个线程中对应的子网络中以保持同步更新;步骤五:训练完成后,这种结合了RecRe模块的PPO算法最终学到对奖励中的扰动具备对抗防御性的最优策略。2.根据权利要求1所述的面向扰动奖励的深度强化学习对抗防御方法,其特征在于,步骤二所述的奖励复原模块RecRe,具有如下结构:一个特征抽取器、一个展平层、一个加性层和一个全连接层;该模块符合以下公式:s
f
=Flatten(Conv(s)),
ꢀꢀꢀꢀ
(1)p(r
p
)=Softmax(Concat(s
f
,a)),
ꢀꢀꢀꢀ
(2)其输入为各个线程中智能体和环境交互得到的状态

动作对{s,a},其输出为复原的奖励r
p
;是扰动后的标签;具体而言,状态向量s首先经过一个由多个...

【专利技术属性】
技术研发人员:孙仕亮余梦然赵静毛亮
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1