一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法技术

技术编号:29759612 阅读:106 留言:0更新日期:2021-08-20 21:13
本发明专利技术公开的一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法,通过设定信息瓶颈对深度强化学习中的状态信息进行限制,通过一个编码器来编码转移元组中的状态信息,首先对环境中观察到状态进行编码,编码后输入到策略网络,根据策略网络的动作与环境进行互动,得到下一轮的状态,再将该状态进行编码,与环境不断交互,实现策略网络的训练。本发明专利技术公开的基于信息瓶颈的深度强化学习模型鲁棒性增强方法使得训练得到的策略在原始任务上依然有很好地表现,且能抵御对抗攻击的影响;采用退火的思想设置正则项中的比例系数,从而达到一个稳定训练的过程,使得训练得到的策略在正常任务中依旧有出色的性能。

【技术实现步骤摘要】
一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法
本专利技术涉及深度强化学习增强鲁棒性领域;特别涉及一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法。
技术介绍
随着人工智能的快速发展,将深度学习的感知能力和强化学习的决策能力相结合的深度强化学习算法被广泛的应用在自动驾驶、自动翻译、对话系统和视频检测等方面。然而,结合的深度学习的深度强化学习容易受到对抗性攻击的影响,向原始样本中添加一些人眼无法察觉到的噪声,这些噪声不会影响人类的识别,但是却可以使训练好的策略作出对结果极为不利的动作,从而导致整个决策过程的失败。因此需要增强深度强化学习模型的鲁棒性以防御攻击。现有的深度强化学习模型鲁棒性增强方法如公开号为CN112884130A的中国专利申请公开的一种基于SeqGAN的深度强化学习数据增强防御方法和装置,包括以下步骤:搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数;利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;利用强化学习的方法来训练包含生成器和判别器的SeqGAN,以专家数据中状态动作对作为生成器的输入来生成状态动作对,同时采用基于策略梯度蒙特卡洛搜索来模拟采样,采样得到的状态动作对与生成器生成的状态动作对组成固定长度的状态动作对序列并输入至判别器,计算奖励值,依据该奖励值更新SeqGAN的网络参数;将当前状态输入至参数优化的SeqGAN的生成器中以获得生成状态动作对序列,利用参数优化的深度Q网络来计算生成状态动作对序列的累计奖励值,将该累计奖励值与目标智能体的深度Q网络策略得到的累计奖励值进行比较,以累计奖励值更高的状态动作对作为增强数据存储用于对深度Q网络再优化;从存储中选择增强数据对深度Q网络进行参数再优化,以实现深度强化学习数据增强防御。然而,研究表明,信息瓶颈不仅具有过滤掉与任务无关的无用信息的功能,还能提高对抗性反向强化学习的泛化能力,同时,信息瓶颈作为外置的处理模块,可以很好的与各种深度强化学习的算法相结合;因此,如何设置信息瓶颈,以抵御对抗性攻击,对深度强化学习模型的应用具有重要理论和实践意义。
技术实现思路
为解决现有技术中存在的问题,本专利技术提供一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法,利用信息瓶颈提取状态信息中对任务起决定性作用的主体部分,对抗攻击在原始状态上添加的扰动经过编码器的编码,使得训练得到的策略在原始任务上依然有很好地表现,且能抵御对抗攻击的影响。一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法,包括如下步骤:(1)利用合适的编码器对智能体观察到的状态设定信息瓶颈的限制,同时利用编码器将智能体观察到的原始状态s进行编码,得到映射后的状态z;(2)将原始状态的映射后的状态z输入到智能体中,智能体根据当前策略生成一个动作;(3)将智能体在步骤(2)中生成的动作与环境进行交互,得到下一个状态;(4)根据步骤(3)中交互的结果,训练智能体策略;(5)重复步骤(1)-(4),直至总体回报收敛。所述步骤(1)中的编码器使用互信息作为指标来限制信息流量、过滤对抗信息,互信息的计算公式如下:其中X和Y分别表示相应变量,p(x,y)为联合分布,p(x)和p(y)为边缘密度,MI(X;Y)表示计算得到的互信息的值,表示变量X和Y之间的相关性,DKL表示KL散度,Ep(x,y)表示在后续表达式在联合分布p(x,y)上的期望。定义编码器输入输出的互信息为MI(S;Z),对该值进行限制,使得它小于一定程度,互信息通常不能直接计算,使用采样的方式进行估计:MI(Z,S)=DKL[p(Z,S)|p(Z)p(s)]=ES[DKL[p(Z|S)|p(Z)]]然而p(Z)需要针对整个状态空间S进行计算,这是不合理的,采用近似的方法,使用q(Z)~N(0,1)来代替p(Z)。ES[DKL[p(Z|S)|q(Z)]]≥MI(Z,S)即,使用互信息的上界来进行代替。由于使用正态分布进行近似,则编码器部分只需要使用神经网络来估计均值和方差,根据得到的均值和方差构建分布进行抽样,得到编码后的状态z。所述步骤(2)中将状态z输入到Q值函数Q(s,a)中,以一定的概率ε,随机选择一个动作a,则a=argmaxaQs,a即使用贪婪策略来选择对应的动作来实现探索和开发的平衡。从ε=1(完全随机动作)降低到较小值,例如0.02或0.05,即在开始时尽可能的探索环境,在训练后期遵循良好的策略。所述步骤(3)中智能体根据贪婪策略选择动作与环境进行交互,得到回报r和下一个状态s',将状态s'输入到编码器中得到z',将转移元组(z,a,r,z')存储到经验池中。该经验池主要是用于克服用于更新的样本非独立同分布的问题,通常相邻时间步的策略产生的样本具有很强的相关性,将大量的转移元组存入经验池,在训练时随机抽取,即可将样本近似看作独立同分布,训练Q值网络具有较好的效果。步骤(4)中训练智能体策略采用深度Q网络进行训练,具体步骤如下:(4.1)根据经验池中的元组,计算目标y;(4.2)计算损失函数;(4.3)使用随机梯度下降算法最小化损失函数用于更新编码器和Q值函数的参数值。步骤(4.1)中目标y的计算公式如下:其中,γ为折扣因子,为目标网络,r表示每个时间步智能体采取一定动作后得到的回报,每隔一定的训练轮次继承主网络的权重值。γ为通常设置为0.99,且如果一个eposide刚好结束,则:y=r步骤(4.2)中所述的损失函数为:L2=(Qs,a-y)2+βES[DKL[p(Z|S)|q(Z)]]其中,β为朗格拉日乘子,ES表示后续表达式在状态空间S上的期望,p(Z|S)表示已知状态S时输出Z的概率,q(Z)是一个近似分布,用于代替p(Z)。训练智能体策略时,使β值从0开始逐步增大。具体训练时,先将β值设为0,将编码器网络参数进行固定,优先训练Q值网络的权重,等到策略有较好的表现时,逐步增大β,使得信息瓶颈能过滤掉对抗信息,训练直到总的回报值R收敛,R为一个eposide中每一步的奖励值总和。与现有技术相比,本专利技术的有益之处在于:1、利用信息瓶颈提取状态信息中对任务起决定性作用的主体部分,对抗攻击在原始状态上添加的扰动经过编码器的编码,使得训练得到的策略在原始任务上依然有很好地表现,且能抵御对抗攻击的影响。2、采用退火的思想设置正则项中的比例系数,从而达到一个稳定训练的过程,使得训练得到的策略在正常任务中依旧有出色的性能。附图说明图1为本专利技术的整体步骤流程图;图2为编码器结构示意图;图3为深度Q网络结构示意图。具体实施方本文档来自技高网
...

【技术保护点】
1.一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法,其特征在于,包括如下步骤:/n(1)利用编码器对智能体观察到的状态设定信息瓶颈的限制,同时利用编码器将智能体观察到的原始状态s进行编码,得到映射后的状态z;/n(2)将原始状态的映射后的状态z输入到智能体中,智能体根据当前策略生成一个动作;/n(3)将智能体在步骤(2)中生成的动作与环境进行交互,得到下一个状态;/n(4)根据步骤(3)中交互的结果,训练智能体策略;/n(5)重复步骤(1)-(4),直至总体回报收敛。/n

【技术特征摘要】
1.一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法,其特征在于,包括如下步骤:
(1)利用编码器对智能体观察到的状态设定信息瓶颈的限制,同时利用编码器将智能体观察到的原始状态s进行编码,得到映射后的状态z;
(2)将原始状态的映射后的状态z输入到智能体中,智能体根据当前策略生成一个动作;
(3)将智能体在步骤(2)中生成的动作与环境进行交互,得到下一个状态;
(4)根据步骤(3)中交互的结果,训练智能体策略;
(5)重复步骤(1)-(4),直至总体回报收敛。


2.根据权利要求1所述的基于信息瓶颈的深度强化学习模型鲁棒性增强方法,其特征在于:所述步骤(1)中的编码器使用互信息作为指标来限制信息流量、过滤对抗信息,互信息的计算公式如下:



其中X和Y分别表示相应变量,p(x,y)为联合分布,p(x)和p(y)为边缘密度,MI(X;Y)表示计算得到的互信息的值,表示变量X和Y之间的相关性,DKL表示KL散度,Ep(x,y)表示在后续表达式在联合分布p(x,y)上的期望。


3.根据权利要求2所述的基于信息瓶颈的深度强化学习模型鲁棒性增强方法,其特征在于:所述步骤(2)中将状态z输入到Q值函数Q(s,a)中,以一定的概率ε,随机选择一个动作a,则
a=argmaxaQs,a
即使用贪婪策略来选择对应的动作来实现探索和开发的平衡。


4.根据权利要求3所述的基于信息瓶颈的深度强化学习...

【专利技术属性】
技术研发人员:陈晋音王珏章燕王雪柯
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1