System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于扩散模型的离线强化学习方法技术_技高网

一种基于扩散模型的离线强化学习方法技术

技术编号:40611058 阅读:4 留言:0更新日期:2024-03-12 22:19
一种基于扩散模型的离线强化学习方法,用于进行机器人或自动驾驶控制,包括如下步骤:准备机器人或自动驾驶控制的数据集;初始化扩散模型参数;定义优势加权回归AWR的优化目标,该目标旨在最大化策略的累计奖励;利用扩散模型的性质,将AWR问题建模为一个强对偶成立的优化问题;使用拉格朗日对偶法求解所述优化问题,以得到最优的策略参数,以得到最优的机器人或自动驾驶控制策略参数;使用学习到的最优策略进行决策,以在离线环境下进行机器人或自动驾驶的强化学习任务。本发明专利技术极大地减少了处理器训练开销和推理成本,具有极大的应用潜力,其可以将大规模的数据集变为强大的决策工具,将包含机器人控制的数据集使用本发明专利技术训练从而得到强大的机器人控制器。

【技术实现步骤摘要】

本专利技术涉及离线强化学习领域以及扩散模型,特别是涉及一种基于扩散模型的离线强化学习方法


技术介绍

1、强化学习作为一种新的机器学习范式,旨在训练出一个策略来使得奖励最大化。强化学习被认为可以解决复杂的非线性优化问题,在许多传统控制无法解决的问题上取得了一定的成绩。传统的强化学习需要一个环境来与智能体(agent)进行交互来学习策略,这在一些对安全有很高要求的领域如自动驾驶、医疗等领域是不可行的,为了解决这个问题之前的研究人员提出了离线强化学习的概念,离线强化学习旨在在不与环境进行交互的情况下从一个静态的已经制作好的数据集上学习到一个策略来完成任务。离线强化学习跟监督学习很像,但是不同的是,离线强化学习希望学到的是一个可以最大化累计奖励的策略而监督学习希望学习到的是一个分类器(相当于单步策略)。这样就导致了离线强化学习的策略对out-of-distribution(分布外)的点十分敏感,一旦策略采取了out-of-distribution的点,那么由于数据集中没有关于这个点的信息,那么关于这个点的估计就会很差,再加上强化学习的bellman方程,误差会传递给下一个点导致学习不到一个可用的策略,所以离线强化学习需要避免out-of-distribution的点,这个问题也常被称为外推误差或者分布偏移。constrained policy search(cps)是一种常用的解决离线强化学习的方法,其通过限制学习到的策略和生成数据集的行为策略之间的kl散度来避免out-of-distribution的动作。但是之前的cps问题主要解决方法为awr(advantage weightedregression),awr将策略表示为一个单模的gaussian分布,这样若最优策略是一个多模的分布,那么gaussian分布将不能近似这个多模的分布,从而导致性能下降。

2、目前关于将diffusion用于awr的只有少量的研究,清华大学朱军教授的课题组提出sfbc(selecting from behavior candidates)算法,其使用扩散模型来近似行为策略,为了解决扩散模型概率密度无法计算的问题,其采用蒙特卡洛近似的方法来近似行为策略,然后通过一个评估模型来选择动作,这样做虽然解决了awr中需要概率密度的问题,但是由于采用了蒙特卡洛近似,引入了误差,且使用扩散模型生成的候选动作的数量对最后结果有很大影响,且这种两步式的算法的运行速度十分慢。缺点有:1.由于sfbc先生成候选动作,然后在通过评估模型来选择动作,导致运行速度慢,推理成本高。2.sfbc生成候选动作时不可避免的引入了误差,降低了扩散模型的性能。在图1中,展示了不同基于扩散模型的算法对左1ground truth的建模效果,可以看到sfbc由于使用蒙特卡洛方法来近似行为策略引入了误差,其建模的ground truth相比于其他方法误差很大。

3、需要说明的是,在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本专利技术的主要目的在于克服上述
技术介绍
存在的缺陷,提供一种基于扩散模型的离线强化学习方法。

2、为实现上述目的,本专利技术采用以下技术方案:

3、一种基于扩散模型的离线强化学习方法,用于进行机器人或自动驾驶控制,包括如下步骤:

4、步骤1:准备机器人或自动驾驶控制的数据集;

5、步骤2:初始化扩散模型参数;

6、步骤3:定义优势加权回归awr的优化目标,该目标旨在最大化策略的累计奖励;

7、步骤4:利用扩散模型的性质建模,其中,利用扩散模型的性质,将awr问题建模为一个强对偶成立的优化问题;

8、步骤5:使用拉格朗日对偶法求解所述强对偶成立的优化问题,以得到最优的机器人或自动驾驶控制策略参数;

9、步骤6:使用学习到的最优策略进行决策,以在离线环境下进行机器人或自动驾驶的强化学习任务。

10、进一步地:

11、使用神经网络来近似表示采用扩散模型的策略,并借助随机梯度下降来优化策略,即,将所述优化问题的求解变化为一个交替优化问题,首先给定拉格朗日乘子,对策略实行梯度下降,之后固定策略对拉格朗日乘子实行梯度下降。

12、使用扩散模型来作为策略,将awr的原问题约束策略搜索cps问题转化为一个强对偶性成立的优化问题,所述优化问题使用拉格朗日对偶法来求解,通过对偶问题求解需要的最优策略;求解分为两步,首先求解给定拉格朗日乘子下的最优策略,之后根据求解后的最优策略,求解出最优对偶变量。

13、使用扩散模型的证据下界elbo来近似熵的计算:

14、

15、其中h(πb,μ)为kl散度消除无关项后的部分,c是一个与策略无关的常数,πb表示收集数据集的行为策略,μ表示待优化的策略,为扩散模型ddpm的损失函数;

16、简化后的对偶问题为:

17、

18、

19、其中,

20、

21、其中,入是拉格朗日乘子,s代表状态,a代表策略采取的动作,e表示期望,ρ表示策略的状态访问分布,q表示策略的状态价值函数,γ表示折扣因子,代表未来的奖励对当前的影响程度,γ越大,代表未来的奖励越重要,t表示当前时刻,j表示未来的时间步;其中p代表在t时刻状态为s的概率。

22、将q值除以一个target网络的值,且采用clip后的拉格朗日乘子来代替实际的拉格朗日乘子以确保拉格朗日乘子不小于0。

23、策略优化的目标为:

24、

25、其中为target网络,λclip为保持拉格朗日乘子非负的约束

26、通过交替优化的方式来求解所提出的约束策略搜索问题,通过策略的更新和拉格朗日乘子的更新,在保持与离线数据集接近的同时去探索高奖励动作。

27、将扩散模型引入基于优势加权回归awr的离线强化学习范式,替代为引入隐式q学习和序列建模的离线强化学习范式中。

28、一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现所述的基于扩散模型的离线强化学习方法。

29、本专利技术的有益效果:

30、本专利技术公开了一种机器人或自动驾驶控制的基于扩散模型的离线强化学习方法,解决了离线强化学习和之前将扩散模型用于awr的两个问题:

31、1.利用扩散模型强大的建模能力,解决之前离线强化学习算法采用单模高斯分布无法建模多模分布的问题。由于现实的数据大多是多模的,最优策略往往也是多模的,将扩散模型引入离线强化学习极大的提升了离线强化学习算法的性能。

32、2.之前将扩散模型引入awr框架中的sfbc,采用了蒙特卡洛法来近似行为策略这样做引入了误差降低了算法的性能。本专利技术直接从awr的原问题出发,利用扩散模型的性质将其建模为一个强对偶成立的本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的离线强化学习方法,用于进行机器人或自动驾驶控制,其特征在于,包括如下步骤:

2.如权利要求1所述的基于扩散模型的离线强化学习方法,其特征在于,使用神经网络来近似表示采用扩散模型的策略,并借助随机梯度下降来优化策略,即,将所述强对偶成立的优化问题的求解变化为一个交替优化问题,首先给定拉格朗日乘子,对策略实行梯度下降,之后固定策略对拉格朗日乘子实行梯度下降。

3.如权利要求1所述的基于扩散模型的离线强化学习方法,其特征在于,使用扩散模型来作为策略,将AWR的原问题约束策略搜索CPS问题转化为一个强对偶性成立的优化问题,所述优化问题使用拉格朗日对偶法来求解,通过对偶问题求解需要的最优策略;求解分为两步,首先求解给定拉格朗日乘子下的最优策略,之后根据求解后的最优策略,求解出最优对偶变量。

4.如权利要求3所述的基于扩散模型的离线强化学习方法,其特征在于,使用扩散模型的证据下界ELBO来近似熵的计算:

5.如权利要求4所述的基于扩散模型的离线强化学习方法,其特征在于,将Q值除以一个target网络的值,且采用clip后的拉格朗日乘子来代替实际的拉格朗日乘子以确保拉格朗日乘子不小于0。

6.如权利要求5所述的基于扩散模型的离线强化学习方法,其特征在于,策略优化的目标为:

7.如权利要求2至6任一项所述的基于扩散模型的离线强化学习方法,其特征在于,通过交替优化的方式来求解所提出的强对偶成立的优化问题,通过策略的更新和拉格朗日乘子的更新,在保持与离线数据集接近的同时去探索高奖励动作。

8.如权利要求1至7任一项所述的基于扩散模型的离线强化学习方法,其特征在于,将扩散模型引入基于优势加权回归AWR的离线强化学习范式,替代为引入隐式Q学习和序列建模的离线强化学习范式中。

9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序由处理器执行时,实现如权利要求1至8任一项所述的基于扩散模型的离线强化学习方法。

...

【技术特征摘要】

1.一种基于扩散模型的离线强化学习方法,用于进行机器人或自动驾驶控制,其特征在于,包括如下步骤:

2.如权利要求1所述的基于扩散模型的离线强化学习方法,其特征在于,使用神经网络来近似表示采用扩散模型的策略,并借助随机梯度下降来优化策略,即,将所述强对偶成立的优化问题的求解变化为一个交替优化问题,首先给定拉格朗日乘子,对策略实行梯度下降,之后固定策略对拉格朗日乘子实行梯度下降。

3.如权利要求1所述的基于扩散模型的离线强化学习方法,其特征在于,使用扩散模型来作为策略,将awr的原问题约束策略搜索cps问题转化为一个强对偶性成立的优化问题,所述优化问题使用拉格朗日对偶法来求解,通过对偶问题求解需要的最优策略;求解分为两步,首先求解给定拉格朗日乘子下的最优策略,之后根据求解后的最优策略,求解出最优对偶变量。

4.如权利要求3所述的基于扩散模型的离线强化学习方法,其特征在于,使用扩散模型的证据下界elbo来近似熵的计算:

...

【专利技术属性】
技术研发人员:谭俊波何龙祥郭冠求王学谦梁斌
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1