一种基于扩散模型的强化学习DIPO构建方法技术

技术编号:39038731 阅读:13 留言:0更新日期:2023-10-10 11:51
本发明专利技术提供了一种基于扩散模型的强化学习DIPO方法,包括:步骤S1,获取以智能体为作用对象的强化学习算法的初始算法框架,使得智能体基于初始算法框架,通过智能体自身的预设策略与环境进行交互持续获取经验,并根据获取的经验生成经验池;步骤S2,提取出初始算法框架中当前状态下智能体做出的动作,并将动作沿着Q函数增加的方向做梯度上升得到对应的新动作;步骤S3,将新动作替换掉经验池中的动作,并采用扩散模型拟合得到新动作的分布,以构建得到DIPO算法框架。有益效果是本发明专利技术能够利用扩散模型强大的拟合能力,同时解决扩散模型无法进行策略提升的问题,使得智能体在每次更新后,其策略都能表现得比更新前更好。其策略都能表现得比更新前更好。其策略都能表现得比更新前更好。

【技术实现步骤摘要】
一种基于扩散模型的强化学习DIPO构建方法


[0001]本专利技术涉及强化学习算法的
,具体而言,涉及一种基于扩散模型的强化学习DIPO构建方法。

技术介绍

[0002]强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
[0003]强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process,MDP),按给定条件,强化学习可分为基于模式的强化学习(model

based RL)和无模式强化学习(model

free RL),以及主动强化学习(active RL)和被动强化学习(passive RL),强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习,求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。
[0004]目前的强化学习算法使用高斯分布等单峰分布来拟合策略,这种策略拟合方式会在很大程度上限制策略的表达能力和探索能力,使得智能体通过策略获取的奖励趋于平稳,得不到提升。

技术实现思路

[0005]本专利技术要解决的问题是:提供一种基于扩散模型的强化学习DIPO构建方法,能够使得智能体在每次更新后,其策略都能表现得比更新前更好,进而提升奖励,同时利用扩散模型强大的拟合能力,增强智能体的探索能力和表达能力。
[0006]为解决上述问题,本专利技术提供一种基于扩散模型的强化学习DIPO构建方法,包括:
[0007]步骤S1,获取以智能体为作用对象的强化学习算法的初始算法框架,使得所述智能体基于所述初始算法框架,通过所述智能体自身的预设策略与环境进行交互持续获取经验,并根据获取的所述经验生成经验池;
[0008]步骤S2,提取出所述初始算法框架中当前状态下所述智能体做出的动作,并将所述动作沿着Q函数增加的方向做梯度上升得到对应的新动作;
[0009]步骤S3,将所述新动作替换掉所述经验池中的所述动作,并采用扩散模型拟合得到新动作的分布来更新所述预设策略,以构建得到DIPO算法框架。
[0010]优选的,所述步骤S1中,所述智能体根据自身的所述预设策略与环境进行交互,并将当前状态、当前状态下做出的所述动作、做出所述动作后转移到的下一个状态和转移到下一个所述状态后获得的奖励作为所述经验生成所述经验池。
[0011]优选的,所述步骤S1中,根据获取的所述经验生成所述经验池之后,还包括:
[0012]所述智能体通过策略提升算法持续提升自身的所述预设策略。
[0013]优选的,所述步骤S1中,采用action gradient方法作为所述策略提升算法。
[0014]优选的,所述步骤S1中,通过以下计算公式构建得到所述DIPO
[0015][0016]算法框架:
[0017]其中,
[0018]π表示所述预设策略;
[0019]D表示所述经验池;
[0020]s
t
表示所述智能体的当前状态;
[0021]a
t
表示所述智能体当前状态下做出的所述动作;
[0022]r
t+1
表示所述智能体做出所述动作后转移到的下一个状态;
[0023]r
t+1
表示所述智能体转移到下一个所述状态后获得的奖励
[0024]action gradient表示梯度上升操作;
[0025]η表示预设常量;
[0026]Q
π
表示所述智能体学习到的值函数;
[0027]a'
t
表示所述新动作;
[0028]D'表示所述新动作替换掉所述动作后的所述经验池;
[0029]diffusion policy表示扩散模型拟合操作;
[0030]π'表示更新后的所述预设策略。
[0031]本专利技术具有以下有益效果:本专利技术中以通常情况下强化学习算法的算法框架作为初始算法框架,对经验池中智能体的动作沿Q函数增加的方向进行梯度上升得到对应的新动作,以此对经验池中的原有动作进行替换,使得智能体可以选取价值更高的动作进行执行,进而获取更高的奖励,并且通过扩散模型拟合得到新动作的分布来更新预设策略,充分释放策略的表达能力和探索能力,使得智能体在每次更新后,其策略都能表现得比更新前更好,进而提升奖励。
附图说明
[0032]图1为本专利技术的步骤流程图;
[0033]图2为本专利技术的扩散模型流程示意图;
[0034]图3为本专利技术的实施例一中的多峰环境测试结果示意图;
[0035]图4为本专利技术的实施例二中的MuJoCo仿真平台的模拟示意图;
[0036]图5为本专利技术的实施例二中的MuJoCo仿真平台的结果示意图;
[0037]图6为本专利技术的实施例三中的Ant训练过程中可视化后的状态示意图;
[0038]图7为本专利技术的实施例四中的对扩散模型进行消融实验的结果示意图;
[0039]图8为本专利技术的实施例四中的对扩散模型的加噪步数进行消融实验的结果示意图。
具体实施方式
[0040]为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。
[0041]本专利技术的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种基于扩散模型的强化学习DIPO构建方法,如图1所示,包括以下步骤:
[0042]步骤S1,获取以智能体为作用对象的强化学习算法的初始算法框架,使得智能体基于初始算法框架,通过智能体自身的预设策略与环境进行交互持续获取经验,并根据获取的经验生成经验池;
[0043]步骤S2,提取出初始算法框架中当前状态下智能体做出的动作,并将动作沿着Q函数增加的方向做梯度上升得到对应的新动作;
[0044]步骤S3,将新动作替换掉经验池中的动作,并采用扩散模型拟合得到新动作的分布来更新预设策略,以构建得到DIPO算法框架。
[0045]具体地,本实施例中,如图2所示,扩散模型模拟的是布朗运动,就像在水中滴入一滴色素一样,随着时间的推移,色素会逐渐扩散到整个溶液中,通过对一批数据集使用扩散模型,那么就会不断地对数据加噪,只要加的噪声足够多,最后在理论上数据会变成符合均值为0、方差为1的正态分布,在这样的条件下,就知道了图片在加噪过程中的随机微分方程,经过一系列的推导,就可以得到逆向过程,也就是去噪过程的随机微分方程,但是扩散模型只能拟合分布,而强化学习算法中很重要的一点是策略提升,本实施例中将扩散模型和强化学习算法相融合并进行提升,来使得智能体在每次更新后,策略都能表现得比更新前更好(即更新后得策略能获得更多的累计奖励),在利用扩散模型强本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于扩散模型的强化学习DIPO构建方法,其特征在于,包括以下步骤:步骤S1,获取以智能体为作用对象的强化学习算法的初始算法框架,使得所述智能体基于所述初始算法框架,通过所述智能体自身的预设策略与环境进行交互持续获取经验,并根据获取的所述经验生成经验池;步骤S2,提取出所述初始算法框架中当前状态下所述智能体做出的动作,并将所述动作沿着Q函数增加的方向做梯度上升得到对应的新动作;步骤S3,将所述新动作替换掉所述经验池中的所述动作,并采用扩散模型拟合得到新动作的分布来更新所述预设策略,以构建得到DIPO算法框架。2.根据权利要求1所述的强化学习DIPO构建方法,其特征在于,所述步骤S1中,所述智能体根据自身的所述预设策略与环境进行交互,并将当前状态、当前状态下做出的所述动作、做出所述动作后转移到的下一个状态和转移到下一个所述状态后获得的奖励作为所述经验生成所述经验池。3.根据权利要求1所述的强化学习DIPO构建方法,其特征在于,所述步骤S1中,根据获取的所述经验生成所述经验池之后,还包括:所述智能体通过策略提升算法持续提升自...

【专利技术属性】
技术研发人员:黄志雄文世挺高云君庞超逸范良忠
申请(专利权)人:浙大宁波理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1