一种基于扩散模型的强化学习DIPO构建方法技术

技术编号：39038731 阅读：13 留言：0更新日期：2023-10-10 11:51

本发明专利技术提供了一种基于扩散模型的强化学习DIPO方法，包括：步骤S1，获取以智能体为作用对象的强化学习算法的初始算法框架，使得智能体基于初始算法框架，通过智能体自身的预设策略与环境进行交互持续获取经验，并根据获取的经验生成经验池；步骤S2，提取出初始算法框架中当前状态下智能体做出的动作，并将动作沿着Q函数增加的方向做梯度上升得到对应的新动作；步骤S3，将新动作替换掉经验池中的动作，并采用扩散模型拟合得到新动作的分布，以构建得到DIPO算法框架。有益效果是本发明专利技术能够利用扩散模型强大的拟合能力，同时解决扩散模型无法进行策略提升的问题，使得智能体在每次更新后，其策略都能表现得比更新前更好。其策略都能表现得比更新前更好。其策略都能表现得比更新前更好。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于扩散模型的强化学习DIPO构建方法

[0001]本专利技术涉及强化学习算法的
，具体而言，涉及一种基于扩散模型的强化学习DIPO构建方法。

技术介绍

[0002]强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
[0003]强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process,MDP)，按给定条件，强化学习可分为基于模式的强化学习(model
‑
based RL)和无模式强化学习(model
‑
free RL)，以及主动强化学习(active RL)和被动强化学习(passive RL)，强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习，求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。
[0004]目前的强化学习算法使用高斯分布等单峰分布来拟合策略，这种策略拟合方式会在很大程度上限制策略的表达能力和探索能力，使得智能体通过策略获取的奖励趋于平稳，得不到提升。

技术实现思路

[0005]本专利技术要解决的问题是：提供一种基于扩散模型的强化学习DIPO构建方法，能够使得智能体在每次更新后，其策略都能表现得比更新前更好，进而提升奖励，同时利用扩散模型强大的...

【技术保护点】

【技术特征摘要】
1.一种基于扩散模型的强化学习DIPO构建方法，其特征在于，包括以下步骤：步骤S1，获取以智能体为作用对象的强化学习算法的初始算法框架，使得所述智能体基于所述初始算法框架，通过所述智能体自身的预设策略与环境进行交互持续获取经验，并根据获取的所述经验生成经验池；步骤S2，提取出所述初始算法框架中当前状态下所述智能体做出的动作，并将所述动作沿着Q函数增加的方向做梯度上升得到对应的新动作；步骤S3，将所述新动作替换掉所述经验池中的所述动作，并采用扩散模型拟合得到新动作的分布来更新所述预设策略，以构建得到DIPO算法框架。2.根据权利要求1所述的强化学习DIPO构建方法，其特征在于，所述步骤S1中，所述智能体根据自身的所述预设策略与环境进行交互，并将当前状态、当前状态下做出的所述动作、做出所述动作后转移到的下一个状态和转移到下一个所述状态后获得的奖励作为所述经验生成所述经验池。3.根据权利要求1所述的强化学习DIPO构建方法，其特征在于，所述步骤S1中，根据获取的所述经验生成所述经验池之后，还包括：所述智能体通过策略提升算法持续提升自...

【专利技术属性】
技术研发人员：黄志雄，文世挺，高云君，庞超逸，范良忠，
申请(专利权)人：浙大宁波理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人