当前位置: 首页 > 专利查询>三峡大学专利>正文

一种基于HER和ICM实现的改进DDPG策略方法技术

技术编号:40324927 阅读:22 留言:0更新日期:2024-02-09 14:19
一种基于HER和ICM实现的改进DDPG策略方法,步骤1:创建实验环境并构建DDPG、HER和ICM的模型;步骤2:设置训练参数并创建经验池;步骤3:初始化网络和优化器;步骤4:模型在环境中运行训练,并存储状态、动作和奖励等信息到经验池中;步骤5:使用HER算法处理经验池中的样本生成新的样本;步骤6:使用ICM计算奖励并整合奖励;步骤7:更新网络参数训练模型。本发明专利技术的目的是为了解决传统DDPG算法存在的奖励稀疏导致智能体学习缓慢和探索效率过低导致样本覆盖面窄的技术问题,而提出的一种基于HER和ICM实现的改进DDPG策略方法。

【技术实现步骤摘要】

本专利技术涉及深度学习,具体涉及基于her和icm实现的改进ddpg策略方法。


技术介绍

1、深度强化学习在游戏、机器人控制、自动驾驶、金融、资源管理、自然语言处理和医疗等领域有着广泛的应用。深度强化学习实现的策略方法有助于提升智能体的自主决策能力、适应性和学习能力,实现高级策略和复杂行为,解决稀疏奖励问题,并支持多智能体协作。

2、申请公布号为cn116533249a的专利文献公开了一种基于深度强化学习ddpg的机械臂控制方法,申请公布号为cn116321057a的专利文献公开了一种基于深度强化学习ddpg的车辆群智感知用户招募方法。上述的深度强化学习算法,在某些方面存在一些不完善之处:

3、1)稀疏奖励问题的挑战:在许多情况下,智能体只有在达到目标或完成任务时才接收到正向奖励信号,而在其他时间步上接收到的奖励信号较少或为零;

4、2)探索效率低的问题:在许多情况下,环境中存在大量未知的状态和动作组合,但传统的奖励信号可能无法有效引导智能体去探索这些未知领域。这使得智能体难以有效地发现新的、有价值的信息。

本文档来自技高网...

【技术保护点】

1.一种基于HER和ICM实现的改进DDPG策略方法,其特征在于,它包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,在步骤1)中,具体包括以下步骤:

3.根据权利要求1所述的方法,其特征在于,在步骤2)中,具体包括以下步骤:

4.根据权利要求1所述的方法,其特征在于,在步骤4)中,具体包括以下步骤:

5.根据权利要求1所述的方法,其特征在于,在步骤5)中,具体包括以下步骤:

6.根据权利要求1所述的方法,其特征在于,在步骤6)中,具体包括以下步骤:

7.根据权利要求1所述的方法,其特征在于,在步骤7)中,具...

【技术特征摘要】

1.一种基于her和icm实现的改进ddpg策略方法,其特征在于,它包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,在步骤1)中,具体包括以下步骤:

3.根据权利要求1所述的方法,其特征在于,在步骤2)中,具体包括以下步骤:

4.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:臧兆祥李思博
申请(专利权)人:三峡大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1