一种基于情景记忆深度Q网络的奖励获得方法技术

技术编号:40912309 阅读:20 留言:0更新日期:2024-04-18 14:40
本发明专利技术公开了一种基于情景记忆深度Q网络的奖励获得方法,将情景记忆深度Q网络应用于稀疏奖励问题中,证明了情景记忆深度Q网络在稀疏奖励问题上的样本效率和有效性,从脑科学的角度解释了情景记忆深度Q网络能够有效解决稀疏奖励问题的深层原因,提供了一种具有较高生物可解释性的方法。本发明专利技术利用情景记忆深度Q网络可以更新更多的正奖励样本,充分利用正奖励,缓解由于正奖励样本数量与负奖励样本数量严重不平衡而导致智能体学习速度缓慢的问题。

【技术实现步骤摘要】

本专利技术涉及深度强化学习,尤其涉及一种基于情景记忆深度q网络的奖励获得方法。


技术介绍

1、随着人工智能的发展,深度强化学习受到了广泛的关注。深度强化学习将深度神经网络中高效的表示与感知能力和强化学习中的决策能力相结合,解决了传统表格型方法应对大规模问题的不足,使智能体可以在复杂环境的交互过程中不断优化策略,极大地提升了强化学习处理高维、复杂问题的能力。深度强化学习算法有着比传统强化学习算法更广泛的适用性,在游戏、机器人、自然语言处理、计算机视觉等领域中都取得了较大的成功。

2、在深度强化学习中,通过控制智能体与环境交互得到观测数据,求得给定决策优化任务的最优策略。在时间步t,环境的状态记作st,智能体根据当前的状态st以及策略采取一个行动at。环境对智能体的动作做出反应,返回给智能体奖励rt,同时环境转移到下一个状态st+1。智能体的最终目标是找到一个最优策略,以最大化累计奖励。奖励是环境的反馈信号,引导着智能体的学习。智能体根据奖励得到环境的评估反馈,并根据奖励做出决策和策略优化,从而找到一个最优策略实现最大化累计奖励。缺乏奖励信息将导致本文档来自技高网...

【技术保护点】

1.一种基于情景记忆深度Q网络的奖励获得方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,所述记忆目标M实现情景记忆的过程为:将情景记忆的快速收敛特征整合到神经网络中,通过将记忆目标M设计为在经历的所有情景中,在状态st下执行动作at所能获得的最大回报,对过去的经验进行筛选,使决策偏向高回报的记忆。

3.根据权利要求2所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,所述记忆目标M对过去的经验进行筛选的过程为:记忆目标M为一个在训练过程中不断增长的表,以状态-动作对作为索引,将在状态-动作对中对应状态...

【技术特征摘要】

1.一种基于情景记忆深度q网络的奖励获得方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于情景记忆深度q网络的奖励获得方法,其特征在于,所述记忆目标m实现情景记忆的过程为:将情景记忆的快速收敛特征整合到神经网络中,通过将记忆目标m设计为在经历的所有情景中,在状态st下执行动作at所能获得的最大回报,对过去的经验进行筛选,使决策偏向高回报的记忆。

3.根据权利要求2所述的基于情景记忆深度q网络的奖励获得方法,其特征在于,所述记忆目标m对过去的经验进行筛选的过程为:记忆目标m为一个在训练过程中不断增长的表,以状态-动作对作为索引,将在状态-动作对中对应状态st下执行对应动作at所能获得的最大回报作为键值,情景记忆深度q网络中为每一个动作维护一个状态缓冲区,并使用随机投影技术紧凑地表示状态,通过乘以高斯随机矩阵,将状态投影到低维向量,通过使用随机投影向量进行匹配搜索,找到记忆目标m,从而正则化q值向量,智能体根据正则化后的q值进行动作选择。

4.根据权利要求...

【专利技术属性】
技术研发人员:范超琼吴欣雨邬霞
申请(专利权)人:北京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1