【技术实现步骤摘要】
本专利技术涉及深度强化学习,尤其涉及一种基于情景记忆深度q网络的奖励获得方法。
技术介绍
1、随着人工智能的发展,深度强化学习受到了广泛的关注。深度强化学习将深度神经网络中高效的表示与感知能力和强化学习中的决策能力相结合,解决了传统表格型方法应对大规模问题的不足,使智能体可以在复杂环境的交互过程中不断优化策略,极大地提升了强化学习处理高维、复杂问题的能力。深度强化学习算法有着比传统强化学习算法更广泛的适用性,在游戏、机器人、自然语言处理、计算机视觉等领域中都取得了较大的成功。
2、在深度强化学习中,通过控制智能体与环境交互得到观测数据,求得给定决策优化任务的最优策略。在时间步t,环境的状态记作st,智能体根据当前的状态st以及策略采取一个行动at。环境对智能体的动作做出反应,返回给智能体奖励rt,同时环境转移到下一个状态st+1。智能体的最终目标是找到一个最优策略,以最大化累计奖励。奖励是环境的反馈信号,引导着智能体的学习。智能体根据奖励得到环境的评估反馈,并根据奖励做出决策和策略优化,从而找到一个最优策略实现最大化累计奖励
...【技术保护点】
1.一种基于情景记忆深度Q网络的奖励获得方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,所述记忆目标M实现情景记忆的过程为:将情景记忆的快速收敛特征整合到神经网络中,通过将记忆目标M设计为在经历的所有情景中,在状态st下执行动作at所能获得的最大回报,对过去的经验进行筛选,使决策偏向高回报的记忆。
3.根据权利要求2所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,所述记忆目标M对过去的经验进行筛选的过程为:记忆目标M为一个在训练过程中不断增长的表,以状态-动作对作为索引,将在状
...【技术特征摘要】
1.一种基于情景记忆深度q网络的奖励获得方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于情景记忆深度q网络的奖励获得方法,其特征在于,所述记忆目标m实现情景记忆的过程为:将情景记忆的快速收敛特征整合到神经网络中,通过将记忆目标m设计为在经历的所有情景中,在状态st下执行动作at所能获得的最大回报,对过去的经验进行筛选,使决策偏向高回报的记忆。
3.根据权利要求2所述的基于情景记忆深度q网络的奖励获得方法,其特征在于,所述记忆目标m对过去的经验进行筛选的过程为:记忆目标m为一个在训练过程中不断增长的表,以状态-动作对作为索引,将在状态-动作对中对应状态st下执行对应动作at所能获得的最大回报作为键值,情景记忆深度q网络中为每一个动作维护一个状态缓冲区,并使用随机投影技术紧凑地表示状态,通过乘以高斯随机矩阵,将状态投影到低维向量,通过使用随机投影向量进行匹配搜索,找到记忆目标m,从而正则化q值向量,智能体根据正则化后的q值进行动作选择。
4.根据权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。