System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及深度强化学习,尤其涉及一种基于情景记忆深度q网络的奖励获得方法。
技术介绍
1、随着人工智能的发展,深度强化学习受到了广泛的关注。深度强化学习将深度神经网络中高效的表示与感知能力和强化学习中的决策能力相结合,解决了传统表格型方法应对大规模问题的不足,使智能体可以在复杂环境的交互过程中不断优化策略,极大地提升了强化学习处理高维、复杂问题的能力。深度强化学习算法有着比传统强化学习算法更广泛的适用性,在游戏、机器人、自然语言处理、计算机视觉等领域中都取得了较大的成功。
2、在深度强化学习中,通过控制智能体与环境交互得到观测数据,求得给定决策优化任务的最优策略。在时间步t,环境的状态记作st,智能体根据当前的状态st以及策略采取一个行动at。环境对智能体的动作做出反应,返回给智能体奖励rt,同时环境转移到下一个状态st+1。智能体的最终目标是找到一个最优策略,以最大化累计奖励。奖励是环境的反馈信号,引导着智能体的学习。智能体根据奖励得到环境的评估反馈,并根据奖励做出决策和策略优化,从而找到一个最优策略实现最大化累计奖励。缺乏奖励信息将导致智能体学习速度缓慢甚至无法学习到最优策略。
3、在深度强化学习中,奖励是环境对智能体的反馈,承担了监督信号的作用,智能体依据奖励进行策略优化。然而在奖励稀疏的环境下,智能体难以获得正向的奖励,缺乏有效的引导,这导致智能体难以将当前的一系列动作与未来的奖励联系起来,因而训练困难。稀疏奖励问题存在于许多决策任务中。例如,在机械臂抓取任务中,只有当机械臂成功抓取到目标时智
4、当前解决稀疏奖励问题的主要方法有经验回放、奖励塑造、分层强化学习等。其中经验回放是当前解决稀疏奖励问题的重要方法,它不需要先验知识。经验回放中的典型算法有深度q网络、优先经验回放。
5、深度q网络以神经网络q(s,a;θ)来近似值函数,其中θ为神经网络中的参数。神经网络采用梯度下降,从而最小化损失函数来不断调试网络参数。深度q网络增加了经验池,当智能体观测到状态转换时,将当前时间步下的状态、动作、获得的奖励以及下一时间步的状态作为经验存储在经验池中。此外,深度q网络增加目标网络辅助更新q网络的参数。在训练过程中,深度q网络从经验池中随机均匀抽取批量样本,用于后续策略迭代。然而,在稀疏奖励环境下,经验缓冲区中的奖励大多为负,缺乏正向的奖励,深度q网络的样本利用率较低。
6、优先经验回放算法认为经验池中某些样本可能比其他样本更重要,可以更好地帮助智能体学习决策。优先经验回放算法根据td-error来计算样本的优先级,td-error越大,样本的优先级越高。但贪心的选择td-error最大的样本会导致在某一时刻td-error较低的样本在较长时间内不会被重放,而这种样本可能对当前时刻具有较大的信息量。另一方面td-error初始值很高的样本会被频繁的重放,容易出现过拟合问题。因此,优先经验回放算法采用随机优先级进行采样。该方法虽然显著减少了智能体与环境的交互采样次数,与深度q网络算法结合后能够一定程度上解决稀疏奖励问题,但是仍然需要许多优化步骤,缺乏快速锁定过去成功策略的能力。
7、在稀疏奖励环境下,高奖励的样本十分罕见,对智能体的学习起着至关重要的作用。因此高效利用高奖励的样本,并且遵循能产生高奖励的动作序列是解决稀疏奖励问题的一个可行思路。在大脑中,情景记忆会总结过去的事情并存储起来,当遇到类似的事情时,大脑会直接参考情景记忆做出决定,从而实现快速学习。受该脑机制启发,本专利技术将情景记忆与强化学习结合。情景强化学习在稀疏奖励环境下,通过存储产生高奖励的状态-动作序列,实现了快速锁定成功的策略,能够高效利用数量很少的高奖励样本。
8、因此,本专利技术使用情景强化学习来解决稀疏奖励问题,将情景记忆深度q网络算法应用于稀疏奖励问题。情景记忆深度q网络算法是一种典型的情景强化学习算法,其通过引入一个记忆目标,将最大记忆回报作为记忆目标m,将情景记忆的快速收敛特征整合到神经网络中,同时延续了深度q网络的强泛化性,它能够高效利用稀疏奖励环境下的高奖励样本,迅速锁定高回报的策略。
技术实现思路
1、本专利技术的目的是提出一种基于情景记忆深度q网络的奖励获得方法,克服传统的深度强化学习算法在解决稀疏奖励问题上的不足。
2、为了实现上述目的,本专利技术提供如下技术方案:
3、一种基于情景记忆深度q网络的奖励获得方法,包括以下步骤:
4、s1、为智能体提供一个推断目标p和一个记忆目标m;
5、s2、推断目标p采用一步自举更新;
6、推断目标p的计算定义为:
7、p(st,at)=rt+γmaxa'qθ(st+1,a') (1)
8、其中,st表示在t时刻智能体观测到的状态,at表示智能体在t时刻选择执行的动作,rt表示智能体在t时刻从环境获得的奖励;qθ是用神经网络来近似的动作值函数,θ是神经网络的参数;γ是奖励折扣因子,用来调节近远期影响,决定了如何权衡当前奖励和未来奖励,取值范围γ∈[0,1];a′表示智能体的下一个可能动作;
9、s3、将记忆目标m定义为最佳记忆回报,实现情景记忆,根据经历的情境,存储在状态st下智能体执行动作at所能获得的最大回报;
10、记忆目标m的计算公式为:
11、m(st,at)=maxiri(st,at),i∈{1,2,...,n} (2)
12、其中n是从1开始的正整数,表示智能体已经经历的情景数量,ri(st,at)表示在第i个情景下,基于状态st智能体执行动作at所能获得的未来回报,是蒙特卡洛回报;
13、s4、计算神经网络的损失函数,神经网络的损失函数包括两部分,分别为神经网络估计的值函数与推断目标p之间差的平方以及神经网络估计的值函数与记忆目标m之间差的平方;
14、s5、对智能体进行迭代训练,通过最小化损失函数,优化神经网络的参数。
15、进一步地,所述记忆目标m实现情景记忆的过程为:将情景记忆的快速收敛特征整合到神经网络中,通过将记忆目标m设计为在经历的所有情景中,在状态st下执行动作at所能获得的最大回报,对过去的经本文档来自技高网...
【技术保护点】
1.一种基于情景记忆深度Q网络的奖励获得方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,所述记忆目标M实现情景记忆的过程为:将情景记忆的快速收敛特征整合到神经网络中,通过将记忆目标M设计为在经历的所有情景中,在状态st下执行动作at所能获得的最大回报,对过去的经验进行筛选,使决策偏向高回报的记忆。
3.根据权利要求2所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,所述记忆目标M对过去的经验进行筛选的过程为:记忆目标M为一个在训练过程中不断增长的表,以状态-动作对作为索引,将在状态-动作对中对应状态st下执行对应动作at所能获得的最大回报作为键值,情景记忆深度Q网络中为每一个动作维护一个状态缓冲区,并使用随机投影技术紧凑地表示状态,通过乘以高斯随机矩阵,将状态投影到低维向量,通过使用随机投影向量进行匹配搜索,找到记忆目标M,从而正则化Q值向量,智能体根据正则化后的Q值进行动作选择。
4.根据权利要求3所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,智能体进行动作选择的方法
5.根据权利要求4所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,所述记忆目标M的更新方法为:对于表中没有的状态-动作对,在当前情景下,基于状态st,智能体执行动作at获得的回报作为键值添加到记忆目标M中;对于表中已经存在的状态-动作对,对比记忆目标M中的键值和当前情景下获取的回报,选择值更大的作为新的键值。
6.根据权利要求5所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,所述记忆目标M的更新公式为:
7.根据权利要求5所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,当智能体观察到状态转换时,智能体将经验(st,at,rt,st+1)存储在经验池中,用于训练。
8.根据权利要求1所述的基于情景记忆深度Q网络的奖励获得方法,其特征在于,所述的神经网络的损失函数公式为:
...【技术特征摘要】
1.一种基于情景记忆深度q网络的奖励获得方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于情景记忆深度q网络的奖励获得方法,其特征在于,所述记忆目标m实现情景记忆的过程为:将情景记忆的快速收敛特征整合到神经网络中,通过将记忆目标m设计为在经历的所有情景中,在状态st下执行动作at所能获得的最大回报,对过去的经验进行筛选,使决策偏向高回报的记忆。
3.根据权利要求2所述的基于情景记忆深度q网络的奖励获得方法,其特征在于,所述记忆目标m对过去的经验进行筛选的过程为:记忆目标m为一个在训练过程中不断增长的表,以状态-动作对作为索引,将在状态-动作对中对应状态st下执行对应动作at所能获得的最大回报作为键值,情景记忆深度q网络中为每一个动作维护一个状态缓冲区,并使用随机投影技术紧凑地表示状态,通过乘以高斯随机矩阵,将状态投影到低维向量,通过使用随机投影向量进行匹配搜索,找到记忆目标m,从而正则化q值向量,智能体根据正则化后的q值进行动作选择。
4.根据权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。