一种双评价器单执行器的强化学习方法及系统技术方案

技术编号:29703937 阅读:15 留言:0更新日期:2021-08-17 14:32
本发明专利技术公开了一种双评价器单执行器的强化学习方法及系统,包括:S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;S2根据初始化噪声函数在初始化环境中得到一个状态;S3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;根据设定的迭代条件重复上述步骤训练双评价器单执行器的强化学习;其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。本发明专利技术解决了无模型强化学习中,样本利用率不高、训练收敛速度慢等问题。

【技术实现步骤摘要】
一种双评价器单执行器的强化学习方法及系统
本专利技术涉及智能体路径规划领域,具体涉及一种双评价器单执行器的强化学习方法及系统。
技术介绍
目前大多数无模型强化学习算法都采用了在策略评估和策略改进之间迭代的广义策略迭代,策略评估方法是对行为价值函数进行估计,而策略改进方法则是根据行为价值函数对策略进行更新。基于广义策略迭代和策略梯度定理,Actor-Critic(AC,强化学习)已经成为一种广泛使用的架构。确定性策略梯度算法(Deterministicpolicygradient,DPG)在AC框架的基础上进一步考虑了确定性策略梯度算法用于连续动作,与随机策略相比,DPG在策略评估时降低了方差。深度确定策略梯度(DeepDeterministicPolicyGradient,DDPG)进一步将Deepneuralnetworks与DPG结合,提高建模能力。然而,无模型AC算法和DDPG算法都是通过直接与环境交互产生样本,存在采样效率低、收敛速度慢等的问题。基于模型的规划方法,通过使用学习得到的模型进行模拟推演来加速学习或者获得更好的动作状态的价值估计。虽然计算效率更高,收敛速度也更快,但是规划的准确性与环境的动力学模型的精度是息息相关的。现实情况中,环境受空气温度、摩擦阻力、通信时延、材料特性等各种随机因素影响大。规划所需要的环境的动力学模型现实中往往无法得到。此外,规划方法对环境模型的依赖性太强,对新环境的泛化能力较弱,环境一旦发生变化,就需要重新规划。然而环境往往随时间的变化而变化,想要获得完全模拟现实环境的精确模型是不现实的。因此,如何将强化学习与规划方法相结合以解决彼此的问题亟需解决。
技术实现思路
为了解决现有技术中所存在的上述不足,本专利技术提供了一种双评价器单执行器的强化学习方法,包括:S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;S2根据初始化噪声函数在初始化环境中得到一个状态;S3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;S5判断训练步数是否达到一幕的最大步数,若是,则更新幕数并执行S6,否则更新步数并执行S3;S6判断所述幕数是否达到设定的最大幕数,若是,则训练结束,否则初始化步数执行S2;其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。优选的,所述S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数,包括:S101随机初始化基于奖励的评价器的值函数网络和执行器的策略网络;S102初始化目标网络的权重;S103初始化经验回放缓存区;S104设置策略网络的损失函数中各评价器的比例系数。优选的,所述策略网络的损失函数,如下式所示:式中:J(μθ)为策略网络的损失函数;θ为执行器的策略网络参数;为状态空间;ρμ(s,γ1)为在折扣γ1下的状态分布;s为当前状态;γ1为奖励折扣系数;μθ(s)为策略函数;r(s,μθ(s))为在状态s时采取策略μθ能获得的奖励;β为双评价器的比例系数;ρμ(s,γ2)为在折扣γ2下的状态分布;γ2为势场值的折扣系数;qPF(s,μθ(s))为在状态s执行策略μθ时基于势场的状态-动作函数。优选的,根据当前状态、当前策略和噪声函数按下式计算动作:at=μ(s|θ)+Nt式中:at为t时刻的动作;μ(s|θ)为当前状态s在当前策略下的结果;s为当前状态;θ为执行器的策略网络参数;Nt为根据噪声函数得到t时刻的噪声。优选的,所述S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数,包括:S401根据从所述缓冲区中采集的N个样本,以及值函数网络更新公式更新基于奖励的评价器的值函数网络;S402根据从所述缓冲区中采集的N个样本和预设的人工势场的状态-动作值函数,计算基于人工势场的评价器的状态-动作值函数的值;S403根据从所述缓冲区中采集的N个样本和所述损失函数,以及策略网络参数更新公式更新执行器的策略网络;S404根据策略网络参数θ和策略网络μ更新目标网络。优选的,所述人工势场的状态-动作值函数,如下式所示:式中:QPF(s,a)为人工势场的状态-动作值函数;s是当前状态;a为动作;U(s)为状态s下的势场值;γ2为势场值的折扣系数;s′a为状态s下执行动作a后的状态;U(s′a)为状态s下执行动作a后的状态的势场值;E为求均值;k为进行计算的中间变量,表示当前步数;qPF(sk,ak)为在状态sk执行策略μθ时基于势场的状态-动作函数;其中,所述qPF(sk,ak)按下式计算:式中:U(s)为;χ是执行动作a后的方向和f(s)的夹角。优选的,所述策略网络参数更新公式,如下式所示:式中:θt+1为t+1时刻策略网络的参数;θt为t时刻策略网络的参数;αθ为策略网络的学习率;为求θ的梯度;μθ为权重参数为θ的策略网络;st为t时刻的状态;at为t时刻执行的动作;β为双评价器的比例因子;为求动作a的梯度;为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作at的值;为t时刻基于势场的状态动作值函数的梯度。优选的,所述值函数网络更新公式,如下式所示:式中:δt为t时刻的TD误差;Rt为t时刻的即时奖励;γ1为奖励折扣因子;为基于奖励的状态动作值函数在值函数和策略权重参数分别为w′和θ′下t+1时刻状态的值;st+1为t+1时刻的状态;μθ,(st+1)为策略在权重参数θ′下t+1时刻的状态应执行的动作;为基于奖励的状态动作值函数在值函数权重参数为w下状态st时执行动作at时的值;st为t时刻的状态;at为t时刻的动作;wt+1为t+1时刻的网络权重;wt为t时刻的网络权重;αw为值函数网络的学习率;为对权重w求梯度;为基于奖励的状态动作值函数在权重参数w下使用t时刻状态执行动作at的值。优选的,所述目标网络按下式更新:θ′←τθ+(1-τ)θ′w′←τw+(1-τ)w′式中:θ′为目标策略网络权重;τ为目标网络软更新时的温度系数;θ为策略网络权重;w′为目标值函数网络权重;w为值函数网络权重。基于同一专利技术构思,本专利技术还提供了一种双评价器单执行器的强化学习系统,其特征在于,用于实现上述技术方案中任意一项所述的双评价器单执行器的强化学习方法,包括:初始化模块,用于初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;初始状态模块,用于根据初始化噪声函数在初始化环境中得到一个状态;生成样本模块,用于根据当前状态、当前策略和噪声函数计算动本文档来自技高网
...

【技术保护点】
1.一种双评价器单执行器的强化学习方法,其特征在于,包括:/nS1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;/nS2根据初始化噪声函数在初始化环境中得到一个状态;/nS3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;/nS4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;/nS5判断训练步数是否达到一幕的最大步数,若是,则更新幕数并执行S6,否则更新步数并执行S3;/nS6判断所述幕数是否达到设定的最大幕数,若是,则训练结束,否则初始化步数执行S2;/n其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。/n

【技术特征摘要】
1.一种双评价器单执行器的强化学习方法,其特征在于,包括:
S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数;
S2根据初始化噪声函数在初始化环境中得到一个状态;
S3根据当前状态、当前策略和噪声函数计算动作,执行所述动作观察奖励和下一个状态,将当前状态、动作、奖励和下一状态作为经验存到缓冲区;
S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数;
S5判断训练步数是否达到一幕的最大步数,若是,则更新幕数并执行S6,否则更新步数并执行S3;
S6判断所述幕数是否达到设定的最大幕数,若是,则训练结束,否则初始化步数执行S2;
其中,所述评价器包括基于奖励的评价器和基于人工势场的评价器。


2.如权利要求1所述的强化学习方法,其特征在于,所述S1初始化双评价器单执行器中的参数,并设置策略网络的损失函数中各评价器的比例系数,包括:
S101随机初始化基于奖励的评价器的值函数网络和执行器的策略网络;
S102初始化目标网络的权重;
S103初始化经验回放缓存区;
S104设置策略网络的损失函数中各评价器的比例系数。


3.如权利要求1所述的强化学习方法,其特征在于,所述策略网络的损失函数,如下式所示:



式中:J(μθ)为策略网络的损失函数;θ为执行器的策略网络参数;为状态空间;ρμ(s,γ1)为在折扣γ1下的状态分布;s为当前状态;γ1为奖励折扣系数;μθ(s)为策略函数;r(s,μθ(s))为在状态s时采取策略μθ能获得的奖励;β为双评价器的比例系数;ρμ(s,γ2)为在折扣γ2下的状态分布;γ2为势场值的折扣系数;qPF(s,μθ(s))为在状态s执行策略μθ时基于势场的状态-动作函数。


4.如权利要求1所述的强化学习方法,其特征在于,根据当前状态、当前策略和噪声函数按下式计算动作:
at=μ(s|θ)+Nt
式中:at为t时刻的动作;μ(s|θ)为当前状态s在当前策略下的结果;s为当前状态;θ为执行器的策略网络参数;Nt为根据噪声函数得到t时刻的噪声。


5.如权利要求1所述的强化学习方法,其特征在于,所述S4根据从所述缓冲区中采集的N个样本以及所述损失函数更新双评价器单执行器中的参数,包括:
S401根据从所述缓冲区中采集的N个样本,以及值函数网络更新公式更新基于奖励的评价器的值函数网络;
S402根据从所述缓冲区中采集的N个样本和预设的人工势场的状态-动作值函数,计算基于人工势场的评价器的状态-动作值函数的值;
S403根据从所述缓冲区中采集的N个样本和所述损失函数,以及策略网络参数更新公式更新执行器的策略网络;
S404根据策略网络参数θ和策略网络μ更新目标网络。


6.如权利要求5所述的强化学习方法,其特征在于,所述人工势场的状态-动作值函数,如下式所示:



式中:QPF(s,a)为人工势场的状态-动作值函数;s是当前状态;a为动作;U(s)为状态s下的势场值;γ2...

【专利技术属性】
技术研发人员:任维雅周仕扬任小广王彦臻易晓东
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1