用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法技术

技术编号:20682242 阅读:56 留言:0更新日期:2019-03-27 19:19
本发明专利技术涉及一种用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法,使用多头自驱动架构提高评判家评估性能的同时,提高执行者对环境探索的效率,并且能够一定程度上优化深度确定性策略梯度(DDPG)算法,缓解上述环境复杂性和随机性等不利影响,加速了DDPG算法的收敛,在训练稳定的基础上提高了性能。实验证明,本发明专利技术能够在实验数据集(模拟环境)达到训练速度的最快、性能最佳、以及稳定性最好的三个优点,在具体数值上超过了已知解决方案。

【技术实现步骤摘要】
用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
本专利技术涉及用于训练智能体的一种自适应双自驱动深度确定性策略梯度强化学习方法。
技术介绍
:深度强化学习在一系列具有挑战性的问题上取得巨大成功,例如无人驾驶、自动化机器人、智能语音对话系统等。深度确定性策略梯度(DDPG)作为一种不基于环境建模的离线强化学习算法,通过使用具有经验回放的执行者-评判家体系结构,取得了比传统方法更高的采样效率,并且因为其在连续控制任务中达到最优性能而获得越来越普遍的应用。但是,DDPG容易受到环境复杂性和随机性的影响,可能会导致性能不稳定并且无法保证训练结果收敛。这意味着需要大量的超参数调节工作才能得到好的结果。为了改进DDPG的效果,现有的方法中MA-BDDPG利用多头自驱动DQN作为评判家使得经验回放的样本利用效率得到了提高(出处:[KalweitandBoedecker,2017]GabrielKalweitandJoschkaBoedecker.Uncertainty-drivenimaginationforcontinuousdeepreinforcementlearning.In本文档来自技高网...

【技术保护点】
1.一种用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法,采用多个评判家和多个执行者,运行流程包括如下步骤:当观察到一个状态时,每个执行者头产生一个动作向量,组成K维动作向量集;给定相同状态的情况下,评判家将每个动作向量拼接到自身共享隐藏层中并逐一产生Q值,进而生成中间结果Q值矩阵,维度K×K;与此同时置信度模块输出置信度向量c,维度为K;E‑评判家层同时结合Q值矩阵和置信度向量这两个张量进行加权操作,产生一个E‑Q值向量,维度为K,代表着每个动作向量的潜在价值;最后E‑执行者层根据E‑Q值向量,选取其中对应最大E‑Q值的E‑动作,即具有最大潜能以获得最大奖励的动作,与环境当前的状...

【技术特征摘要】
1.一种用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法,采用多个评判家和多个执行者,运行流程包括如下步骤:当观察到一个状态时,每个执行者头产生一个动作向量,组成K维动作向量集;给定相同状态的情况下,评判家将每个动作向量拼接到自身共享隐藏层中并逐一产生Q值,进而生成中间结果Q值矩阵,维度K×K;与此同时置信度模块输出置信度向量c,维度为K;E-评判家层同时结合Q值矩阵和置信度向量这两个张量进行加权操作,产生一个E-Q值向量,维度为K,代表着每个动作向量的潜在价值;最后E-执行者层根据E-Q值向量,选取其中对应最大E-Q值的E-动作,即具有最大潜能以获得最大奖励的动作,与环境当前的状态进行交互,之后获得奖励,以训练智能体。其中K为大于2的自然数。2.如权利要求1所述的自适应双自驱动深度确定性策略梯度强化学习方法,其特征在于,还包括如下步骤:预先设置步骤,设置头数量K。3.如权利要求1所述的自适应双自驱动深度确定性策略梯度强化学习方法,其特征在于,还包括如下步骤:随机初始化具有K个头的评判家网络和执行者网络并将权重复制到各自的目标网络参数即其中θ指的是模型的参数,比如神经网络的所有参数,右上标Q,μ,Q′,μ′分别表示评判家,执行者,目标评判家,目标执行者。4.如权利要求1所述的自适应双自驱动深度确定性策略梯度强化学习方法,其特征在于,还包括如下步骤:初始化置信度网络θC。5.如权利要求1所述的自适应双自驱动深度确定性策略梯度强化学习方法,其特征在于,包括如下步骤:根据下式选取动作:at指t时刻下真正选取出来执行的动作;指t时刻下第i个评判家头的置信度;Qi指第i个评判家头的评估值——Q值,这里为一个函数的输出,参数为输入为状态和动作;st为t时刻下环境的状态;动作的选取来自第k个执行者头μk,也是一个函数的输出,参数...

【专利技术属性】
技术研发人员:袁春郑卓彬朱新瑞
申请(专利权)人:清华大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1