一种基于随机离散策略-评价网络的强化学习机器人连续动作控制方法技术

技术编号:37707945 阅读:27 留言:0更新日期:2023-06-01 23:58
本发明专利技术涉及一种基于随机离散策略

【技术实现步骤摘要】
一种基于随机离散策略

评价网络的强化学习机器人连续动作控制方法


[0001]本专利技术涉及一种基于随机离散策略

评价网络的强化学习机器人连续动作控制方法,属于无人系统与强化学习
,尤其涉及基于策略的强化学习机器人控制方法。

技术介绍

[0002]近年来,随着人工智能技术的发展与应用,无人机、无人车、智能机器人等自主智能系统正在快速走进社会,为人们的工作和生活提供了极大的便利。同时,随着机器人领域需求的不断提升,机器人的结构也开始变得越来越复杂,一些仿生结构的机器人如四足机器狗、六足机器人、仿人机器人等正如雨后春笋般涌现。然而,结构的复杂化给机器人控制算法的设计带来了很大的难度。对于仿人机器人等机器人构型来说,即使是站立、行走等简单动作,也需要极为复杂精巧的机器人运动学控制算法作为支撑,以保证机器人应用过程中的安全性。而对于一些更为复杂的任务,如机器人跳舞、机器人足球赛等,传统方法很难设计高效且可靠的控制算法,在浪费大量人力的同时,机器人控制也难以达到理想的效果。
[0003]因此,近年来,国本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于随机离散策略

评价网络的强化学习机器人连续动作控制方法,其特征在于该方法的步骤包括:步骤1,构建基于单维度解耦离散化的单维离散强化学习模型;步骤2,根据步骤1构建的单维离散强化学习模型,构造分解策略—集中评价多维度离散强化学习神经网络架构;步骤3,基于最大熵强化学习训练步骤2构建的神经网络架构;步骤4,将步骤3训练后的神经网络架构作为实际机器人控制最优策略,完成机器人的强化学习控制。2.根据权利要求1所述的一种基于随机离散策略

评价网络的强化学习机器人连续动作控制方法,其特征在于:所述的步骤1中,单维度解耦离散化所构成的强化学习离散动作空间为其定义如下:其中,m为动作维度,为第m个动作维度的第n个离散动作,每个离散动作空间均包含N个等差的离散动作,在机器人的M个动作维度中,每个动作维度的离散动作空间均对应一个离散策略;对于第m个动作维度离散的动作空间其对应的离散策略为π
m
:=π
m
(a
m
(t)|s(t)),m∈{1,2,...,M},即在任意时刻t的状态s(t)下,中的任意离散动作所对应的概率。3.根据权利要求1或2所述的一种基于随机离散策略

评价网络的强化学习机器人连续动作控制方法,其特征在于:所述的步骤1中,构建的单维离散强化学习模型为单维马尔可夫决策过程四元组其中为机器人状态空间,为维度m的离散化动作空间,p
m
为单维马尔可夫转移概率,即除维度m外其他维度策略固定时,基于m维动作的的状态转移概率:r
m
为单维奖励值函数r
m
(s(t),a
m
(t)):其中,是除维度m之外其他维度的动作,其由除维度m之外其他维度的策略采样生成:4.根据权利要求3所述的一种基于随机离散策略

评价网络的强化学习机器人连续动作控制方法,其特征在于:单维离散强化学习模型的最优策略为其通过最大化以下期望回报得到:
其中,p
ini
:S

[0,1]为初始状态s(0)的分布,γ∈[0,1]为强化学习奖励函数折扣率。5.根据权利要求1所述的一种基于随机离散策略

评价网络的强化学习机器人连续动作控制方法,其特征在于:所述的步骤2中,分解策略—集中评价多维度离散强化学习神经网络架构包括集中评价网络模块和分解策略网络模块。6.根据权利要求4或5所述的一种基于随机离散策略

评价网络的强化学习机器人连续动作控制方法,其特征在于:所述的分解策略网络模块包括分解策略网络及其对应的目标分解策略网络,对应网络参数θ
π
,θ

π
,其中分解策略网络负责输出各维度的离散策略π(a
m
(t)|s(t);θ
π
)并对其进行优化以使其趋近于最优策略π
*
(a
m
(t)|s(t)):分解策略网络输入为状态特征s(t),输出为策略矩阵Π(s(t);θ
π
)∈[0,1]
M
×
N<...

【专利技术属性】
技术研发人员:孙健张野晨王钢陈杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1