当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于机械臂姿态活动自由度的强化学习方法技术

技术编号:39514195 阅读:9 留言:0更新日期:2023-11-25 18:50
本发明专利技术提供了一种基于机械臂姿态活动自由度的强化学习方法,涉及机械臂智能控制领域

【技术实现步骤摘要】
一种基于机械臂姿态活动自由度的强化学习方法


[0001]本专利技术涉及机械臂智能控制领域,具体为一种基于机械臂姿态活动自由度的强化学习方法


技术介绍

[0002]2021
年,
Zehong
等人针对强化学习方法训练机械臂任务过程中收敛速度慢,收敛难度高的问题,提出了使用人类经验进行辅助评估的方法

通过采集一定量的人类控制下机械臂完成特定任务的操作数据,以监督学习的方式训练获得一个能够判断操作合理性的评判智能体,之后在强化学习的训练阶段,通过参考评判智能体的反馈,以引导智能体做出类似人类操控过程的决策过程

[0003]2021
年,
Ali
等人通过将机械臂任务按照处理流程进行拆分,并以人类关于处理过程的先验知识建立起行为树,充分简化了智能体的决策空间,从而完成简单的人机协作任务

[0004]空间探索方面,在
2016
年的
ICLR
会议上,
Tom
等人提出借助
TD

error
的方式,调整经验数据池中数据重放的采样频率,以更高的概率采样
TD

error
较大的数据,即估计与实际计算差别较大的一部分数据

[0005]2017
年,
Andrychowicz
提出
HER
算法,在环境中设定一个短期的实现目标,通过对过往经验数据中的目标值进行修改,从而提高一部分的低价值数据的试错回报,以从错误数据中获取到正确的经验

[0006]综上所述,现有技术存在的问题是:传统的强化学习方法解决机械臂相关任务的过程中,存在探索难度大

收敛速度慢

收敛效果不佳的问题,简单地套用强化学习算法解决复杂的机械臂任务具有一定的难度

为满足复杂的任务需求,多采用一定的人类经验来对处理流程进行简化,并在一定程度上简化动作空间,如只控制机械臂末端位置的运动,此类方法的具体控制指令仍然由逆向运动学计算得出,无法充分发挥强化学习决策的灵活性优势

而强化学习智能体的探索算法在应用在机械臂任务中时会存在较大的局限性
。PER
算法针对算法原理的改进没有充分考虑机械臂的物理运动特性,且巨大的决策空间使得该策略难以发挥作用;
HER
算法对目标值的要求难以在多种机械臂任务中广泛推广


技术实现思路

[0007]针对上述技术问题,本专利技术提出了一种基于机械臂姿态活动自由度的强化学习方法

基于一种机械臂灵活度的评价指标,能通过单帧的机械臂状态数据,估计多自由度机械臂的蜷缩状况,为机械臂任务的强化学习训练方法提供一种较为通用的探索优化方法,具体技术方案如下:
[0008]S1
:组件构建机械臂的三维仿真模型;
[0009]S2
:在机械臂各关节的中心位置设置锚点,并调整控制锚点旋转,实时查看机械臂动态变化,以建立机械臂的运动模型与控制模型;
[0010]S3
:在仿真场景中设置支撑平台和需抓取的目标物块;
[0011]S4
:搭建强化学习环境:
[0012]S41
:建立观测空间
[0013][
Δ
x
target
,
Δ
y
target
,
Δ
z
target
,angles],
[0014]式中,
Δ
x
target

Δ
y
target

Δ
z
garget
分别表示机械臂末端与目标物块的相对位置,
angles
表示机械臂各个关节的夹角;
[0015]S42
:基于观测空间观测机械臂与目标物块的相对位置和机械臂各个关节的夹角;
[0016]S43
:通过控制机械臂各关节逆时针旋转

保持当前位置和顺时针旋转,建立机械臂的动作空间;
[0017]S44
:设置基础奖励函数
R
T

[0018]R
T


e
Distance

[0019]式中,
Distance
为机械臂末端与目标物块的直线距离;
[0020]S5
:基于
SAC
算法搭建强化学习模型;
[0021]S51
:引入中心关节夹角正弦值
λ
,将观测空间拓展为
[0022][
Δ
x
target

Δ
y
target

Δ
z
target

angles

λ
][0023]S52
:将
λ
引入
R
T
得到扩展奖励函数
R

[0024]R

ωλ
+(1

ω
)R
T

[0025]式中,
ω

λ
在抓取任务中的考量权重;
[0026]S53
:在仿真环境中进行抓取,并记录每次抓取的经验数据;
[0027]S54
:使用
SAC
算法与仿真场景进行交互,获取所述经验数据存入经验池,再从经验池中采集经验数据
(s
t

a
t

s
t+1

r
t
)
对所述
SAC
算法进行网络更新;
[0028]其中,
s
t

t
时刻的状态,
a
t

t
时刻的动作,
s
t+1

t+1
时刻的状态,
r
t

t
时刻根据
R
获得的奖励值;
[0029]S55
:基于最优贝尔曼方程,使用
[0030]U
t

r
t
+
γ
v(s
t+1
)
[0031]作为
s
t
的真实动作价值估计;
[0032]式中,
γ
为强化学习奖励折扣因子,
v(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于机械臂姿态活动自由度的强化学习方法,其特征在于,包括:
S1
:构建机械臂的三维仿真模型;
S2
:在机械臂各关节的中心位置设置锚点,调整控制锚点旋转,实时查看机械臂动态变化,以建立机械臂的运动模型与控制模型;
S3
:在仿真场景中设置支撑平台和需抓取的目标物块;
S4
:搭建强化学习环境:
S41
:建立观测空间
[
Δ
x
target

Δ
y
target

Δ
z
target

angles]
,式中,
Δ
x
target

Δ
y
target

Δ
z
target
分别表示机械臂末端与目标物块的相对位置,
angles
表示机械臂各个关节的夹角;
S42
:基于观测空间观测机械臂与目标物块的相对位置和机械臂各关节的夹角;
S43
:通过控制机械臂各关节逆时针旋转

保持当前位置和顺时针旋转,建立机械臂的动作空间;所述逆时针旋转

保持当前位置和顺时针旋转的范围为
S44
:设置基础奖励函数
R
T

R
T


e
Distance
,式中,
Distance
为机械臂末端与目标物块的直线距离;
S5
:基于
SAC
算法搭建强化学习算法:
S51
:引入中心关节夹角正弦值
λ
,将观测空间拓展为
[
Δ
x
target

Δ
y
target

Δ
z
target

angles

λ
]

S52
:将
λ
引入
R
T
得到扩展奖励函数
R

R

ωλ
+(1

...

【专利技术属性】
技术研发人员:杨红雨王进林季玉龙朱珑涛王一何扬周文涛
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1