一种针对不固定障碍的空间机械臂强化学习运动规划方法技术

技术编号:38592830 阅读:4 留言:0更新日期:2023-08-26 23:31
本发明专利技术公开了机械臂路径规划技术领域的一种针对不固定障碍的空间机械臂强化学习运动规划方法,包括如下具体步骤:S1、建立空间机械臂模型;S2、建立障碍物与空间机械臂操作目标模型:为运动规划算法提供目标与障碍信息;S3、设计空间机械臂运动规划任务的状态空间;S4、设计空间机械臂运动规划任务的动作空间;S5、设计空间机械臂运动规划任务的奖惩函数;S6、利用合适的强化学习方法所建立的模型进行训练求解;S7、得到空间机械臂运动规划结果,使用强化学习的方法来完成空间机械臂运动规划,在方法中考虑了空间中障碍物被碰撞后会漂浮的情况。的情况。的情况。

【技术实现步骤摘要】
一种针对不固定障碍的空间机械臂强化学习运动规划方法


[0001]本专利技术涉及机械臂路径规划
,尤其是涉及一种针对不固定障碍的空间机械臂强化学习运动规划方法。

技术介绍

[0002]目前空间技术飞速发展,各个国家都有空间布局,不断在空间任务中的提出更高地指标。在空间任务中,空间机械臂也是其中一个重要组成部分,可以帮助航天员完成例如搬运、维修等方面的操作,提升操作的精准性与安全性。随着空间任务的复杂度提升,空间机械臂也逐渐向着自主化、智能化机器人的方向发展。
[0003]在空间任务中,工作环境较为复杂,空间任务对作业的用时、距离最优性要求不高,但作业的精准度有极高的要求,需要准确无误的进行操作。且空间环境有微重力的特点,因此空间机械臂在执行动作前需要有合适地方法进行运动规划。
[0004]对于空间空间机械臂面对的障碍微重力的情况相关研究较少,对于动态障碍物的情况,多数研究基于视觉模块来处理,通过不同地视觉模块来完成信息的跟新。但对于空间机械臂而言,如果在工作中与障碍物发生了碰撞,漂浮的障碍物移动的速度、方向以及移动规律都很难预测,因此可以考虑通过使用强化学习的方法来解决这一问题。
[0005]因此,如何针对空间中微重力特点来针对空间机械臂进行运动规划,成了本领域技术人员亟待解决的技术问题。

技术实现思路

[0006]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本专利技术的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0007]因此,本专利技术目的是提供针对不固定障碍的空间机械臂强化学习运动规划方法,包括如下具体步骤:
[0008]S1、建立空间机械臂模型:用于进一步对运动规划算法进行设计,保证规划内容符合机械臂模型的动力学与运动学约束,步骤S3至S5的设计中都涉及机械臂模型;
[0009]S2、建立障碍物与空间机械臂操作目标模型:为运动规划算法提供目标与障碍信息;
[0010]S3、设计空间机械臂运动规划任务的状态空间:选取任务对象获取信息,以反映空间下的状态;
[0011]S4、设计空间机械臂运动规划任务的动作空间:动作空间的设计需要能够符合对象模型、可以合法执行、且能够完备描述任务,达到目标;
[0012]S5、设计空间机械臂运动规划任务的奖惩函数,由主线奖励、接近目标奖励、接近障碍惩罚、障碍移动惩罚来构成总奖励函数;
[0013]S6、利用合适的强化学习方法所建立的模型进行训练求解:由于S3、S4步骤中,任
务的状态空间与动作空间设计为连续状态空间与连续动作空间,需要选择可以处理连续空间的强化学习算法;
[0014]S7、得到空间机械臂运动规划结果:通过S6步骤的训练,形成相应的模型,在不同环境下依然可以达到躲避障碍、规划空间机械臂达到目标的任务。
[0015]可选的,所述步骤S2包括如下步骤:S21,为了保证空间操作的安全性,将每个障碍物等效为其最小外接球,且使用等效方法可以减少计算的复杂度;
[0016]S22,目标模型为运动规划算法提供了规划目标。
[0017]可选的,所述S3包括如下步骤:S31,由于机械臂在工作中连续执行动作,将任务的状态空间设计为连续状态空间;
[0018]S32,状态空间包括目标信息、机械臂信息与反应末端与目标之间距离,具体如公式(1)所示;
[0019]S=[goal
pos
,goal
quat
,pos
relative
,ee
pos
,ee
quat
,q
gripper
]ꢀꢀꢀꢀ
(1)
[0020]其中goal
pos
、goal
quat
分别表示目标的位置与姿态信息,pos
relative
=goal
pos

ee
pos
表示机械臂末端与目标之间的欧氏距离,便于度量主线目标的达成情况,ee
pos
、ee
quat
分别表示空间机械臂末端的位置与姿态信息,q
gripper
表示空间机械臂末端装载的作动机构的状态信息。
[0021]可选的,所述S4包括如下步骤:S41,由于空间机械臂在工作时,每个关节平滑连续转动,因此将动作空间设计为连续动作空间;
[0022]S42,动作空间主要反应机械臂在关节空间与笛卡尔空间下的位姿,具体如公式2所示;
[0023]A=[θ
i
,gripper]ꢀꢀꢀꢀꢀꢀ
(2)
[0024]其中,θ
i
表示空间机械臂各个关节的关节角,根据S1中机械臂的模型,可以通过正向运动学获得空间机械臂末端在笛卡尔空间下的位姿信息;gripper表示机械臂末端装持的机构的位姿信息。
[0025]可选的,所述S5包括如下步骤:S51,主线奖励设计思路,假设目标goal位于一有高度的平面上,空间机械臂需要抓持住该物体并搬运,若能完成此任务则给与空间机械臂一个正向奖励,内容具体如公式(3):
[0026]R
lift
=(h
goal

h
table

goal
size
)>0
ꢀꢀꢀꢀ
(3)
[0027]得到的R
lift
为一表示任务是否完成的布尔值(0或1),在子奖励中不体现权重,最终在步骤S55的总奖励设计中集中体现各项权重;
[0028]S52,接近目标奖励设计思路,接近目标奖励设计为一个使得动作规划有目标倾向性的塑性奖励,即当空间臂末端距离目标越近时,接近目标奖励越大,如公式(4):
[0029][0030]接近目标奖励R
good_dis
中,d
ee
、d
l
、d
r
分别表示目标中心与机械臂末端、抓持机构左侧、抓持机构右侧的欧氏距离,m
goal_dis
是用于调节此项奖励变化范围的调节系数,tanh为激活函数;如公式(4),接近目标奖励R
good_dis
的范围在(0,1),在步骤S55中统一设计权重;
[0031]S53,接近障碍惩罚设计思路,接近障碍惩罚用于躲避空间中的障碍,设计了机械臂在执行任务过程中趋向于接近障碍时的塑性惩罚项,如公式(5):
[0032][0033]接近障碍惩罚R
ob_dis
中,为使当机械臂末端移动到距离障碍物等效的球体半径2倍范围内时,才产生接近障碍惩罚,而距离障碍物较远时空间机械臂可以自由探索。其中,d
o_ee
、d
o_l<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对不固定障碍的空间机械臂强化学习运动规划方法,其特征在于:包括如下具体步骤,S1、建立空间机械臂模型:用于进一步对运动规划算法进行设计,保证规划内容符合机械臂模型的动力学与运动学约束,步骤S3至S5的设计中都涉及机械臂模型;S2、建立障碍物与空间机械臂操作目标模型:为运动规划算法提供目标与障碍信息;S3、设计空间机械臂运动规划任务的状态空间:选取任务对象获取信息,以反映空间下的状态;S4、设计空间机械臂运动规划任务的动作空间:动作空间的设计需要能够符合对象模型、可以合法执行、且能够完备描述任务,达到目标;S5、设计空间机械臂运动规划任务的奖惩函数,由主线奖励、接近目标奖励、接近障碍惩罚、障碍移动惩罚来构成总奖励函数;S6、利用合适的强化学习方法所建立的模型进行训练求解:由于S3、S4步骤中,任务的状态空间与动作空间设计为连续状态空间与连续动作空间,需要选择可以处理连续空间的强化学习算法;S7、得到空间机械臂运动规划结果:通过S6步骤的训练,形成相应的模型,在不同环境下依然可以达到躲避障碍、规划空间机械臂达到目标的任务。2.根据权利要求1所述的一种针对不固定障碍的空间机械臂强化学习运动规划方法,其特征在于:所述步骤S2包括如下步骤:S21,为了保证空间操作的安全性,将每个障碍物等效为其最小外接球,且使用等效方法可以减少计算的复杂度;S22,目标模型为运动规划算法提供了规划目标。3.根据权利要求1所述的一种针对不固定障碍的空间机械臂强化学习运动规划方法,其特征在于:所述S3包括如下步骤:S31,由于机械臂在工作中连续执行动作,将任务的状态空间设计为连续状态空间;S32,状态空间包括目标信息、机械臂信息与反应末端与目标之间距离,具体如公式(1)所示;S=[goal
pos
,goal
quat
,pos
relative
,ee
pos
,ee
quat
,q
gripper
]
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中goal
pos
、goal
quat
分别表示目标的位置与姿态信息,pos
relative
=goal
pos

ee
pos
表示机械臂末端与目标之间的欧氏距离,便于度量主线目标的达成情况,ee
pos
、ee
quat
分别表示空间机械臂末端的位置与姿态信息,q
gripper
表示空间机械臂末端装载的作动机构的状态信息。4.根据权利要求1所述的一种针对不固定障碍的空间机械臂强化学习运动规划方法,其特征在于:所述S4包括如下步骤:S41,由于空间机械臂在工作时,每个关节平滑连续转动,因此将动作空间设计为连续动作空间;S42,动作空间主要反应机械臂在关节空间与笛卡尔空间下的位姿,具体如公式2所示;A=[θ
i
,gripper]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,θ
i
表示空间机械臂各个关节的关节角,根据S1中机械臂的模型,可以通过正向运动学获得空间机械臂末端在笛卡尔空间下的位姿信息;gripper表示机械臂末端装持的机构的位姿信息。5.根据权利要求1所述的一种针对不固定障碍的空间机械臂强化学习运动规划方法,
其特征在于:所述S5包括如下步骤:S51,主线奖励设计思路,假设目标goal位于一有高度的平面上,空间机械臂需要抓持住该物体并搬运,若能完成此任务则给与空间机械臂一个正向奖励,内容具体如公式(3):R
lift
=(h
goal

h
table

goal
size
)>0
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)得到的R

【专利技术属性】
技术研发人员:张子萱王春彦施熠
申请(专利权)人:北京熠视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1