一种约束桁架内机械臂强化学习避障规划与训练方法技术

技术编号:39307457 阅读:14 留言:0更新日期:2023-11-12 15:55
本发明专利技术公开了约束桁架内机械臂强化学习避障规划与训练方法包括:S1确定机械臂的DH参数以及约束桁架与机械臂相对位置关系;S2完成机械臂数字孪生训练场景的构建;S3完成机械臂运动学模型的搭建;S4根据步骤S2、S3的结果,完成离散点模仿学习的训练S5根据步骤S4结果,完成空间中其他位置的强化学习训练;S6根据步骤S4、S5的结果,完成全场景的训练,搭建机械臂训练操作的实物系统,实现一比一的数字孪生与机械臂操作的演示测试。本发明专利技术将强化学习与模仿学习相结合,让机械臂不是从零开始学习,给予它人类操作演示样本,并在学习人类演示的基础上,再进行强化学习,既能大大加快训练速度,又能得到超越当前水准的机械臂。能得到超越当前水准的机械臂。能得到超越当前水准的机械臂。

【技术实现步骤摘要】
一种约束桁架内机械臂强化学习避障规划与训练方法


[0001]本专利技术属于机械臂控制
,特别涉及一种约束桁架内机械臂强化学习避障规划与训练方法。

技术介绍

[0002]近年来,以机器学习为代表的人工智能技术得到了极其快速的发展,并在计算机视觉、语音识别、机器人等领域获得了日益广泛的成功应用。目前,空间机械臂人工智能技术的研究与应用尚处于发展初期。面对天地传输时延大及空间环境高动态变化等因素带来的一系列挑战,人工智能将成为以航天器在轨装配与维护、太空垃圾清理等为主体的后续空间在轨操控任务的重要支撑技术。结合人工智能技术,空间机械臂具备自主完成空间智能感知、规划和控制的能力,能够显著提升其执行空间操控任务的实时性、准确性、可靠性、安全性和完成在轨任务的工作效率。
[0003]目前空间机械臂避障的智能控制方法训练主要采用强化学习实现,如:1、基于深度强化学习的机械臂避障路径规划研究(李广创),通过三层神经网络离线训练三自由度焊接机械臂运动,而面向在轨精细操作的机械臂一般为全方位机械臂,即,至少具有六个自由度,而强化学习在自由度增多后会陷入维数灾难,训练时长大幅增加,甚至训练失败。
[0004]2、分层强化学习研究及其在机械臂避障问题中的应用(金旭东),类似的,也面向三自由度机械臂进行强化学习的避障训练,且该论文中指出的三自由度为冗余机械臂的概念不准确,全方位操作机械臂冗余自由度为六自由度,且文中分层结构不充分探索不能保证求解质量,过分探索则仍然难以解决维数灾难的问题。
[0005]3、基于用户指导的机械臂强化学习任务规划与学习方法(史民浩),论文中指出有较多任务需要消耗用户较多的时间进行执行结果反馈,难以高效进行训练,训练时间长。
[0006]因此,现有的机械臂避障技术还有待于改进。

技术实现思路

[0007]专利技术目的:为了克服以上不足,本专利技术的目的是提供一种约束桁架内机械臂强化学习避障规划与训练方法,将强化学习与模仿学习相结合,让机械臂不是从零开始学习,给予它人类操作的演示样本,并在学习人类演示的基础上,再进行强化学习,这样既能大大加快训练速度,又能得到超越当前水准的机械臂。
[0008]技术方案:为了实现上述目的,本专利技术提供了一种约束桁架内机械臂强化学习避障规划与训练方法,包括:具体的强化学习避障规划与训练方法如下:S1):初始条件设定,确定机械臂的DH参数以及约束桁架与机械臂相对位置关系;所述约束桁架与机械臂相对位置关系为机械臂需要在桁架中运动、操作,但不可碰到桁架,且自身关节不可互相发生碰撞;S2):根据步骤S1)的设定,完成机械臂数字孪生训练场景的构建,即采用视景建模
软件,建立机械臂避障操作的数字孪生场景,所述数字孪生场景的搭建包括模型优化与处理、碰撞检测设计、图形用户界面的开发三部分;S3):根据步骤S1)的设定,完成机械臂运动学模型的搭建,即根据机械臂DH参数,可得到各关节的变换矩阵,依次对各关节的变换矩阵相乘,获得正运动学公式;S4):根据步骤S2)、S3)的结果,完成离散点模仿学习的训练;即采用模仿学习方案对机械臂进行智能训练;在数字孪生的机械臂上添加一个用于录制人为演示样本组件,在人为录制时,运行场景进行操作,用户可拖动机械臂末端在场景中运动,同时确保机械臂关节之间无碰撞,机械臂关节与约束桁架无碰撞,每条轨迹从初始位置到达目标位置,拖动到合适的次数后,保存样本,让机械臂获取所用户给与的轨迹,机械臂通过生成对抗模仿学习获得多层神经网络来描述模仿到的能力;S5):根据步骤S4)结果,完成空间中其他位置的深度强化学习训练;所述深度强化学习训练根据环境的状态变量state,输出特定的动作action,并根据环境根据该动作获得的奖励reward,更新神经网络的参数;使用eval和target两套神经网络表示策略函数actor和值函数critic;Actor接收环境信息,输出对应的动作变量,critic网络根据相应的动作变量计算奖励值;S6):根据步骤S4)、S5)的结果,完成全场景的训练,搭建机械臂训练操作的实物系统,实现一比一的数字孪生与实物机械臂操作的演示测试。
[0009]其中,所述的约束桁架内机械臂强化学习避障规划与训练方法,所述机械臂采用6关节机械臂,可以全方位操作,其DH参数设定规则如下: S101):对每个连杆i(i=1、

,n

1),完成S102)至S105)步;连杆1即为基座;S102):每个连杆i建立一个坐标系;建立连杆i的坐标系的z轴为关节轴,以关节i+1的运动轴正向为z
i
轴;S103):建立连杆i坐标系的原点O
i
:若z
i
轴和z
i
‑1轴相交,则以两轴交点为原点;若z
i
轴和z
i
‑1轴异面或平行,则以两轴的公垂线与z
i
轴的交点为原点;S104):建立连杆i坐标系的x轴,即x
i
轴,按建立x
i
轴,即使x
i
轴与z
i
‑1轴及z
i
轴同时垂直;若z
i
‑1轴与z
i
轴平行,则以它们的公垂线为x
i
轴;S105):建立连杆i坐标系的y轴,即y
i
轴,根据已建立的x
i
轴和z
i
轴,按右手定则建立y
i
轴,即令;定义:杆件扭角α
i
:绕x
i
轴转动,从z
i
‑1轴旋转到z
i
轴的转角;杆件长度a
i
:沿x
i
轴,从z
i
‑1轴移动到z
i
轴的距离;关节距离d
i
:沿z
i
‑1轴,从x
i
‑1轴移动到x
i
轴的距离;关节转角θ
i
:绕z
i
‑1轴转动,从x
i
‑1轴旋转到x
i
轴的角度。
[0010]本专利技术所述的约束桁架内机械臂强化学习避障规划与训练方法,所述步骤S2)中模型优化与处理是指将机械臂与约束桁架通过三维建模软件导入,并对其进行优化和处理,具体的优化与处理过程如下:S201):粗优化,即以最快的速度对模型中的大型零件进行大规模减面,以免在精优化阶段滞留过多的计算量;S202):部件优化,即进入部件后,拆分出各种零件,将一些隐藏在内部的零件直接
消除,对于一些规则的零件,可以直接简化;对于具有复杂边界的零件视对航天器整体形状的影响程度大小进行迭代优化,直到减面率收敛到0%;如细长圆柱体,可以直接简化为棱柱;S203):精优化,即对一些小零件,可以进行模型迭代优化,直到减面率优化收敛到0%,这样就能节省大量内存并显著提高软件流畅度。例如螺钉,可以对螺钉头部模型迭代优化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种约束桁架内机械臂强化学习避障规划与训练方法,其特征在于:包括:具体的强化学习避障规划与训练方法如下:S1):初始条件设定,确定机械臂的DH参数以及约束桁架与机械臂相对位置关系;所述约束桁架与机械臂相对位置关系为机械臂需要在桁架中运动、操作,但不可碰到桁架,且自身关节不可互相发生碰撞;S2):根据步骤S1)的设定,完成机械臂数字孪生训练场景的构建,即采用视景建模软件,建立机械臂避障操作的数字孪生场景,所述数字孪生场景的搭建包括模型优化与处理、碰撞检测设计、图形用户界面的开发三部分;S3):根据步骤S1)的设定,完成机械臂运动学模型的搭建,即根据机械臂DH参数,可得到各关节的变换矩阵,依次对各关节的变换矩阵相乘,获得正运动学公式;S4):根据步骤S2)、S3)的结果,完成离散点模仿学习的训练;即采用模仿学习方案对机械臂进行智能训练;在数字孪生的机械臂上添加一个用于录制人为演示样本组件,在人为录制时,运行场景进行操作,用户可拖动机械臂末端在场景中运动,同时确保机械臂关节之间无碰撞,机械臂关节与约束桁架无碰撞,每条轨迹从初始位置到达目标位置,拖动到合适的次数后,保存样本,让机械臂获取所用户给与的轨迹,机械臂通过生成对抗模仿学习获得多层神经网络来描述模仿到的能力;S5):根据步骤S4)结果,完成空间中其他位置的深度强化学习训练;即深度强化学习根据环境的状态变量state,输出特定的动作action,并根据环境根据该动作获得的奖励reward,更新神经网络的参数;使用eval和target两套神经网络表示策略函数actor和值函数critic;Actor接收环境信息,输出对应的动作变量,critic网络根据相应的动作变量计算奖励值;Target神经网络的参数采用软更新的方式进行,具体如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式中,为需要更新的参数集合,为权值,为eval神经网络中actor的参数,表示s状态下,参数下产生行为a的网络;为eval神经网络中critic的参数,表示参数下产生s状态的概率;为target神经网络中actor的参数,表示s状态下,参数下产生行为a的网络;为target神经网络中critic的参数,表示参数下产生s状态的概率;eval神经网络中actor部分采用policy gradient的方法进行优化: (3)式中,s为状态,J为优化指标,

表示梯度运算,表示求优化指标J在参数下的梯度,为样本总数,j=1,

,;表示网络在行为a下的梯度,表示概率在参数下的梯度,表示 参数下产
生s状态的概率;eval神经网络中的critic采用类似于监督学习的方法,使用均方根误差定义loss:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,为样本总数,j=1,

,,s
j
表示样本j状态,a
j
表示样本j行为,Q(s
j,
a
j

Q
)表示s
j
状态下,参数下产生行为a
j
的概率,y
j
为奖励概率,为随机概率,为权值,表示参数下产生s
j+1
状态的概率,表示s
j+1
状态下,参数下产生概率的网络;采用梯度下降的方法优化网络参数;在物体位置随机初始化时,控制机械臂将末端关节移动至物体上方指定位置,为此算法对状态获取机制与奖励机制进行设计;由环境信息生成的状态变量如下式所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)式中,为到之间的距离状态变量,是关节i的三维坐标,是关节i对应的物体中心点的三维坐标;为到之间的距离状态变量,是机械臂基座的三维坐标;为到之间的距离状态变量,是关节i对应的物体下方点的三维坐标,是关节i对应的末端关节上方点的三维坐标;为到之间的距离状态变量,是碰撞发生情况;使用奖励机制引导机械臂做出正确动作,共分为两个阶段;第一个阶段将机械臂末端关节引导到物体上方位置:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)式中,1,2,3,4均为奖励值;i表示关节,为在轴上的值;为在轴上的值;为抓手平面的法向量;为物体上表面的法向量;第二阶段引导机械臂末端关节垂直向上移动:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)是关节i对应的物体下方点的三维坐标,是关节i对应的末端关节上方点的三维坐标;和分别为第二阶段的两个奖励值;S6):根据步骤S4)、S5)的结果,完成全场景的训练,搭建机械臂训练操作的实物系统,实现一比一的数字孪生与实物机械臂操作的演示测试。2.根据权利要求1所述的约束桁架内机械臂强化学习避障规划与训练方法,其特征在于:所述步骤S2)中模型优化与处理是指将机械臂与约束桁架通过三维建模软件导入,并对其进行优化和处理,具体的优化与处理过程如下:S201):粗优化,即以最快的速度对模型中的大型零件进行大规模减面,以免在精优化阶段滞留过多的计算量;S202):部件优化,即进入部件后,拆分出各种零件,将一些隐藏在内部的零件直接消除,对于一些规则的零件,可以直接简化;对于具有复杂边界的零件,视其对航天器整体形状的影响程度大小进行模型迭代优化,直到减面率收敛到0%;S203):精优化,即对一些小零件,可以进行模型迭代优化,直到减面率优化收...

【专利技术属性】
技术研发人员:贺亮侯月阳卢山张文婧张世源宋婷
申请(专利权)人:上海航天控制技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1