当前位置: 首页 > 专利查询>中山大学专利>正文

一种冗余机器人自碰撞规避控制方法技术

技术编号:39670263 阅读:9 留言:0更新日期:2023-12-11 18:35
本发明专利技术公开了一种冗余机器人自碰撞规避控制方法,涉及机器人控制规划领域

【技术实现步骤摘要】
一种冗余机器人自碰撞规避控制方法


[0001]本专利技术涉及机器人控制规划
,更具体地,涉及一种冗余机器人自碰撞规避控制方法


技术介绍

[0002]机器人在工业生产中被广泛应用,可以代替人类完成重复性

危险性

高精度的生产工作,提高生产效率和质量

机器人的运动规划是机器人控制中的重要环节,其目标是规划出一条从起点到终点的安全

高效

平滑的轨迹

然而,由于机器人的自身结构和工作环境的复杂性,机器人在运动过程中可能会发生自碰撞,即身体的两个部位发生碰撞,这些碰撞可能会导致规划目标不能完成,甚至使机器人失去平衡或控制,对机器人和工作环境产生损坏

因此,自碰撞规避是机器人运动规划中必须考虑的问题之一

[0003]然而,现有的自碰撞规避控制方法由于关节多自由度高而产生的高维度配置空间需要花费大量的计算时间,不适用于实时的运动规划,特别是对于冗余机器人而言,冗余机器人的额外自由度使相同的末端执行器姿势可以对应无限数量的反向运动学(
IK
)解,导致难以确定适当的
IK
解来避免自我碰撞,且满足自碰避免的约束十分复杂


技术实现思路

[0004]本专利技术为克服上述现有技术所述的额外自由度使得相同的末端执行器姿势可以对应无限数量的反向运动学解,导致难以避免自我碰撞的缺陷,提供一种冗余机器人自碰撞规避控制方法

[0005]为解决上述技术问题,本专利技术的技术方案如下:第一方面,一种冗余机器人自碰撞规避控制方法,包括:基于伪逆方法,建立用于控制冗余机器人的关节速度的伪逆求解器,并引入干扰项;建立强化学习求解器并进行训练;响应于训练完成的所述强化学习求解器输出的干扰项,所述伪逆求解器生成反向运动学解;根据所述反向运动学解控制冗余机器人的关节速度,调整所述冗余机器人的末端执行器至目标点

[0006]第二方面,一种计算机可读存储介质,所述存储介质上存储有至少一条指令

至少一段程序

代码集或指令集,所述至少一条指令

至少一段程序

代码集或指令集由处理器加载并执行,以实现第一方面所述方法

[0007]与现有技术相比,本专利技术技术方案的有益效果是:本专利技术公开了一种冗余机器人自碰撞规避控制方法及存储介质,所述方法关注的是直接操作末端执行器的场景,引入了强化学习求解器,通过强化学习求解器输出干扰项以对伪逆求解器施加干扰而非直接控制机器人,由伪逆求解器将干扰合并到解析过程以获
得反向运动学解,以避免机器人自碰撞问题

相较于现有技术,本专利技术能够引导冗余机器人达到更多目标,同时保持机器人平稳性,适用于三维空间,有效避免了额外自由度使得相同的末端执行器姿势可以对应无限数量的反向运动学解

难以寻找到合适解的缺陷

附图说明
[0008]图1为本专利技术实施例1中冗余机器人自碰撞规避控制方法的流程示意图;图2为本专利技术实施例1中强化学习求解器的迭代训练过程示意图;图3为本专利技术实施例1中强化学习求解器中的神经网络架构示意图;图4为本专利技术实施例2中不同强化学习方法下冗余机器人关节的平均加速度对比图;图5为本专利技术实施例2中采用改进的缓冲区前后的训练效果对比图

具体实施方式
[0009]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序

应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式

此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程

方法

系统

产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程

方法

产品或设备固有的其它单元

[0010]附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略

放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的

[0011]下面结合附图和实施例对本专利技术的技术方案做进一步的说明

[0012]实施例1本实施例提出了一种冗余机器人自碰撞规避控制方法,参阅图 1
,包括:基于伪逆方法,建立用于控制冗余机器人的关节速度的伪逆求解器(
Pseudo

Inverse

solver
),并引入干扰项;建立强化学习求解器并进行训练;响应于训练完成的所述强化学习求解器(
RL

Solver
)输出的干扰项,所述伪逆求解器生成反向运动学解;根据所述反向运动学解控制冗余机器人的关节速度,调整所述冗余机器人的末端执行器至目标点

[0013]该实施例中,引入了基于强化学习方法的强化学习求解器,强化学习求解器并不直接控制冗余机器人,而是对伪逆求解器施加干扰,以此避免机器人自碰,与数值解相比,本实施例能够引导冗余机器人达到更多目标,同时保持机器人平稳性,适用于三维空间,得到的
IK
解与冗余机器人的机械特性保持一致,即关节变量有界,保证运动的平滑性和连续性,能够在变化的环境中运转

[0014]需要说明的是,在自碰撞避免的情况下,现有技术中碰撞样本难以采集,通过强化学习直接控制冗余机器人关节会导致难以获得成功的训练结果,难以获得冗余机器人的闭合形式解

[0015]此外,相较于现有技术关注固定或规则运动的外部碰撞,仅考虑了末端执行器自由移动的场景,而实际应用中机器人的手臂连杆是不规则运动的,本实施例关注的是直接控制末端执行器的场景,这要求对应的控制方法只能在零空间找到合适的姿态来避免自碰撞

[0016]在一优选实施例中,所述基于伪逆方法,建立用于控制冗余机器人的关节速度的伪逆求解器,包括:定义冗余机器人末端执行器的期望速度为六维向量;定义
n
维向量,表示冗余机器人的关节速度,
n
表示自由度数量,用代表雅各比行列式(
Jacobian Matrix
),则:
[0017][0018]基于伪逆方法,将关节速度最小化,有:
[0019][0020][0021]这样无法满足自碰撞避免的需求,因此,引入一个与具有相同维度的向量,作为干扰项(
Interference
):
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种冗余机器人自碰撞规避控制方法,其特征在于,包括:基于伪逆方法,建立用于控制冗余机器人的关节速度的伪逆求解器,并引入干扰项;建立强化学习求解器并进行训练;响应于训练完成的所述强化学习求解器输出的干扰项,所述伪逆求解器生成反向运动学解;根据所述反向运动学解控制冗余机器人的关节速度,调整所述冗余机器人的末端执行器至目标点
。2.
根据权利要求1所述的一种冗余机器人自碰撞规避控制方法,其特征在于,所述基于伪逆方法,建立用于控制冗余机器人的关节速度的伪逆求解器,包括:定义冗余机器人末端执行器的期望速度为六维向量;定义
n
维向量,表示冗余机器人的关节速度,
n
表示自由度数量,用代表雅各比行列式,则:基于伪逆方法,将关节速度最小化,有:最小化,有:引入一个与具有相同维度的向量,作为干扰项:
subject to x
˙ = J q
˙
根据拉格朗日乘子法,有:定义雅各比行列式的右伪逆,则所述伪逆求解器的表达式为:
。3.
根据权利要求1所述的一种冗余机器人自碰撞规避控制方法,其特征在于,所述建立强化学习求解器并进行训练,包括:基于
Actor

Critic
神经网络架构构建强化学习求解器,用于输出干扰项;给定环境的观测空间和动作空间;所述观测空间包括冗余机器人的当前关节角度

目标点和末端执行器之间的坐标差

末端执行器的初始位置与当前位置间的姿态差异,其中,式中,表示目标点的位置坐标,表示末端执行器的位置坐标;

与为三维向量;式中,表示末端执行器的初始位置,表示末端执行器的当前位置;

与为三维向量,代表在笛卡尔坐标系下关于
x、y、z
轴的旋转;设置每一步的奖励函数;采用
TD3
算法对智能代理进行迭代训练,输出干扰量作用于所述伪逆求解器中,从中
得到输出的关节速度;其中,对
TD3
算法的回放缓冲区引入经验样本调整机制,以加快训练的收敛速度
。4.
根据权利要求3所述的一种冗余机器人自碰撞规避控制方法,其特征在于,所述对
TD3
算法的回放缓冲区引入经验样本调整机制,包括:引入一个
epoch buffer
,缓存每个周期的个经验样本,表示对应周期花费步;在每个周期结束后,基于周期结束奖励对对应周期的所述经验样本进行调整,再添加至回放缓冲区
。5.
根据权利要求4所述的一种冗余机器人自碰撞规避控制方法,其特征在于,所述周期结束奖励为:式中,为正值,为负值;所述基于周期结束奖励对对应周期的所述经验样本进行调整,包括:对第步的经验样本中的奖励值进行累加调整,其过程如下:式中,为衰减因子;为调整后的奖励值;...

【专利技术属性】
技术研发人员:黄凯洪庭贺廖嘉辉
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1