【技术实现步骤摘要】
一种冗余机器人自碰撞规避控制方法
[0001]本专利技术涉及机器人控制规划
,更具体地,涉及一种冗余机器人自碰撞规避控制方法
。
技术介绍
[0002]机器人在工业生产中被广泛应用,可以代替人类完成重复性
、
危险性
、
高精度的生产工作,提高生产效率和质量
。
机器人的运动规划是机器人控制中的重要环节,其目标是规划出一条从起点到终点的安全
、
高效
、
平滑的轨迹
。
然而,由于机器人的自身结构和工作环境的复杂性,机器人在运动过程中可能会发生自碰撞,即身体的两个部位发生碰撞,这些碰撞可能会导致规划目标不能完成,甚至使机器人失去平衡或控制,对机器人和工作环境产生损坏
。
因此,自碰撞规避是机器人运动规划中必须考虑的问题之一
。
[0003]然而,现有的自碰撞规避控制方法由于关节多自由度高而产生的高维度配置空间需要花费大量的计算时间,不适用于实时的运动规划,特别是对于冗余机器人而言,冗余机器人的额外自由度使相同的末端执行器姿势可以对应无限数量的反向运动学(
IK
)解,导致难以确定适当的
IK
解来避免自我碰撞,且满足自碰避免的约束十分复杂
。
技术实现思路
[0004]本专利技术为克服上述现有技术所述的额外自由度使得相同的末端执行器姿势可以对应无限数量的反向运动学解,导致难以避免自我碰撞的缺陷,提供一种冗余机器人自碰撞规避 ...
【技术保护点】
【技术特征摘要】
1.
一种冗余机器人自碰撞规避控制方法,其特征在于,包括:基于伪逆方法,建立用于控制冗余机器人的关节速度的伪逆求解器,并引入干扰项;建立强化学习求解器并进行训练;响应于训练完成的所述强化学习求解器输出的干扰项,所述伪逆求解器生成反向运动学解;根据所述反向运动学解控制冗余机器人的关节速度,调整所述冗余机器人的末端执行器至目标点
。2.
根据权利要求1所述的一种冗余机器人自碰撞规避控制方法,其特征在于,所述基于伪逆方法,建立用于控制冗余机器人的关节速度的伪逆求解器,包括:定义冗余机器人末端执行器的期望速度为六维向量;定义
n
维向量,表示冗余机器人的关节速度,
n
表示自由度数量,用代表雅各比行列式,则:基于伪逆方法,将关节速度最小化,有:最小化,有:引入一个与具有相同维度的向量,作为干扰项:
subject to x
˙ = J q
˙
根据拉格朗日乘子法,有:定义雅各比行列式的右伪逆,则所述伪逆求解器的表达式为:
。3.
根据权利要求1所述的一种冗余机器人自碰撞规避控制方法,其特征在于,所述建立强化学习求解器并进行训练,包括:基于
Actor
‑
Critic
神经网络架构构建强化学习求解器,用于输出干扰项;给定环境的观测空间和动作空间;所述观测空间包括冗余机器人的当前关节角度
、
目标点和末端执行器之间的坐标差
、
末端执行器的初始位置与当前位置间的姿态差异,其中,式中,表示目标点的位置坐标,表示末端执行器的位置坐标;
、
与为三维向量;式中,表示末端执行器的初始位置,表示末端执行器的当前位置;
、
与为三维向量,代表在笛卡尔坐标系下关于
x、y、z
轴的旋转;设置每一步的奖励函数;采用
TD3
算法对智能代理进行迭代训练,输出干扰量作用于所述伪逆求解器中,从中
得到输出的关节速度;其中,对
TD3
算法的回放缓冲区引入经验样本调整机制,以加快训练的收敛速度
。4.
根据权利要求3所述的一种冗余机器人自碰撞规避控制方法,其特征在于,所述对
TD3
算法的回放缓冲区引入经验样本调整机制,包括:引入一个
epoch buffer
,缓存每个周期的个经验样本,表示对应周期花费步;在每个周期结束后,基于周期结束奖励对对应周期的所述经验样本进行调整,再添加至回放缓冲区
。5.
根据权利要求4所述的一种冗余机器人自碰撞规避控制方法,其特征在于,所述周期结束奖励为:式中,为正值,为负值;所述基于周期结束奖励对对应周期的所述经验样本进行调整,包括:对第步的经验样本中的奖励值进行累加调整,其过程如下:式中,为衰减因子;为调整后的奖励值;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。