一种基于教与学模态的机器人恒力跟踪方法技术

技术编号:37564844 阅读:12 留言:0更新日期:2023-05-15 07:45
本发明专利技术公开了一种基于教与学模态的机器人恒力跟踪方法,涉及机器人控制技术领域。包括以下步骤:通过环境中曲面的型值点拟合机器人的运动轨迹,融合阻抗控制算法实现机器人的位置

【技术实现步骤摘要】
一种基于教与学模态的机器人恒力跟踪方法


[0001]本专利技术属于机器人控制
,尤其涉及一种基于教与学模态的机器人恒力跟踪方法。

技术介绍

[0002]目前提出的恒力跟踪策略在大部分情况下,环境中曲面的刚度和位置是不确定的,容易影响机器人恒力跟踪时的精度,无法满足精度要求较高的恒力跟踪场景,而在精度要求较高的机器人接触作业情景中,需要严格控制机器人末端接触力的波动。
[0003]由于未知环境中曲面的位置和刚度都是不确定的,容易影响机器人的恒力跟踪效果。为此需要对传统的基于柔顺控制的恒力跟踪策略进行改进,针对以上问题,现提出一种基于教与学模态的机器人恒力跟踪方法,通过学习的方法修正机器人末端的跟踪轨迹,间接保证恒力跟踪精度和稳定性。

技术实现思路

[0004]本专利技术的目的是针对现有的问题,提供了一种基于教与学模态的机器人恒力跟踪方法,以解决接触作业时机器人末端接触力的稳定性。
[0005]本专利技术是通过以下技术方案实现的:一种基于教与学模态的机器人恒力跟踪方法,包括以下步骤:
[0006]S1、基于速度可控的NURBS轨迹规划算法拟合机器人的运动轨迹,通过位置

力混合控制算法框架融合阻抗控制算法和轨迹规划算法,对机器人末端不同的方向使用不同的控制策略,实现机器人对未知环境复杂曲面的恒力跟踪;
[0007]S2、基于位置

力混合控制策略初次恒力遍历未知环境中的复杂曲面,实时记录遍历过程中机器人末端的位置、姿态以及末端接触力信息,将机器人遍历曲面过程中记录的信息作为强化学习算法的输入量;
[0008]S3、通过实际接触力和期望接触力的差值Δf来补偿机器人末端的运动轨迹跟踪误差,通过ε

greedy算法选择下一步的行为,并通过回报函数评估采取行为的回报,优化机器人恒力跟踪时的运动轨迹,使得恒力跟踪的误差能够最小。
[0009]优选的,所述S1包括以下步骤:
[0010]S101、采集环境中复杂曲面的型值点,通过NURBS轨迹规划算法计算过型值点的NURBS轨迹,并利用速度插补算法对拟合轨迹进行速度规划,拟合出速度可控的机器人运动轨迹X
nurbs

[0011]S102、通过选择矩阵确定机器人的柔顺力控制方向,并对机器人的其他方向进行位置控制,使机器人能够对未知环境进行恒力跟踪,基于位置

力混合控制框架的机器人运动轨迹方程为:
[0012]X
robot
=H
·
X
nurbs
+(I

H)
·
X
c
[0013]其中,是选择矩阵,h
i
∈[0,1],I是单位矩阵,X
robot
是发送给机器人的实际运动轨迹,X
nurbs
是通过速度可控的NURBS轨迹规划算法拟合的轨迹,X
c
是柔顺控制算法对机器人运动轨迹的修正量。
[0014]优选的,所述S2包括以下步骤:
[0015]S201、机器人基于位置

力混合控制初次遍历未知环境中复杂曲面时,实时记录机器人末端的实际运动轨迹X
m
、末端姿态矩阵R
m
以及末端接触力F
e

[0016]S202、所述的Q

learning算法为:
[0017]newQ
S,A
=(1

α)Q
S,A
+α(R
S,A

·
maxQ

(s

,a

))
[0018]其中,newQ
S,A
是基于状态和行动的新的Q值;Q
S,A
是当前的Q值;R
S,A
是基于状态和行动的奖励;maxQ

(s

,a

)是在给定新的状态和行动下未来最大的奖励;(1

α)Q
S,A
是旧Q值在newQ
S,A
之中所占的比重;(R
S,A

·
maxQ

(s

,a

))为本次行动自身带来的奖励和未来潜在的奖励;
[0019]S203、将所记录的机器人的实际运动轨迹和实际末端接触力作为Q

learning算法的输入量,即每个时刻机器人末端的实际接触力与期望接触力之间的差值Δf作为状态量,将柔顺控制得到的位置修正量作为行为量。
[0020]优选的,所述S3包括以下步骤:
[0021]S301、所述的ε

greedy搜索策略为:
[0022][0023]S302、确定行为之后,需要评估所采取行为的回报函数R:
[0024][0025]其中,δ1,δ2分别表示力误差和位置误差的权值;f
d
,p
d
分别表示期望力和期望位置,f和p表示所获得的实际接触力与机器人的实际位置,通过回报函数评估所采取行为的回报,使得误差能够最小。
[0026]本专利技术的有益效果是:
[0027]基于力/位混合控制框架实现位置

力混合控制的恒力跟踪,遍历未知环境中的复杂曲面后,通过学习算法优化机器人的运动轨迹,降低环境不确定性和拟合轨迹误差导致的恒力跟踪精度差的问题,使之能适用于位置环境的机器人恒力接触作业任务。
附图说明
[0028]图1为本专利技术的结构示意图;
[0029]图2为本专利技术的Q

learning进行力控算法流程图;
[0030]图3为本专利技术的基于教与学模态下的机器人末端与环境中复杂曲面的实际接触力与期望接触力示意图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]实施例:
[0033]请参阅图1

3所示,本专利技术提供一种技术方案:一种基于教与学模态的机器人恒力跟踪方法,包括以下步骤:
[0034]S1、基于速度可控的NURBS轨迹规划算法拟合机器人的运动轨迹,通过位置

力混合控制算法框架融合阻抗控制算法和轨迹规划算法,对机器人末端不同的方向使用不同的控制策略,实现机器人对未知环境复杂曲面的恒力跟踪;
[0035]S2、基于位置

力混合控制本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于教与学模态的机器人恒力跟踪方法,其特征在于,包括以下步骤:S1、基于速度可控的NURBS轨迹规划算法拟合机器人的运动轨迹,通过位置

力混合控制算法框架融合阻抗控制算法和轨迹规划算法,对机器人末端不同的方向使用不同的控制策略,实现机器人对未知环境复杂曲面的恒力跟踪;S2、基于位置

力混合控制策略初次恒力遍历未知环境中的复杂曲面,实时记录遍历过程中机器人末端的位置、姿态以及末端接触力信息,将机器人遍历曲面过程中记录的信息作为强化学习算法的输入量;S3、通过实际接触力和期望接触力的差值Δf来补偿机器人末端的运动轨迹跟踪误差,通过ε

greedy算法选择下一步的行为,并通过回报函数评估采取行为的回报,优化机器人恒力跟踪时的运动轨迹,使得恒力跟踪的误差能够最小。2.根据权利要求1所述的一种基于教与学模态的机器人恒力跟踪方法,其特征在于,所述S1包括以下步骤:S101、采集环境中复杂曲面的型值点,通过NURBS轨迹规划算法计算过型值点的NURBS轨迹,并利用速度插补算法对拟合轨迹进行速度规划,拟合出速度可控的机器人运动轨迹X
nurbs
;S102、通过选择矩阵确定机器人的柔顺力控制方向,并对机器人的其他方向进行位置控制,使机器人能够对未知环境进行恒力跟踪,基于位置

力混合控制框架的机器人运动轨迹方程为:X
robot
=H
·
X
nurbs
+(I

H)
·
X
c
其中,是选择矩阵,h
i
∈[0,1],I是单位矩阵,X
robot
是发送给机器人的实际运动轨迹,X
nurbs
是通过速度可控的NURBS轨迹规划算法拟合的轨迹,X
c
是柔顺控制算法对机器人运动轨迹的修正量。3.根据权利要求1所述的一种基于教与学模态的机器人恒力跟踪方法,其特征在于,所述S2包括以下步骤:S201、机器人基于位置

力混合控制初次遍历未知环境中复...

【专利技术属性】
技术研发人员:段晋军崔坤坤郭安姜锦程孙伟栋王文龙戴振东
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1