一种基于深度强化学习和阻抗控制的柔顺人机接触方法技术

技术编号:34291278 阅读:44 留言:0更新日期:2022-07-27 09:32
一种基于深度强化学习和阻抗控制的柔顺人机接触方法,根据本任务的需求,建立相关的状态空间,动作空间和奖励函数,为实现任务的柔顺性,在身体表面建立虚拟接触面,结合阻抗控制,提前获取执行器到达目标部位的虚拟接触力,并输入状态空间,通过深度强化学习算法对执行器动作的调整,实现力调整,完成任务。实现了深度强化学习和柔顺控制的结合,建立了虚拟接触面,可提前获取执行器的接触力,实现对接触力的调整,来适应复杂多变的柔顺人机接触任务。务。务。

【技术实现步骤摘要】
一种基于深度强化学习和阻抗控制的柔顺人机接触方法


[0001]本专利技术涉及柔顺控制
,具体涉及一种基于深度强化学习和阻抗控制的柔顺人机接触方法。

技术介绍

[0002]近年来,随着人工智能技术的进步,机器人的感知能力和交互沟通能力越来越强,作为一个模拟人类行为的机器系统,智能机器人能够协助人类完成各式各样的任务,相互之间的接触也不可避免的发生,为实现人与机器人的紧密结合,“人机共融”成为了重要的发展趋势。在这种趋势下,对机器人操作水平的要求也越来越高。在机器人的位置控制和力控方面,传统的柔顺控制技术已经发展得非常成熟。但控制系统的设计依托于精确的数学模型,而在柔顺人机接触任务中,由于环境的复杂性、时变性以及不确定性,很难得到精确的数学模型。因此,传统控制技术在处理相应任务时仍存在一定的挑战和局限性。

技术实现思路

[0003]本专利技术为了克服以上技术的不足,提供了一种基于深度强化学习和阻抗控制的柔顺人机接触方法。
[0004]本专利技术克服其技术问题所采用的技术方案是:
[0005]一种基于深度强化学习和阻抗控制的柔顺人机接触方法,包括如下步骤:
[0006]a)根据柔顺人机接触任务,以机械臂底座建立机械臂坐标系,获得执行器的初始位置坐标{P
x
,P
y
,P
z
}及目标部位在机械臂坐标系下的位置坐标{O
x
,O
y
,O
z
},P
x
为执行器的X轴坐标,P
y
为执行器的Y轴坐标,P
z
为执行器的Z轴坐标,O
x
为目标部位的X轴坐标,O
y
为目标部位的Y轴坐标,O
z
为目标部位的Z轴坐标;
[0007]b)通过深度强化学习算法建立状态空间S和动作空间A,S={P

x
,P

y
,P

z
,O
x
,O
y
,O
z
,F
x
,F
y
,F
z
},式中F
x
为执行器的X轴方向上的接触力分力,F
y
为执行器的Y轴方向上的接触力分力,F
z
为执行器的Z轴方向上的接触力分力,P

x
为执行器的实时位置的X轴坐标,P

y
为执行器的实时位置的Y轴坐标,P

z
为执行器的实时位置的Z轴坐标;
[0008]c)对机械臂位姿进行初始化,初始化后执行器的实时位置坐标为{P

x
,P

y
,P

z
},得到执行器初始位置与目标部位之间的距离d
i
及执行器当前位置与目标部位之间的距离d
c

[0009]d)通过公式r1=(d
i

d
c
)/d
i
计算得到基于距离的奖励函数r1;
[0010]e)设定柔顺人机在接触任务中,执行器与目标接触的接触力在m

nN之内;
[0011]f)在距离身体距离为γ处设置虚拟接触面;
[0012]g)通过公式l=|P

z

O
z
|计算得到是否接触到虚拟接触面的判定条件值l;
[0013]h)当l>γ时,判定执行器未接触到虚拟接触面,状态空间F
x
,F
y
,F
z
均为0;
[0014]i)当0<l≤γ时,判定执行器接触到虚拟接触面,此时通过阻抗控制得到虚拟接触力F
v
,F
v
=(F

x
,F

y
,F

z
)
T
,F

x
为执行器的X轴方向上的虚拟接触力分力,F

y
为执行器的Y
轴方向上的虚拟接触力分力,F

z
为执行器的Z轴方向上的虚拟接触力分力,T为转置,将F

x
、F

y
及F

z
分别等同于状态空间S中的F
x
、F
y
及F
z

[0015]j)当执行器与身体发生接触时,真实接触力F
e
≠0,此时停止对执行器的控制。
[0016]进一步的,步骤a)中通过柔顺人机中的视觉模块获得执行器的位置坐标{P
x
,P
y
,P
z
}和目标部位在机械臂坐标系下的位置坐标{O
x
,O
y
,O
z
}。
[0017]进一步的,步骤b)中通过公式A={a
x
,a
y
,a
z
}建立动作空间,a
x
为执行器在机械臂坐标系下的X轴方向上的偏移量,a
y
为执行器在机械臂坐标系下的Y轴方向上的偏移量,a
z
为执行器在机械臂坐标系下的Z轴方向上的偏移量。
[0018]进一步的,步骤c)中通过公式计算得到执行器当前位置与目标部位之间的距离d
c
,通过公式计算得到执行器初始位置与目标部位之间的距离d
i

[0019]优选的,步骤e)中m取值为1,n的取值为7。
[0020]进一步的,步骤i)中通过公式计算得到虚拟接触力F
v
,式中M
d
、B
d
、K
d
均为阻抗参数,为执行器的速度,为执行器的加速度,λ为常数,I为向量,I=[0,0,1]T
,Δx为执行器与目标部位之间的距离差,Δx=(|P

x

O
x
|,|P

y

O
y
|,|P

z

O
z
|)
T

[0021]优选的,步骤b)中深度强化学习算法为PPO

clip算法。
[0022]进一步的,还包括在步骤j)后执行步骤h):当真实接触力F
e
大于nN时,立即停止执行器运行,并初始化机械臂。
[0023]进一步的,还包括利用奖励函数r训练深度强化学习算法。
[0024]进一步的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习和阻抗控制的柔顺人机接触方法,其特征在于,包括如下步骤:a)根据柔顺人机接触任务,以机械臂底座建立机械臂坐标系,获得执行器的初始位置坐标{P
x
,P
y
,P
z
}及目标部位在机械臂坐标系下的位置坐标{O
x
,O
y
,O
z
},P
x
为执行器的X轴坐标,P
y
为执行器的Y轴坐标,P
z
为执行器的Z轴坐标,O
x
为目标部位的X轴坐标,O
y
为目标部位的Y轴坐标,O
z
为目标部位的Z轴坐标;b)通过深度强化学习算法建立状态空间S和动作空间A,S={P

x
,P

y
,P

z
,O
x
,O
y
,O
z
,F
x
,F
y
,F
z
},式中F
x
为执行器的X轴方向上的接触力分力,F
y
为执行器的Y轴方向上的接触力分力,F
z
为执行器的Z轴方向上的接触力分力,P

x
为执行器的实时位置的X轴坐标,P

y
为执行器的实时位置的Y轴坐标,P

z
为执行器的实时位置的Z轴坐标;c)对机械臂位姿进行初始化,初始化后执行器的实时位置坐标为{P

x
,P

y
,P

z
},得到执行器初始位置与目标部位之间的距离d
i
及执行器当前位置与目标部位之间的距离d
c
;d)通过公式r1=(d
i

d
c
)/d
i
计算得到基于距离的奖励函数r1;e)设定柔顺人机在接触任务中,执行器与目标接触的接触力在m

nN之内;f)在距离身体距离为γ处设置虚拟接触面;g)通过公式l=|P

z

O
z
|计算得到是否接触到虚拟接触面的判定条件值l;h)当l>γ时,判定执行器未接触到虚拟接触面,状态空间F
x
,F
y
,F
z
均为0;i)当0<l≤γ时,判定执行器接触到虚拟接触面,此时通过阻抗控制得到虚拟接触力F
v
,F
v
=(F
x

,F
y

,F
z

)
T
,F
x

为执行器的X轴方向上的虚拟接触力分力,F
y

为执行器的Y轴方向上的虚拟接触力分力,F
z

为执行器的Z轴方向上的虚拟接触力分力,T为转置,将F
x

、F
y

及F
z

分别等同于状态空间S中的F
x
、F
y
及F
z
;j)当执行器与身体发生接触时,真实接触力F
e
≠0,此时停止对执行器的控制。2.根据权利要求1所述的基于深度强化学习和阻抗...

【专利技术属性】
技术研发人员:舒明雷张铁译陈超王若同刘照阳
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1