一种基于逆强化学习的可变阻抗控制系统及控制方法技术方案

技术编号:35833856 阅读:8 留言:0更新日期:2022-12-03 14:03
本公开是关于一种基于逆强化学习的可变阻抗控制系统、控制方法、电子设备以及存储介质。其中,该系统包括:可变阻抗控制器、阻抗增益控制器、可变阻抗控制策略模块和逆强化学习算法模块。本公开通过引入可变阻抗增益动作空间,在任务设置中提高奖励函数传递性能,实现可变阻抗技能的泛化表示,并可实现机械臂的分层阻抗控制,完成较为复杂的物理交互,在动态环境中保证机械臂运动的精度,从而提升机械臂控制的安全性。控制的安全性。控制的安全性。

【技术实现步骤摘要】
一种基于逆强化学习的可变阻抗控制系统及控制方法


[0001]本公开涉及机械臂、自动控制领域,具体而言,涉及一种基于逆强化学习的可变阻抗控制系统、控制方法、电子设备以及存储介质。

技术介绍

[0002]机器人系统越来越多地使用在各种非结构化环境中,例如医院、工厂、房屋等,在这样的环境中,机器人需要执行复杂的操作任务,根据不同任务阶段和环境约束调整阻抗,同时以安全稳定的方式与未知环境进行交互。为保证安全的物理交互,建立质量

弹簧

阻尼接触动力学的阻抗控制已广泛应用于这些机器人系统。此外,许多复杂的操作任务需要机器人根据任务阶段改变阻抗,灵活性和鲁棒性已成为开发用于物理交互的手术机器人控制器的重要指标之一。然而,传统的阻抗控制方案不了解实际的手术场景,包括机械臂上复杂的物理交互,导致精度损失,在实践中,完成此类任务需要实现变阻抗技能。
[0003]现有基于学习的方法来获得可变阻抗技能方法主要有以下几类:
[0004]第一类是基于示教学习的方式。人类专家通过触觉接口和手持阻抗控制接口控制机器人,阻抗控制接口基于线性弹簧复位电位计,该电位计将按钮位置映射到机器人臂刚度。这种设置允许人类专家根据给定的任务要求调整机器人的柔顺性,将演示的运动和刚度轨迹使用动态运动原语进行编码,并使用局部权重回归进行学习。如果所展示的轨迹具有高方差,则阻抗应该低,而如果所展示的轨迹具有低方差,则阻抗应该高。这种策略可以为许多操纵任务提供非常好的解决方案。优点是不需要单独演示阻抗。然而,在一些交互任务中,例如在凹槽中滑动任务,低轨迹可变性不一定对应于高阻抗。
[0005]第二类是基于具有可变阻抗动作空间的深度强化学习方式。当使用强化学习来控制机器人运动时,一个重要的挑战是策略的参数化选择。通常使用高斯混合回归从一组遵循示教学习范例的运动演示中提取具有相关非线性特征的参数,最终的参数化采用非线性时不变动态系统的形式,使用这个时不变的动态系统作为PI2策略搜索算法的一个变体的参数化策略,最后用PI2策略搜索算法来表示时不变运动。然而,这种方法有一定的缺陷,首先这种方法比较理想化,它假设除了探测噪声之外,系统中没有噪声,这意味着在采样轨迹期间遇到的扰动对学习具有负面影响,并且不能被考虑来改进策略。其次,它最初被设计成从一个特定的初始状态学习轨迹,使用它从多个初始状态学习轨迹会增加所需展开的次数。尽管许多逆强化学习算法采用熵正则化来防止简单地模仿专家策略,但以前大多数工作没有关注动作空间选择对先验知识的影响。
[0006]尽管已经提出了许多基于深度强化学习和示教学习的方法来获得接触丰富操作任务的可变阻抗技能,但这些技能通常是基于特定任务的,并且可能对任务设置的变化敏感,当任务发生变化时,通过示教学习方法获得的特定任务阻抗技能可能会失效。此外,设计合适的奖励函数对强化学习来说具有挑战性,因此,它们的技能可转移性是受限的。
[0007]因此,需要一种或多种方法解决上述问题。
[0008]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理
解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0009]本公开的目的在于提供一种基于逆强化学习的可变阻抗控制系统、控制方法、电子设备以及存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
[0010]根据本公开的一个方面,提供一种基于逆强化学习的可变阻抗控制系统,所述系统包括可变阻抗控制器、阻抗增益控制器,其中:
[0011]所述可变阻抗控制器用于基于获取到的目标刚度和阻尼系数,根据第一反馈力与期望轨迹,生成用于修正轨迹的机械臂末端期望位置增量;
[0012]所述阻抗增益控制器用于根据所述机械臂末端期望位置增量生成用于控制机械臂运动的第二反馈力,基于所述第二反馈力完成机械臂控制。
[0013]优选地,所述可变阻抗控制系统还包括逆强化学习算法模块和可变阻抗控制策略模块,其中:
[0014]所述逆强化学习算法模块用于基于专家策略和奖励函数,使用鉴别器区分运动轨迹和专家轨迹并计算损失函数,通过最小化损失函数更新鉴别器,并通过最大化奖励函数更新可变阻抗控制策略;
[0015]所述可变阻抗控制策略模块用于基于已有可变阻抗控制策略,根据机械臂末端位置及所述第二反馈力计算目标刚度和阻尼系数,并将所述目标刚度和阻尼系数发送至所述可变阻抗控制器。
[0016]优选地,所述可变阻抗控制器基于二阶阻抗模型
[0017][0018]生成用于修正轨迹的机械臂末端期望位置增量为:
[0019][0020]其中,M
d
(t)、B
d
(t)、K
d
(t)分别为阻抗模型中时变的目标惯性矩阵、目标阻尼矩阵与目标刚度矩阵,x分别为机器人末端在笛卡尔空间实际的加速度、速度和位置,x
d
分别为机器人末端的期望加速度、速度和位置,Fd和F分别为机器人末端与环境之间的期望接触力与实际接触力,E(n)为接触力误差,T为控制周期,w1,w2,w3均为中间变量;
[0021]w1=4M
d
(t)+2B
d
(t)T+K
d
(t)T2[0022]w2=

8M
d
(t)+2K
d
(t)T2[0023]w3=4M
d
(t)

2B
d
(t)T+K
d
(t)T2。
[0024]优选地,所述阻抗增益控制器基于笛卡尔空间中机器人的动力学模型:
[0025][0026]及动力学方程:
[0027][0028]生成阻抗控制律的前馈项为:
[0029][0030]第二反馈力为:
[0031][0032]其中,M(x)为质量惯性矩阵,为科氏力矩阵,为重力向量,和x分别为相对于末端执行器笛卡尔加速度、速度和位置,J 为雅可比矩阵,τ、F
ext
分别为关节空间电机扭矩输入和外力;M
d
、B
d
、K
d
为期望的质量、阻尼和刚度矩阵;e和为跟踪位置误差和跟踪速度误差。
[0033]优选地,所述可变阻抗控制策略模块根据笛卡尔空间位置跟踪误差:
[0034][0035]生成根据机械臂接近目标位置距离的可变阻抗控制策略为:
[0036][0037]其中,e1、e2分别为0.4m和0.2m两个增益变化点。
[0038]优选地,所述逆强化学习算法模块用于基于专家策略和奖励函数
[0039][0040]其中,d
i,t
分别是第t时刻、第i个混合轨迹点与期望点的距离,d
i,t+1
分别是第t+1时刻、第i个混合轨迹点与期望点的距离,γ为比例系数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于逆强化学习的可变阻抗控制系统,其特征在于,所述系统包括可变阻抗控制器、阻抗增益控制器,其中:所述可变阻抗控制器用于基于获取到的目标刚度和阻尼系数,根据第一反馈力与期望轨迹,生成用于修正轨迹的机械臂末端期望位置增量;所述阻抗增益控制器用于根据所述机械臂末端期望位置增量生成用于控制机械臂运动的第二反馈力,基于所述第二反馈力完成机械臂控制。2.如权利要求1所述的系统,其特征在于,所述可变阻抗控制系统还包括逆强化学习算法模块和可变阻抗控制策略模块,其中:所述逆强化学习算法模块用于基于专家策略和奖励函数,使用鉴别器区分运动轨迹和专家轨迹并计算损失函数,通过最小化损失函数更新鉴别器,并通过最大化奖励函数更新可变阻抗控制策略;所述可变阻抗控制策略模块用于基于已有可变阻抗控制策略,根据机械臂末端位置及所述第二反馈力计算目标刚度和阻尼系数,并将所述目标刚度和阻尼系数发送至所述可变阻抗控制器。3.如权利要求2所述的系统,其特征在于,所述可变阻抗控制器基于二阶阻抗模型生成用于修正轨迹的机械臂末端期望位置增量为:其中,M
d
(t)、B
d
(t)、K
d
(t)分别为阻抗模型中时变的目标惯性矩阵、目标阻尼矩阵与目标刚度矩阵,x分别为机器人末端在笛卡尔空间实际的加速度、速度和位置,x
d
分别为机器人末端的期望加速度、速度和位置,F
d
和F分别为机器人末端与环境之间的期望接触力与实际接触力,E(n)为接触力误差,T为控制周期,w1,w2,w3均为中间变量;w1=4M
d
(t)+2B
d
(t)T+K
d
(t)T2w2=

8M
d
(t)+2K
d
(t)T2w3=4M
d
(t)

2B
d
(t)T+K
d
(t)T2。4.如权利要求2所述的系统,其特征在于,所述阻抗增益控制器基于笛卡尔空间中机器人的动力学模型:及动力学方程:生成阻抗控制律的前馈项为:第二反馈力为:其中,M(x)为质量惯性矩阵,为科氏力矩阵,G(x)为重力向量,和x分别为相对于末端执行器笛卡尔加速度、速度和位置,J为雅可比矩阵,τ、F
ext
分别为关节空间电机扭
矩输入和外力;M
d
、B
d
、K
d
为期望的质量、阻尼和刚度矩阵;e和为跟踪位置误差和跟踪速度误差。5.如权利要求2所述的系统,其特征在于,所述可变阻抗控制策略模块根据笛卡尔空间位置跟踪误差:生成根据机械臂接近目...

【专利技术属性】
技术研发人员:边桂彬李桢钱琛
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1