【技术实现步骤摘要】
一种基于逆强化学习的可变阻抗控制系统及控制方法
[0001]本公开涉及机械臂、自动控制领域,具体而言,涉及一种基于逆强化学习的可变阻抗控制系统、控制方法、电子设备以及存储介质。
技术介绍
[0002]机器人系统越来越多地使用在各种非结构化环境中,例如医院、工厂、房屋等,在这样的环境中,机器人需要执行复杂的操作任务,根据不同任务阶段和环境约束调整阻抗,同时以安全稳定的方式与未知环境进行交互。为保证安全的物理交互,建立质量
‑
弹簧
‑
阻尼接触动力学的阻抗控制已广泛应用于这些机器人系统。此外,许多复杂的操作任务需要机器人根据任务阶段改变阻抗,灵活性和鲁棒性已成为开发用于物理交互的手术机器人控制器的重要指标之一。然而,传统的阻抗控制方案不了解实际的手术场景,包括机械臂上复杂的物理交互,导致精度损失,在实践中,完成此类任务需要实现变阻抗技能。
[0003]现有基于学习的方法来获得可变阻抗技能方法主要有以下几类:
[0004]第一类是基于示教学习的方式。人类专家通过触觉接口和手持阻抗控制接口控制机器人,阻抗控制接口基于线性弹簧复位电位计,该电位计将按钮位置映射到机器人臂刚度。这种设置允许人类专家根据给定的任务要求调整机器人的柔顺性,将演示的运动和刚度轨迹使用动态运动原语进行编码,并使用局部权重回归进行学习。如果所展示的轨迹具有高方差,则阻抗应该低,而如果所展示的轨迹具有低方差,则阻抗应该高。这种策略可以为许多操纵任务提供非常好的解决方案。优点是不需要单独演示阻抗。然而,在一些交 ...
【技术保护点】
【技术特征摘要】
1.一种基于逆强化学习的可变阻抗控制系统,其特征在于,所述系统包括可变阻抗控制器、阻抗增益控制器,其中:所述可变阻抗控制器用于基于获取到的目标刚度和阻尼系数,根据第一反馈力与期望轨迹,生成用于修正轨迹的机械臂末端期望位置增量;所述阻抗增益控制器用于根据所述机械臂末端期望位置增量生成用于控制机械臂运动的第二反馈力,基于所述第二反馈力完成机械臂控制。2.如权利要求1所述的系统,其特征在于,所述可变阻抗控制系统还包括逆强化学习算法模块和可变阻抗控制策略模块,其中:所述逆强化学习算法模块用于基于专家策略和奖励函数,使用鉴别器区分运动轨迹和专家轨迹并计算损失函数,通过最小化损失函数更新鉴别器,并通过最大化奖励函数更新可变阻抗控制策略;所述可变阻抗控制策略模块用于基于已有可变阻抗控制策略,根据机械臂末端位置及所述第二反馈力计算目标刚度和阻尼系数,并将所述目标刚度和阻尼系数发送至所述可变阻抗控制器。3.如权利要求2所述的系统,其特征在于,所述可变阻抗控制器基于二阶阻抗模型生成用于修正轨迹的机械臂末端期望位置增量为:其中,M
d
(t)、B
d
(t)、K
d
(t)分别为阻抗模型中时变的目标惯性矩阵、目标阻尼矩阵与目标刚度矩阵,x分别为机器人末端在笛卡尔空间实际的加速度、速度和位置,x
d
分别为机器人末端的期望加速度、速度和位置,F
d
和F分别为机器人末端与环境之间的期望接触力与实际接触力,E(n)为接触力误差,T为控制周期,w1,w2,w3均为中间变量;w1=4M
d
(t)+2B
d
(t)T+K
d
(t)T2w2=
‑
8M
d
(t)+2K
d
(t)T2w3=4M
d
(t)
‑
2B
d
(t)T+K
d
(t)T2。4.如权利要求2所述的系统,其特征在于,所述阻抗增益控制器基于笛卡尔空间中机器人的动力学模型:及动力学方程:生成阻抗控制律的前馈项为:第二反馈力为:其中,M(x)为质量惯性矩阵,为科氏力矩阵,G(x)为重力向量,和x分别为相对于末端执行器笛卡尔加速度、速度和位置,J为雅可比矩阵,τ、F
ext
分别为关节空间电机扭
矩输入和外力;M
d
、B
d
、K
d
为期望的质量、阻尼和刚度矩阵;e和为跟踪位置误差和跟踪速度误差。5.如权利要求2所述的系统,其特征在于,所述可变阻抗控制策略模块根据笛卡尔空间位置跟踪误差:生成根据机械臂接近目...
【专利技术属性】
技术研发人员:边桂彬,李桢,钱琛,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。