机器人系统的无导数模型学习系统及设计技术方案

技术编号:33343249 阅读:62 留言:0更新日期:2022-05-08 09:31
一种控制操纵系统的操纵器学习控制设备,包括:接口,其配置为接收操纵系统的操纵器状态信号和关于要由操纵系统在工作空间中操纵的对象的对象状态信号,其中,对象状态信号由至少一个对象检测器检测;输出接口,其配置为向操纵系统发送初始和更新策略程序;存储器,其用于存储包括数据预处理程序、对象状态历史数据、操纵器状态历史数据、无导数半参数高斯过程DF

【技术实现步骤摘要】
【国外来华专利技术】机器人系统的无导数模型学习系统及设计


[0001]本专利技术总体上涉及无导数(derivative

free)模型学习技术的系统和设计,更具体地,涉及用于机器人操纵器系统的无导数模型学习技术的系统和设计。

技术介绍

[0002]包括深度学习、迁移学习和强化学习的机器学习技术的新浪潮允许诸如机器人和个人助理的智能系统通过从示例或指令中学习来获取知识并解决难题,而无需人类缓慢、量身定制和昂贵的编程。
[0003]学习模型控制机器人系统的困难在于以下事实:机器人系统的运动由非常复杂的物理定律(称为刚体动力学(RBD))控制,并且通常只知道这些物理定律的粗略表示。此外,计算这些定律所需的物理量的测量,例如机器人的每个部件的位置、速度和加速度,通常部分不可用。事实上,通常安装在机器人系统上的传感器仅测量位置部件(例如,编码器、电位计、接近传感器...),而不测量速度和加速度。尽管存在测量速度和加速度的传感器(例如,转速表、激光表面速度计、压电传感器、惯性测量单元(IMU)和加速度计传感器),但由于结构上的限制和可能的高成本,这些传感器通常不集成在机器人系统中。事实上,这些传感器的缺乏适用于大多数工业机器人操纵器,虽然新一代研究机器人中的一些具有一些传感器来测量加速度,例如IMU,但它们通常不具有测量速度的传感器。此外,当任务涉及对特定对象的操纵时,通常情况是对象是无传感器的,并且仅可添加外部传感器以测量其在空间上的位置,例如相机或编码器。
[0004]因此,期望开发先进的AI技术,以用于基于可用的测量来学习外部世界的语义表示,并重新使用它们来在新的机器人任务中进行更好的决策。这些表示可用于实现基于机器学习技术的框架,其使得学习和预测机器人系统的移动成为可能。

技术实现思路

[0005]近年来,强化学习(RL)得到了爆炸性的增长。RL算法已经能够在几个基准问题中达到并超过人类级别的性能。然而,由于所需的大量经验以及与随机探索相关联的安全风险,将RL应用于真实物理系统(例如,机器人系统)仍然是一个挑战。
[0006]准确描述物理系统的演化通常是非常具有挑战性的,并且仍然是一个活跃的研究领域,因为从物理的第一原理推导模型在某些方面可能非常复杂,并且还可能由于参数不确定性和未建模的非线性效应而引入偏差。
[0007]另一方面,仅从数据中学习模型可能会非常昂贵,并且通常受到泛化不足的影响。在基于模型的RL(MBRL)技术中,基于高斯过程回归(GPR)的模型在模型学习任务中受到了大量关注。实际上,GPR允许将先前物理信息与数据驱动的知识(即,从分析数据之间的相似性推断的信息)合并,从而产生所谓的半参数模型。
[0008]物理定律表明,机械系统的状态可以用其广义坐标的位置、速度和加速度来描述。然而,速度和加速度传感器通常不可用,特别是当考虑低成本设置时。例如,这些传感器在
当前作为现有技术销售的大多数机械臂操纵器中是不可用的。在这种情况下,通常通过位置测量的因果数字微分来估计速度和加速度,引入真实信号和估计信号之间的差。这些信号失真可被视为额外的未知输入噪声,其可显著损害学习算法的预测精度。
[0009]本专利技术的一些实施方式提供了用于不需要速度和加速度的测量的基于模型的RL算法的学习框架。代替将系统状态表示为位置、速度和加速度的集合,我们将状态定义为位置测量的有限过去历史以表示模型的无导数状态表示,其中位置的导数不包括在该状态表示中。对于无导数的非参数核,已经引入了无导数的GPR模型。
[0010]本专利技术的一些实施方式基于这样的认识,即无导数GPR模型可以被扩展到物理激励的无导数(PIDF)模型,提供更好的泛化特性,并且使得能够设计半参数无导数(SPDF)模型。
[0011]因此,一些实施方式基于如下认识:可以提供一种操纵器学习控制设备来控制操纵系统,所述操纵器学习控制设备包括接口,该接口被配置为接收所述操纵系统的操纵器状态信号和关于要由所述操纵系统在工作空间中操纵的对象的对象状态信号,其中,所述对象状态信号由至少一个对象检测器检测;输出接口,其被配置为向所述操纵系统发送初始和更新策略程序;存储器,其用于存储包括数据预处理程序、对象状态历史数据、操纵器状态历史数据、无导数半参数高斯过程(DF

SPGP)核学习程序、无导数半参数高斯过程(DF

SPGP)模型学习程序、更新策略程序和初始策略程序的计算机可执行程序;以及处理器,其与所述存储器连接,被配置为将所述初始策略程序发送到所述操纵系统以启动学习过程,所述学习过程操作操纵对象的操纵器系统达预设时间段,之后,所述处理器根据所述对象状态历史数据和所述操纵器状态历史数据更新所述DF

SPGP模型学习程序,所述对象状态历史数据和所述操纵器状态历史数据是使用所述数据预处理程序从在所述预设时间段内已经接收到的操纵器状态信号和对象状态信号的集合转换的,其中,所述处理器根据更新的DF

SPGP模型学习程序来对更新策略程序进行更新。
[0012]此外,本专利技术的另一实施方式基于以下认识:计算机实现的操纵器学习方法包括以下步骤:根据初始策略程序操作操纵系统达预设时间段,其中,所述初始策略程序启动学习过程,该学习过程操作用于操纵对象的操纵器系统;在所述预设时间段内接收操纵器状态信号和对象状态信号;根据从在所述预设时间段内接收到的操纵器状态信号和对象状态信号的集合转换而来的对象状态历史数据和操纵器状态历史数据来更新DF

SPGP模型学习程序;以及根据经更新的DF

SPGP模型学习程序来对更新策略程序进行更新。
附图说明
[0013]附图被包括在本说明书中以提供对本专利技术的进一步理解,阐释本专利技术的实施方式,且与说明书一起用于解释本专利技术的原理。
[0014][图1A][0015]图1A是示出根据本专利技术的实施方式的包括连接到机器人系统的无导数模型学习系统的操纵器学习控制设备的示意图;
[0016][图1B][0017]图1B示出了根据本专利技术的实施方式的用于描述无导数模型学习过程的流程图;
[0018][图1C][0019]图1C是示出根据本专利技术的实施方式的布置在操纵器学习控制设备中的无导数模型学习系统的示意图;
[0020][图2A][0021]图2A示出了根据本专利技术的实施方式的球杆实验设置的示例;
[0022][图2B][0023]图2B示出了利用数个标准物理激励估计器和利用根据本专利技术的一些实施方式获得的估计器在测试数据中获得的归一化均方根误差(nRMSE)比较;
[0024][图3A][0025]图3A示出了根据本专利技术的一些实施方式的在真实系统上和在无导数SPGP模型上利用iLQG策略控制球杆系统时球的位置的演化的比较;
[0026][图3B][0027]图3B示出了根据本专利技术的一些实施方式的使用无导数SPGP模型学习程序和无导数PIGP模型学习程序利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于控制操纵系统的操纵器学习控制设备,所述操纵器学习控制设备包括:接口,所述接口被配置为接收所述操纵系统的操纵器状态信号和关于要由所述操纵系统在工作空间中操纵的对象的对象状态信号,其中,所述对象状态信号由至少一个对象检测器检测;输出接口,所述输出接口被配置为向所述操纵系统发送初始策略程序和更新策略程序;存储器,所述存储器用于存储包括数据预处理程序、对象状态历史数据、操纵器状态历史数据、无导数半参数高斯过程DF

SPGP核学习程序、无导数半参数高斯过程DF

SPGP模型学习程序、更新策略程序和初始策略程序的计算机可执行程序;以及处理器,所述处理器与所述存储器连接,所述处理器被配置为将所述初始策略程序发送到所述操纵系统以用于启动学习过程,所述学习过程在预设时间段期间操作操纵所述对象的操纵器系统,其中,所述处理器根据所述对象状态历史数据和所述操纵器状态历史数据更新所述DF

SPGP模型学习程序,所述对象状态历史数据和所述操纵器状态历史数据是使用所述数据预处理程序从在所述预设时间段内已经接收到的操纵器状态信号和对象状态信号的集合转换的,其中,所述处理器根据更新的DF

SPGP模型学习程序来对所述更新策略程序进行更新。2.根据权利要求1所述的操纵器学习控制设备,其中,在已经根据经更新的DF

SPGP模型学习程序对所述更新策略程序进行更新之后,将所述更新策略程序发送到所述操纵系统。3.根据权利要求1所述的操纵器学习控制设备,其中,所述操纵器状态信号由状态检测器检测,其中,所述状态检测器布置在所述操纵系统的移动部分处或者所述操纵系统的非移动部分处,或者布置在所述操纵系统的所述移动部分和所述非移动部分两者处。4.根据权利要求3所述的操纵器学习控制设备,其中,所述操纵器状态信号是来自所述操纵系统的致动器或所述操纵系统的编码器的信号,或者是来自所述致动器和所述编码器的信号的组合。5.根据权利要求3所述的操纵器学习控制设备,其中,所述状态检测器是定位传感器或编码器或者所述定位传感器和所述编码器的组合。6.根据权利要求1所述的操纵器学习控制设备,其中,所述至少一个对象检测器是生成所述对象状态信号的RGB或RGBD相机。7.根据权利要求1所述的操纵器学习控制设备,其中,所述对象状态数据表示所述对象在预定时间段内的位置的顺序测量数据的集合。8.根据权利要求1所述的操纵器学习控制设备,其中,所述至少一个对象检测器与所述操纵系统分离。9.根据权利要求1所述的操纵器学习控制设备,其中...

【专利技术属性】
技术研发人员:D
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1