一种基于动态系统模型的机器人模仿学习的方法技术方案

技术编号:21017686 阅读:29 留言:0更新日期:2019-05-04 00:09
本发明专利技术公开一种基于动态系统模型的机器人模仿学习的方法,通过学习来实现机器人对于示教运动的模仿。具体地,通过高斯混合模型将示教运动建模为一非线性动态系统模型,另外通过附加稳定性约束条件的方法,来保证运动模型的稳定性。并将运动模型的参数学习问题转化为求解一个约束优化问题,以此来获得对于运动模型的完整描述。最后,将学习得到的运动模型作为控制策略来指导机器人对于示教运动的模仿。本发明专利技术对于目标点固定的示教运动,具有很好的稳定性,生成的所有运动轨迹均收敛到目标点,对于简单和较复杂的示教运动有很好的表达能力,而且运动模型的泛化能力表现也较好,示教运动范围外也可以生成平滑的且收敛到目标的运动轨迹。

A Robot Imitation Learning Method Based on Dynamic System Model

The invention discloses a method of robot imitation learning based on dynamic system model, which realizes robot imitation of teaching motion by learning. Specifically, the teaching motion is modeled as a non-linear dynamic system model through the Gauss mixture model, and the stability of the motion model is guaranteed by adding stability constraints. The parameter learning problem of the motion model is transformed into a constrained optimization problem to obtain a complete description of the motion model. Finally, the learning motion model is used as a control strategy to guide the robot to imitate the teaching motion. The method has good stability for teaching motion with fixed target points, converges all generated motion trajectories to target points, has good expressive ability for simple and complex teaching motion, and has good generalization ability of motion model, and can generate smooth and convergent motion trajectories outside the teaching motion range.

【技术实现步骤摘要】
一种基于动态系统模型的机器人模仿学习的方法
本专利技术属于人工智能和机器人控制领域,尤其涉及一种基于动态系统模型的机器人模仿学习的方法。
技术介绍
当前,在机器人技术的研究中,如何使机器人具备类似于人类的智能行为已成为一大研究热点。而从人类学习中发展而来的模仿学习,作为机器人直接获取知识和技能的方式之一,在机器人的智能性的提升方面愈来愈发挥出巨大的作用,越来越多地受到学术界的关注和研究。其主要在于,一方面,相对于传统的机器人编程控制,模仿学习将使得机器人编程更加容易,减少了对于操控人员的专业性要求,且大大提高了机器人的作业效率;另一方面,模仿学习赋予机器人获取知识和学习知识的能力,使其能够快速学习,并具备更高的智能性。对于机器人模仿学习,一般由三个过程组成:示教过程,学习过程,再现过程。目前,对于机器人模仿学习的研究,学术界和工业界主要集中在对学习过程的研究,而且已经出现了多种模仿学习的方法用来实现机器人的学习过程。这些方法主要分为三个大的类别,一是基于监督学习的方法,二是基于强化学习的方法,三是基于生成对抗网络的方法。这些方法的共同特点是,如何学习得到一个最优的控制策略,以此来指导机器人对于各种任务进行模仿或再现。虽然以上各种方法的出现解决了机器人模仿学习中的一些问题,但是对于机器人模仿学习,仍然存在着学习得到的运动模型或控制策略稳定性差、泛化能力差的问题,限制了机器人模仿学习的性能。具体表现在学习得到的运动模型并不能完全收敛到示教运动的目标点,对于示教运动范围外的空间缺乏足够的泛化能力,而且由于示教运动的复杂性,运动模型往往缺乏对于示教运动的表达能力。针对以上机器人模仿学习中的问题,对于机器人行为运动的模仿学习,提出了一种基于动态系统模型的机器人模仿学习的方法。基于动态系统模型的方法由于将示教运动建模为一非线性动态模型,可以方便表达复杂的示教运动轨迹信息,从而学习更复杂的运动技能。同时,考虑给动态模型附加稳定性约束条件,从而可以提高运动模型的稳定性和泛化能力,有利于提高机器人的智能化程度。
技术实现思路
本专利技术针对现有机器人模仿学习方法存在的问题,提出了一种基于动态系统模型的机器人模仿学习的方法。首先,该方法通过高斯混合模型GMM的方法将示教运动建模为一非线性动态系统模型;其次,将运动模型全局稳定的充分条件作为约束条件,以保证其所生成的所有轨迹都收敛到示教运动的目标点;再次,将运动模型的参数学习问题转化为求解一个约束优化问题,从而得到模型参数,实现对于运动模型的完整描述;最后,将学习得到的运动模型作为控制策略结合机器人系统来指导机器人完成运动的模仿。为了实现以上目的,本专利技术一种基于动态系统模型的机器人模仿学习的方法,具体步骤如下:步骤1、示教者通过手把手的方式指导机器人手臂完成一次或多次的示教运动,机器人由其内部的关节传感器记录示教运动过程中的关节角度变化情况,通过机械臂的正向运动学计算得到机械臂末端执行器的位置和速度变化信息步骤2、通过GMM将示教运动建模为一非线性动态系统模型。由GMM得到关于示教运动模型的参数化表示。步骤3、考虑所建模的运动模型的稳定性问题,基于李雅普诺夫稳定性理论,构造满足要求的李雅普诺夫函数,结合稳定性理论求解模型在示教运动目标点全局稳定的约束条件。步骤4、在得到稳定性约束后,进行模型参数的学习。将所建模得到的参数化的运动模型的参数学习问题转化为求解一个约束优化问题,其中约束条件包括两个部分:稳定性约束条件和GMM模型的约束条件。借助于非线性规划的方法求解约束优化问题,得到最优模型参数,进而得到对于运动模型的完整描述。步骤5、结合所构建的机器人模仿学习系统,将学习得到的运动模型作为机器人的控制策略指导其完成对于示教运动的模仿。附图说明图1是机器人模仿学习系统工作流程图;图2(a)是单次简单示教运动轨迹;图2(b)是单次简单示教运动中的学习效果;图2(c)是单次简单示教运动中运动模型的生成轨迹;图2(d)是单次简单示教运动中运动模型的生成轨迹;图3(a)是多次简单示教运动轨迹;图3(b)是多次简单示教运动中的学习效果;图3(c)是多次简单示教运动中运动模型的生成轨迹;图4(a)是单次复杂示教运动轨迹;图4(b)是单次复杂示教运动中的学习效果;图4(c)是单次复杂示教运动中运动模型的生成轨迹;图4(d)是单次复杂示教运动中运动模型的生成轨迹;图5(a)是多次复杂示教运动轨迹;图5(b)是多次复杂示教运动中的学习效果;图5(c)是多次复杂示教运动中运动模型的生成轨迹;图6(a)是三维空间中的示教运动轨迹;图6(b)是三维空间中的运动模型的生成轨迹。具体实施方式下面结合附图对本专利技术的具体实施方式进行详细说明。本专利技术提供一种基于动态系统模型的机器人模仿学习的方法,如图1所示是机器人模仿学习系统工作流程图。首先,对于某个目标点固定的模仿学习任务(如:拿放物品、篮球投篮等任务),通过手把手地抓取机器人手臂末端执行器进行多次目标点相对固定的运动示教,获得示教运动轨迹数据;然后,将获得的示教轨迹数据预处理后作为学习算法的输入数据,进而学习关于运动模型的参数,得到对于运动模型的完整描述。最后,将学习得到的运动模型作为机器人的控制策略,设置机器人手臂初始的运动位置,结合机器人的控制系统完成对示教任务的模仿。具体实现步骤如下:(1)手把手拖动机器人手臂末端进行N次运动任务的示教,且N=1,2,3,......,由机器人手臂的内部关节传感器记录运动过程中的关节角度变化情况,通过机械臂的正向运动学计算得到手臂末端执行器的位置和速度变化信息,即为示教运动轨迹信息,记为其中ζ表示位置,表示速度,t表示时间,N表示示教运动轨迹的条数。此后,示教运动轨迹信息可用作模仿学习算法的输入数据。(2)对于示教运动的建模,使用基于统计方法的高斯混合模型GMM来建立对于示教运动轨迹数据的概率描述。GMM是一种有限混合模型,其通过有限的高斯函数的混合来建立对示教运动数据的表示,同时可以消除数据的噪声。给定一组N条示教运动轨迹数据的集合GMM由以下概率密度函数表示:以上两式中GP(·)是高斯过程概率密度函数,K为GMM中混合模型的个数,ωk是第k个高斯过程的权重,且μk为该密度函数的均值向量,Σk为对应的协方差矩阵,d是变量ζ和的维度。对于给定ζ,的条件概率分布是:其中N(·)同样是服从高斯分布的概率密度函数,表示第k个高斯分布的情况,为对应的均值向量,为对应的方差矩阵,而且有公式(4)(5)中Σζζk分别是变量和变量ζ的方差矩阵,是变量与ζ之间的协方差矩阵,和μζk分别表示为对应于和ζ的均值向量,而且以上均表示为第k个高斯分布时的情况。由公式(3),对应于ζ的条件概率可定义为:而且有其中变量i与k表示的含义相同。由公式(6)条件期望可求得高斯混合模型中的总的期望为:而且有公式(8)即为参数化的运动模型,且为一个动态模型,用表示。公式(9)中及变量i与公式(7)中的表示相同。在得到对于运动模型的参数化描述后,接下来的工作是学习得到运动模型的参数。(3)由以上得到的参数化的运动模型,如果直接求解模型的未知参数,则得到的运动模型普遍存在稳定性问题,运动模型往往收敛不到运动的目标点ζ*。为了提高运动模型的稳定性,需要考虑其本文档来自技高网
...

【技术保护点】
1.一种基于动态系统模型的机器人模仿学习的方法,其特征在于,具体步骤如下:步骤1、示教者通过手把手的方式指导机器人手臂完成一次或多次的示教运动,机器人由其内部的关节传感器记录示教运动过程中的关节角度变化情况,通过机械臂的正向运动学计算得到机械臂末端执行器的位置和速度变化信息;步骤2、通过高斯混合模型GMM将示教运动轨迹数据建模为一非线性动态系统模型;由GMM得到关于示教运动模型的参数化表示;步骤3、考虑所建模的运动模型的稳定性问题,基于李雅普诺夫稳定性理论,构造满足要求的李雅普诺夫函数,结合动态系统稳定性的条件求解模型在示教运动目标点全局稳定的约束;步骤4、在得到稳定性约束后,进行模型参数的学习;将所建模得到的参数化的运动模型的参数学习问题转化为求解一个约束优化问题,借助于非线性规划的方法求解约束优化问题,得到最优模型参数,进而得到对于运动模型的完整描述;步骤5、结合所构建的机器人模仿学习系统,将学习得到的运动模型作为机器人的控制策略指导其完成对于示教运动的模仿。

【技术特征摘要】
1.一种基于动态系统模型的机器人模仿学习的方法,其特征在于,具体步骤如下:步骤1、示教者通过手把手的方式指导机器人手臂完成一次或多次的示教运动,机器人由其内部的关节传感器记录示教运动过程中的关节角度变化情况,通过机械臂的正向运动学计算得到机械臂末端执行器的位置和速度变化信息;步骤2、通过高斯混合模型GMM将示教运动轨迹数据建模为一非线性动态系统模型;由GMM得到关于示教运动模型的参数化表示;步骤3、考虑所建模的运动模型的稳定性问题,基于李雅普诺夫稳定性理论,构造满足要求的李雅普诺夫函数,结合动态系统稳定性的条件求解模型在示教运动目标点全局稳定的约束;步骤4、在得到稳定性约束后,进行模型参数的学习;将所建模得到的参数化的运动模型的参数学习问题转化为求解一个约束优化问题,借助于非线性规划的方法求解约束优化问题,得到最优模型参数,进而得到对于运动模型的完整描述;步骤5、结合所构建的机器人模仿学习系统,将学习得到的运动模型作为机器人的控制策略指导其完成对于示教运动的模仿。2.根据权利要求1所述的一种基于动态系统模型的机器人模仿学习的方法,其特征在于:步骤1中通过示教者对机器人进行运动的示教,由其内部的关节传感器记录示教运动过程中的关节角度变化情况,通过机械臂的正向运动学计算得到机械臂末端执行器的位置和速度变化信息,记为示教运动轨迹数据集其中ζ表示位置,表示速度,t表示时间,N=1,2,3,......表示示教运动轨迹的条数。3.根据权利要求1所述的一种基于动态系统模型的机器人模仿学习的方法,其特征在于,步骤2具体如下:给定一组N条示教运动轨迹数据的集合GMM由以下概率密度函数表示:以上两式中GP(·)是高斯过程概率密度函数,K为GMM中混合模型的个数,ωk是第k个高斯过程的权重,且μk为该密度函数的均值向量,Σk为对应的协方差矩阵;对于给定ζ,的条件概率分布是:其中N(·)同样是服从高斯分布的概率密度函数,表示第k个高斯分布的情况,为对应的均值向量,为对应的方差矩阵,而且有公式(4)(5)中Σζζk分别是变量和变量ζ的方差矩阵,是变量与ζ之间的协方差矩阵,和μζk分别表示为对应于和ζ的均值向量,而且以上均表示为第k个高斯分布时的情况;由公式(3),对应于ζ的条件概率可定义而且有其中变量i与k表示的含义相同;由公式(6)的...

【专利技术属性】
技术研发人员:于建均姚红柯阮晓钢安硕王洋
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1