当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于模型的机器人操作技能参数学习方法技术

技术编号:38859851 阅读:31 留言:0更新日期:2023-09-17 10:03
本发明专利技术公开了一种基于模型的机器人操作技能参数学习方法,包括单一技能的策略学习模块、任务技能的参数学习模块,单一技能的策略学习模块包括面向物体的表征模型和以语义目标为条件的策略模型,任务技能的参数学习模块包括隐式状态转移模型学习模块和技能参数在线规划模块;本发明专利技术单一语义技能策略学习模块将表征学习和强化学习相结合,将视觉输入到当前系统状态的逻辑表征的推理转化和面向任务的机器人策略学习相结合,生成满足目标逻辑状态的动作参数。使用强化学习方法,避免了大量的模型设计与处理以及对专家示教数据的需求,并且基于操作知识库对技能的动作序列进行预定义,缩小动作的搜索空间,降低智能体的探索负担。负担。负担。

【技术实现步骤摘要】
一种基于模型的机器人操作技能参数学习方法


[0001]本专利技术涉及表征学习技术、强化学习技术和机器人技能规划技术,具体地说,涉及一种基于模型的机器人操作技能参数学习方法。

技术介绍

[0002]随着各项技术的发展,机器人在家庭服务、工业生产等领域被广泛应用,学习诸如端茶倒水、机械零件装配等操作技能,来帮助人们完成各式各样的复杂任务。而传统的手动编程、示教编程等方法存在效率低、成本高、自主性差等问题,难以满足复杂场景需求的多样性,极大地限制了机器人的广泛应用,因此对机器人操作技能的自主性和泛化性提出了更高的要求。
[0003]长序列操作任务的多步规划技术不需要用户手动编程,设定各种细致的模型规范和针对特定任务的手工处理,只需要根据任务内容确定目标形式及任务中可执行的基元技能集合,机器人就可以通过规划方法从中选择合适的技能序列及确定有效的动作参数,进而通过底层控制器生成对应的动作轨迹。但是该方法往往需要确定环境状态和环境动力学的特定知识,包括确定不同基元技能的先决条件及执行效果,而这在真实环境中通常很难获取。除此之外,操作任务的完成情况往往需要用户以预定义的映射关系或人工标注的方式来手动确定,效率极低。
[0004]基于模型的强化学习方法正是可以满足这些要求的一个重要发展方向。基于模型的强化学习问题研究的是如何利用采集的环境交互数据学习环境状态的动力学模型,以方便有效地表征机器人不同基元技能对环境状态的影响,更好地选择合适的技能序列和准确的动作参数来完成目标任务。
[0005]同时,目前的表征方法可以对环境图像信息进行细致的符号化表征,生成相应的符号状态,有效反映出当前任务的执行进度,从而自动判断目标操作任务的完成情况。而且该方法也能够迁移到其他类似的操作场景中,可以大大减轻用户负担。
[0006]将基于模型的强化学习方法和技能规划技术相结合,并融合有效的环境表征方法,不仅能减少繁杂的人为手动处理,避免对环境特定知识的过度依赖,而且能够大大提升机器人对长序列操作任务的执行和泛化效果。

技术实现思路

[0007]为了克服现有技术的不足,本专利技术的目的在于提供一种基于模型的机器人操作技能参数学习方法,实现机器人在长序列操作任务中动作参数的生成。本专利技术是通过以下技术方案来实现的:
[0008]本专利技术公开了一种基于模型的机器人操作技能参数学习方法,包括单一技能的策略学习模块、任务技能的参数学习模块;
[0009]单一技能的策略学习模块包括面向物体的表征模型和以语义目标为条件的策略模型;
[0010]任务技能的参数学习模块包括隐式状态转移模型学习模块和技能参数在线规划模块;
[0011]其中单一技能的策略学习模块可训练得到多个单一语义技能的策略模型,作为预训练的先验模块,服务于后续任务技能的参数学习模块。
[0012]作为进一步地改进,本专利技术所述的单一技能的策略学习模块,利用表征学习对环境中各物体进行空间关系的表征,训练得到面向物体的表征模型,并借助表征模型中的编码器来编码环境观测,使用强化学习方法训练智能体,使其能以用户给定的单一语义技能目标为条件生成对应任务的动作参数,得到多个策略模型;
[0013]任务技能的参数学习模块,采用监督学习训练隐式空间上的状态转移模型,其中隐式空间基于表征模型的编码器得到,表征不同技能动作参数对环境状态的影响;利用隐式状态转移模型对动作参数执行后的环境状态进行多步预测,借助表征模型中的解码器对预测得到的隐式状态进行解码,将解码出的符号状态作为规划目标,采用规划方法规划出给定技能序列中每一步合适的动作参数,能依次实现用户所指定的各个语义目标。
[0014]作为进一步地改进,本专利技术包括:
[0015]1)、面向物体的表征模型,对环境观测进行语义信息层面的表征,推理当前环境图像所对应的物体空间关系;
[0016]2)、以语义目标为条件的策略模型,将环境图像经过表征模型得到的隐式特征和用户指定的语义目标作为输入,生成对应语义技能的动作参数,直到当前环境观测对应的语义信息与语义目标相匹配;
[0017]3)、隐式状态转移方程学习模块,用于从训练数据集中学习环境观测在表征模型中的隐式空间上的状态转移模型,预测不同基元技能对环境状态的影响;
[0018]4)、技能参数在线规划模块,基于对应语义技能的以语义目标为条件的策略模型采样生成多个动作参数,构建参数候选集合,基于隐式状态转移模型预测未来状态,借助规划方法挑选出能依次实现语义目标的动作参数。
[0019]作为进一步地改进,本专利技术所述的面向物体的表征模型训练方法包括如下步骤:
[0020]1)、面向目标操作场景,随机化基元技能类型和动作参数,使机器人与环境进行交互,收集每帧图像数据和对应的物体空间关系的标签信息;
[0021]2)、构建面向物体的表征网络模型其中为网络参数,采取编码器

解码器的架构形式。其中编码器使用Transformer的网络架构,输入包括一张场景观测的RGB图像和各个操作物体在固定相机视角下的图像,将图像信息映射到隐式空间;解码器采用两层全连接网络,每层全连接网络包含512个神经元,每个神经元使用GELU函数作为激活函数,用于提取图像中各物体的空间位置关系和谓词信息。采用该表征模型进行学习,得到对应的网络模型参数。定义面向物体的表征网络的损失函数如式1)所示:
[0022][0023]其中Φ是网络的预测输出,Φ
*
是真实标签。
[0024]作为进一步地改进,本专利技术所述的以语义目标为条件的策略模型包括如下步骤:
[0025]1)、根据目标操作场景设计基础动作库,为每种语义技能从中挑选合适的动作类型来组成相应的动作序列,包括末端移动、开启夹爪、关闭夹爪等基础动作;
[0026]2)、仿真环境中随机初始化机械臂的关节角度和场景中各物体的位姿;
[0027]3)、使用全连接层作为策略网络,其输入定义为s=[h,g],包括图像的潜在表示和语义目标,策略网络有两个输出分支,其中一个分支作为强化学习的执行器,输出仿真环境需要执行的下一个动作,动作内容包括机械臂末端的笛卡尔空间,a=[x,y,z,roll,pitch,yaw],另一个分支作为强化学习的评估器,输出价值函数,v=f(s),其中f代表策略网络的全连接层,x,y,z,roll,pitch,yaw代表机械臂末端的期望位置和姿态;
[0028]4)、构建策略网络仿真中通过相机获取桌面场景的RGB图像,利用面向物体的表征模型中的编码器,得到场景图像的潜在表示h;然后将潜在表示h和语义目标g作为策略网络的输入,输出动作序列中合适的动作类型及参数a,仿真环境执行动作a,并返回奖励函数r,奖励函数如下定义:
[0029][0030]其中done表示当前环境观测对应的语义信息匹配用户指定的语义目标;
[0031]5)、记录机械臂执行轨迹τ=[h,g,a,r,done],记录N=50000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模型的机器人操作技能参数学习方法,其特征在于,包括单一技能的策略学习模块、任务技能的参数学习模块;所述的单一技能的策略学习模块包括面向物体的表征模型和以语义目标为条件的策略模型;所述的任务技能的参数学习模块包括隐式状态转移模型学习模块和技能参数在线规划模块;其中单一技能的策略学习模块可训练得到多个单一语义技能的策略模型,作为预训练的先验模块,服务于后续任务技能的参数学习模块。2.根据权利要求1所述的基于模型的机器人操作技能参数学习方法,其特征在于,所述的单一技能的策略学习模块,利用表征学习对环境中各物体进行空间关系的表征,训练得到面向物体的表征模型,并借助表征模型中的编码器来编码环境观测,使用强化学习方法训练智能体,使其能以用户给定的单一语义技能目标为条件生成对应任务的动作参数,得到多个策略模型;所述的任务技能的参数学习模块,采用监督学习训练隐式空间上的状态转移模型,其中隐式空间基于表征模型的编码器得到,表征不同技能动作参数对环境状态的影响;利用隐式状态转移模型对动作参数执行后的环境状态进行多步预测,借助表征模型中的解码器对预测得到的隐式状态进行解码,将解码出的符号状态作为规划目标,采用规划方法规划出给定技能序列中每一步合适的动作参数,能依次实现用户所指定的各个语义目标。3.根据权利要求2所述的基于模型的机器人操作技能参数学习方法,其特征在于,1)、所述的面向物体的表征模型,对环境观测进行语义信息层面的表征,推理当前环境图像所对应的物体空间关系;2)、所述的以语义目标为条件的策略模型,将环境图像经过表征模型得到的隐式特征和用户指定的语义目标作为输入,生成对应语义技能的动作参数,直到当前环境观测对应的语义信息与语义目标相匹配;3)、所述的隐式状态转移方程学习模块,用于从训练数据集中学习环境观测在表征模型中的隐式空间上的状态转移模型,预测不同基元技能对环境状态的影响;4)、所述的技能参数在线规划模块,基于对应语义技能的以语义目标为条件的策略模型采样生成多个动作参数,构建参数候选集合,基于隐式状态转移模型预测未来状态,借助规划方法挑选出能依次实现语义目标的动作参数。4.根据权利要求3所述的基于模型的机器人操作技能参数学习方法,其特征在于,所述的面向物体的表征模型训练方法包括如下步骤:1)、面向目标操作场景,随机化基元技能类型和动作参数,使机器人与环境进行交互,收集每帧图像数据和对应的物体空间关系的标签信息;2)、构建面向物体的表征网络模型其中为网络参数,采取编码器

解码器的架构形式。其中编码器使用Transformer的网络架构,输入包括一张场景观测的RGB图像和各个操作物体在固定相机视角下的图像,将图像信息映射到隐式空间;解码器采用两层全连接网络,每层全连接网络包含512个神经元,每个神经元使用GELU函数作为激活函数,用于提取图像中各物体的空间位置关系和谓词信息。采用该表征模型进行学习,得到对应的网络模
型参数。定义面向物体的表征网络的损失函数如式1)所示:其中Φ是网络的预测输出,Φ
*
是真实标签。5.根据权利要求4所述的基于模型的机器人操作技能参数学习方法,其特征在于,所述的以语义目标为条件的策略模型包括如下步骤:1)、根据目标操作场景设计基础动作库,为每种语义技能从中挑选合适的动作类型来组成相应的动作序列,包括末端移动、开启夹爪、关闭夹爪等基础动作;2)、仿真环境中随机初始化机...

【专利技术属性】
技术研发人员:熊蓉赵英豪周忠祥王越
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1