基于像素的模型预测控制的系统和方法技术方案

技术编号:26849977 阅读:43 留言:0更新日期:2020-12-25 13:18
公开了基于潜在动力学模型和奖励函数实现机器人的模型预测控制的技术。在许多实施方式中,潜在空间可以分为确定性部分和随机性部分,从而允许模型用于生成更可能的机器人轨迹。附加或可替代实施方式包括许多奖励函数,其中每个奖励函数都对应于不同的机器人任务。

【技术实现步骤摘要】
【国外来华专利技术】基于像素的模型预测控制的系统和方法
技术介绍
机器人(有时称为“代理(agent)”)可能能够执行各种任务,例如用机器人的末端效应器抓取物体、规划机器人在环境中遍历的路径以及在环境中遍历规划的路径。为了在环境中成功执行特定任务,机器人可能需要通过作出观测来确定其在环境中的当前状态。相机可以安装到机器人或者安装在环境中的某个位置,以在第一时间实例捕获机器人的当前姿势。此外,机器人可以及时地在第一时间实例从各种传感器检测机器人的每个关节的当前位置。例如,如果机器人要开始执行特定任务,则该机器人可能能够基于每个机器人在第一时间实例的姿势和位置在第二时间实例预测机器人的未来姿势和机器人的每个关节的未来位置。已经提出了各种基于机器学习的技术,以使机器人能够执行各种新任务。例如,一些技术使用户能够在模拟模型中对机器人及其环境进行建模,并通过利用模拟训练示例在模拟模型内学习新任务。可以提供一个简单的状态空间模型(state-spacemodel,SSM),以在模拟模型内实现训练。简单的SSM可以由三个组件组成:编码器、过渡函数和解码器。编码器可以分析机器人的先前状态和当前状态,过本文档来自技高网...

【技术保护点】
1.一种由一个或多个处理器实施的方法,包括:/n使用无监督机器人轨迹来训练潜在机器人动力学模型,其中,所述无监督机器人轨迹中的每个包括以下各项的相应序列:/n部分机器人观测,所述部分机器人观测中的每个用于所述序列的相应时间步骤,和/n机器人动作,所述机器人动作中的每个用于所述序列的相应时间步骤;/n识别机器人任务的受监督机器人任务轨迹,其中,所述受监督机器人任务轨迹中的每个包括以下各项的相应序列:/n在所述机器人任务的相应执行期间的部分任务机器人观测,/n在所述机器人任务的相应执行期间的任务机器人动作,和/n针对所述机器人任务的相应执行的标记的任务奖励;/n使用所述受监督机器人任务轨迹训练所述...

【技术特征摘要】
【国外来华专利技术】20180518 US 62/673,7441.一种由一个或多个处理器实施的方法,包括:
使用无监督机器人轨迹来训练潜在机器人动力学模型,其中,所述无监督机器人轨迹中的每个包括以下各项的相应序列:
部分机器人观测,所述部分机器人观测中的每个用于所述序列的相应时间步骤,和
机器人动作,所述机器人动作中的每个用于所述序列的相应时间步骤;
识别机器人任务的受监督机器人任务轨迹,其中,所述受监督机器人任务轨迹中的每个包括以下各项的相应序列:
在所述机器人任务的相应执行期间的部分任务机器人观测,
在所述机器人任务的相应执行期间的任务机器人动作,和
针对所述机器人任务的相应执行的标记的任务奖励;
使用所述受监督机器人任务轨迹训练所述机器人任务的奖励函数;
控制机器人执行所述机器人任务,其中,控制所述机器人执行所述机器人任务包括:
使用经训练的机器人潜在动力学模型和经训练的机器人任务的奖励函数,确定机器人的动作序列;以及
通过实施所述动作序列来控制所述机器人。


2.根据权利要求1所述的方法,其中,所述无监督机器人轨迹的部分机器人观测和所述受监督机器人任务轨迹的部分任务机器人观测各自是捕获相应机器人的相应图像。


3.根据权利要求1或权利要求2所述的方法,其中,所述潜在机器人动力学模型是确定性信念状态模型(DBSM)。


4.根据权利要求3所述的方法,其中,所述DBSM包括编码器网络、过渡函数、后验函数和解码器网络。


5.根据权利要求4所述的方法,其中,训练所述DBSM包括使用潜在超调来训练所述过渡函数。


6.根据权利要求5所述的方法,其中,所述潜在超调包括在每个时间步骤处根据相应后验执行固定数量的开环预测。


7.根据权利要求6所述的方法,其中,所述潜在超调还包括确定所述开环预测与所述相应后验之间的Kullback-Leibler散度。


8.根据权利要求3至7中的任一项所述的方法,其中,训练所述DBSM包括训练所述编码器网络以在每个时间步骤处确定性地更新确定性激活向量。


9.根据前述权利要求中的任一项所述的方法,其中,使用所述经训练的机器人潜在动力学模型和所述经训练的机器人任务的奖励函数两者来确定所述机器人的动作序列包括:鉴于所述经训练的机器人潜在动力学模型和所述经训练的奖励函数使用模型预测控制。


10.根据前述权利要求中的任一项所述的方法,其中,训练所述奖励函数包括:基于第一数量的受监督机器人任务轨迹来训练所述奖励函数,其中,所述第一数量小于在其上训练所述潜在机器人动力学模型的所述无监督机器人轨迹的第二数量。


11.根据权利要求10所述的方法,其中,所述第一数量小于所述第二数量的百分之一。


12.根据权利要求10所述的方法,其中,所述第一数量小于五十。


13.根据权利要求12所述的方法,其中,所述第一数量小于二十五。


1...

【专利技术属性】
技术研发人员:D哈夫纳
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1