使用图像嵌入优化机器人代理的策略控制器制造技术

技术编号:23194178 阅读:39 留言:0更新日期:2020-01-24 17:24
提供了用于优化策略控制器以控制与环境交互以执行机器人任务的机器人代理的系统、方法和装置。方法之一包括使用神经网络优化策略控制器,该神经网络生成环境图像的数字嵌入和执行机器人任务的变体的另一代理的演示图像的演示序列。

A strategy controller for optimizing robot agents using image embedding

【技术实现步骤摘要】
【国外来华专利技术】使用图像嵌入优化机器人代理的策略控制器对相关申请的交叉引用本申请要求于2017年9月20日提交的美国临时专利申请序列号No.62/561,133的优先权,其公开内容通过引用整体并入本文。
本说明书涉及强化学习。
技术介绍
在强化学习系统中,代理响应于接收表征环境的当前状态的观察,通过执行由强化学习系统选择的动作来与环境交互。一些强化学习系统根据神经网络的输出,响应于接收给定的观察,选择要由代理执行的动作。神经网络是机器学习模型,它使用一层或多层非线性单元来预测接收的输入的输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层、即下一隐藏层或输出层的输入。网络的每个层根据相应的参数集合的当前值从接收的输入生成输出。
技术实现思路
本说明书描述了一种系统,该系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序,其优化策略控制器,该策略控制器用于选择将由与环境交互的机器人代理执行的动作。具体地,策略控制器可以用于选择动作,使得机器人代理可以成功地执行机器人任务,例如,对象抓取任务、对象移动任务、导航任务或需要代理与真实环境交互以用于一些特定目的的其他任务。在一些情况下,策略控制器是以轨迹为中心的控制器,例如时变高斯控制器。在其他情况下,策略控制器是深度神经网络。可以在特定实施例中实现本说明书中描述的主题,以实现以下优点中的一个或多个。本说明书中描述的系统可以利用神经网络,其被训练来生成数字嵌入,该数字嵌入对于某些变换是不变的,例如对于诸如视点、遮挡、运动模糊、照明、背景或对象实例的变换是不变的,以有效地优化策略控制器,以选择要由机器人代理执行的操作。因此,系统可以仅使用原始视频演示进行监视来优化控制器,即无需任何明确的联合级别对应关系或其他标记的数据。具体地,该系统既可以训练生成嵌入的时间对比神经网络,又可以仅使用原始视频数据来优化策略控制器。例如,对诸如视图变换的因素的学习的不变性可以改善其他代理在模仿运动时的性能。具体地,所描述的系统可以优化策略控制器,以便即使在机器人代理执行任务时仅仅由机器人代理拍摄的第一人图像可用时,控制代理仅从执行该任务的另一代理的第三人图像来执行任务。即,在代理执行任务时,即使当演示图像的视点与由机器人代理捕获的图像的视点不同时,系统也可以有效地优化策略控制器。本说明书的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书,本主题的其他特征、方面和优点将变得显而易见。附图说明图1示出了示例强化学习系统。图2示出了被配置为训练时间对比神经网络的示例训练系统。图3示出了由两个不同模态捕获的观察的示例三元组。图4示出了观察的另一示例三元组,包括由单个模态捕获的锚(anchor)观察、肯定观察和否定观察。图5是用于训练时间对比神经网络的示例处理的流程图。图6是用于优化策略控制器的示例处理的流程图。在各个附图中,相同的附图标记和标号表示相同的元件。具体实施方式图1示出了示例强化学习系统100,其优化用于控制机器人代理112的策略控制器110。强化学习系统100是被实现为实现在下面描述的系统、组件和技术的一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例。机器人代理112可以是例如机器人臂或更复杂的机器人。策略控制器110是用于在机器人代理112与环境交互时选择将由机器人代理112执行的动作的控制器。具体地,策略控制器110接收表征环境的当前状态的数据,并生成定义将由机器人代理112执行的动作的输出。数据可以是当前状态的特征,并且输出可以定义机器人代理的控制输入,例如要施加到机器人代理的一个或多个关节的扭矩。例如,对于每个关节,输出可以是可以从中采样扭矩的分布的参数。在一些情况下,当前状态的特征是表征环境的状态的低维特征,例如,低维特征向量或特征矩阵,并且策略控制器110是以轨迹为中心的控制器,例如,时变高斯控制器。例如,特征可以包括对于机器人代理112的每个关节的相应的当前关节角度和当前关节速度。在一些情况下,当前状态的特征还可以包括表征代理外部的环境的特征,例如特征向量。例如,特征向量可以是由代理112的相机捕获的环境的图像的嵌入,例如,由时间对比(timecontrastive)神经网络130生成的嵌入,这将在下面更详细地描述。在一些其他情况下,当前状态的特征是高维特征,例如当代理与环境交互时由机器人代理112捕获的图像,并且策略控制器110是深度神经网络,例如卷积神经网络或循环(recurrent)神经网络。对于策略控制器110来说,控制机器人代理112意味着系统100或另一系统使机器人代理112执行由策略控制器110的输出所定义的动作,即通过向机器人代理112或机器人代理112的控制系统提供控制输入。系统100优化策略控制器110,使得策略控制器110能够被用于控制机器人代理112以使机器人代理112成功执行机器人任务,例如,对象抓取任务、对象移动任务(例如,将水从一个容器倒入另一容器或将一个容器从一个位置移到另一位置)、导航任务或需要代理与现实世界环境进行交互以用于一些特定目的的另一任务。具体地,系统100使用执行指定任务的变体的另一代理(例如,另一机器人代理或人类演示者)的演示图像120的演示序列来优化策略控制器110。即,每个演示图像120是在另一代理执行特定任务的变体时捕获的另一代理的图像。通常,演示序列将包括从另一代理首先开始执行任务时开始到另一代理成功完成任务结束的图像。例如,可以在演示代理执行任务的同时以规则的时间间隔捕获序列中的演示图像120。指定任务的变体可以与要由机器人代理112执行的指定任务相同,或者可以在某些方面不同于要由机器人代理112执行的任务。例如,如果要被控制器优化的任务是将对象移动到环境中的目标位置,则在演示图像中执行的任务的变体可以移动与机器人代理112将要执行移动任务的对象稍有不同的对象,例如与代理112将执行移动任务的对象具有不同的颜色、具有不同的形状或具有其他不同属性的对象。系统100使用时间对比神经网络130处理演示序列中的每个演示图像120,以生成每个演示图像的相应演示嵌入132。时间对比神经网络120是以下神经网络:其已经被训练以接收环境的输入图像并处理输入图像,以生成表征如输入图像中所描绘的环境的状态的输入图像的数字嵌入,例如向量或数字值的其他有序集合。由于时间对比神经网络130已经被训练的方式,因此由神经网络130生成的数字嵌入表征在输入图像中描绘的场景的性质,而对于某些变换(例如,诸如视点、遮挡、运动模糊、照明、背景或对象实例的变换)不变。将在下面参考图2-5更详细地描述训练时间对比神经网络130以实现这一点。然后,系统100可以使用演示嵌入132来迭代更新策略控制器110。具体地,在优化处理的每次迭代中,系统100通过执行使用当前策略控制器(即,当前迭代的策略控制器本文档来自技高网...

【技术保护点】
1.一种优化策略控制器的方法,该策略控制器用于选择要由与环境交互的机器人代理执行以执行指定任务的动作,该方法包括:/n获得执行指定任务的变体的另一代理的演示图像的演示序列;/n使用时间对比神经网络处理演示序列中的每个演示图像,以生成每个演示图像的相应演示嵌入,其中时间对比神经网络已被训练为接收环境的输入图像并处理输入图像以生成输入图像的数字嵌入,其表征在输入图像中所描绘的环境的状态;/n通过执行使用当前策略控制器选择的动作,获得执行指定任务的机器人代理的机器人图像的机器人序列,其中,机器人序列中的每个机器人图像对应于演示序列中的相应演示图像;/n使用时间对比神经网络处理机器人序列中的每个机器人图像,以为每个机器人图像生成相应机器人嵌入;以及/n通过执行强化学习技术的迭代来更新当前策略控制器,以优化奖励函数,对于每个演示图像,奖励函数取决于演示图像的演示嵌入与对应机器人图像的机器人嵌入之间的距离。/n

【技术特征摘要】
【国外来华专利技术】20170920 US 62/561,1331.一种优化策略控制器的方法,该策略控制器用于选择要由与环境交互的机器人代理执行以执行指定任务的动作,该方法包括:
获得执行指定任务的变体的另一代理的演示图像的演示序列;
使用时间对比神经网络处理演示序列中的每个演示图像,以生成每个演示图像的相应演示嵌入,其中时间对比神经网络已被训练为接收环境的输入图像并处理输入图像以生成输入图像的数字嵌入,其表征在输入图像中所描绘的环境的状态;
通过执行使用当前策略控制器选择的动作,获得执行指定任务的机器人代理的机器人图像的机器人序列,其中,机器人序列中的每个机器人图像对应于演示序列中的相应演示图像;
使用时间对比神经网络处理机器人序列中的每个机器人图像,以为每个机器人图像生成相应机器人嵌入;以及
通过执行强化学习技术的迭代来更新当前策略控制器,以优化奖励函数,对于每个演示图像,奖励函数取决于演示图像的演示嵌入与对应机器人图像的机器人嵌入之间的距离。


2.根据权利要求1所述的方法,其中,另一代理是人类演示者。


3.根据权利要求1所述的方法,其中,另一代理是不同的机器人代理。


4.根据权利要求1至3中的任一项所述的方法,其中,策略控制器是以轨迹为中心的控制器。


5.根据权利要求4所述的方法,其中,策略控制器是时变高斯控制器。


6.根据权利要求1至5中任一项所述的方法,其中,强化学习技术是PILQR技术。


7.根据权利要求1至6中任一项所述的方法,其中,奖励函数包括欧几里得距离项,该欧几里得距离项是演示图像的演示嵌入与对应机器人图像的机器人嵌入之间的欧几里得距离的平方。


8.根据权利要求1至7中任一项所述的方法,其中,奖励函数包括Huber型损失项,该Huber型损失项是常数值与欧几里得距离的平方之间的和的平方根,该欧几里得距离是演示图像的演示嵌入和对应机器人图像的机器人嵌入之间的欧几里得距离。


9.根据权利要求1至6中的任一项所述的方法,其中,奖励函数满足:



其中vt是演示序列中第t位置的演示图像的演示嵌入,wt是机器人序列中第t位置的机器人图像的机器人嵌入,α和β是固定权重参数,并且γ是小的正常数值。


10.根据权利要求1至9中任一项所述的方法,其中,从与机器人序列中的图像不同的视点捕获演示序列中的图像。


11.根据权利要求10所述的方法,其中,从相对于另一代理的第三方视角捕获演示序列中的图像,并且从相对于机器人代理的第一方视角捕获机器人序列中的图像。


12.根据权利要...

【专利技术属性】
技术研发人员:Y切博塔P塞尔马尼特H林奇
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1