使用图像嵌入优化机器人代理的策略控制器制造技术

技术编号：23194178 阅读：39 留言：0更新日期：2020-01-24 17:24

提供了用于优化策略控制器以控制与环境交互以执行机器人任务的机器人代理的系统、方法和装置。方法之一包括使用神经网络优化策略控制器，该神经网络生成环境图像的数字嵌入和执行机器人任务的变体的另一代理的演示图像的演示序列。

A strategy controller for optimizing robot agents using image embedding

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用图像嵌入优化机器人代理的策略控制器对相关申请的交叉引用本申请要求于2017年9月20日提交的美国临时专利申请序列号No.62/561,133的优先权，其公开内容通过引用整体并入本文。
本说明书涉及强化学习。
技术介绍
在强化学习系统中，代理响应于接收表征环境的当前状态的观察，通过执行由强化学习系统选择的动作来与环境交互。一些强化学习系统根据神经网络的输出，响应于接收给定的观察，选择要由代理执行的动作。神经网络是机器学习模型，它使用一层或多层非线性单元来预测接收的输入的输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层、即下一隐藏层或输出层的输入。网络的每个层根据相应的参数集合的当前值从接收的输入生成输出。
技术实现思路
本说明书描述了一种系统，该系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序，其优化策略控制器，该策略控制器用于选择将由与环境交互的机器人代理执行的动作。具体地，策略控制器可以用于选择动作，使得机器人代理可以成功地执行机器人任务，例如，对象抓取任务、对象移动任务、导航任务或需要代理与真实环境交互以用于一些特定目的的其他任务。在一些情况下，策略控制器是以轨迹为中心的控制器，例如时变高斯控制器。在其他情况下，策略控制器是深度神经网络。可以在特定实施例中实现本说明书中描述的主题，以实现以下优点中的一个或多个。本说明书中描述的系统可以利用神经网络，其被训练来生成数字嵌入，该数字嵌入对于某些变换是不变的，例如对于...

【技术保护点】
1.一种优化策略控制器的方法，该策略控制器用于选择要由与环境交互的机器人代理执行以执行指定任务的动作，该方法包括：/n获得执行指定任务的变体的另一代理的演示图像的演示序列；/n使用时间对比神经网络处理演示序列中的每个演示图像，以生成每个演示图像的相应演示嵌入，其中时间对比神经网络已被训练为接收环境的输入图像并处理输入图像以生成输入图像的数字嵌入，其表征在输入图像中所描绘的环境的状态；/n通过执行使用当前策略控制器选择的动作，获得执行指定任务的机器人代理的机器人图像的机器人序列，其中，机器人序列中的每个机器人图像对应于演示序列中的相应演示图像；/n使用时间对比神经网络处理机器人序列中的每个机器人图像，以为每个机器人图像生成相应机器人嵌入；以及/n通过执行强化学习技术的迭代来更新当前策略控制器，以优化奖励函数，对于每个演示图像，奖励函数取决于演示图像的演示嵌入与对应机器人图像的机器人嵌入之间的距离。/n

【技术特征摘要】
【国外来华专利技术】20170920 US 62/561,1331.一种优化策略控制器的方法，该策略控制器用于选择要由与环境交互的机器人代理执行以执行指定任务的动作，该方法包括：
获得执行指定任务的变体的另一代理的演示图像的演示序列；
使用时间对比神经网络处理演示序列中的每个演示图像，以生成每个演示图像的相应演示嵌入，其中时间对比神经网络已被训练为接收环境的输入图像并处理输入图像以生成输入图像的数字嵌入，其表征在输入图像中所描绘的环境的状态；
通过执行使用当前策略控制器选择的动作，获得执行指定任务的机器人代理的机器人图像的机器人序列，其中，机器人序列中的每个机器人图像对应于演示序列中的相应演示图像；
使用时间对比神经网络处理机器人序列中的每个机器人图像，以为每个机器人图像生成相应机器人嵌入；以及
通过执行强化学习技术的迭代来更新当前策略控制器，以优化奖励函数，对于每个演示图像，奖励函数取决于演示图像的演示嵌入与对应机器人图像的机器人嵌入之间的距离。

2.根据权利要求1所述的方法，其中，另一代理是人类演示者。

3.根据权利要求1所述的方法，其中，另一代理是不同的机器人代理。

4.根据权利要求1至3中的任一项所述的方法，其中，策略控制器是以轨迹为中心的控制器。

5.根据权利要求4所述的方法，其中，策略控制器是时变高斯控制器。

6.根据权利要求1至5中任一项所述的方法，其中，强化学习技术是PILQR技术。

7.根据权利要求1至6中任一项所述的方法，其中，奖励函数包括欧几里得距离项，该欧几里得距离项是演示图像的演示嵌入与对应机器人图像的机器人嵌入之间的欧几里得距离的平方。

8.根据权利要求1至7中任一项所述的方法，其中，奖励函数包括Huber型损失项，该Huber型损失项是常数值与欧几里得距离的平方之间的和的平方根，该欧几里得距离是演示图像的演示嵌入和对应机器人图像的机器人嵌入之间的欧几里得距离。

9.根据权利要求1至6中的任一项所述的方法，其中，奖励函数满足：

其中vt是演示序列中第t位置的演示图像的演示嵌入，wt是机器人序列中第t位置的机器人图像的机器人嵌入，α和β是固定权重参数，并且γ是小的正常数值。

10.根据权利要求1至9中任一项所述的方法，其中，从与机器人序列中的图像不同的视点捕获演示序列中的图像。

11.根据权利要求10所述的方法，其中，从相对于另一代理的第三方视角捕获演示序列中的图像，并且从相对于机器人代理的第一方视角捕获机器人序列中的图像。

12.根据权利要...

【专利技术属性】
技术研发人员：Y切博塔，P塞尔马尼特，H林奇，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人