用于机器人代理的控制策略制造技术

技术编号:21282479 阅读:36 留言:0更新日期:2019-06-06 12:29
一种方法,包括:接收数据,该数据针对一个或多个对象中的每个来识别与真实世界环境交互的机器人代理应当将该对象移动到的相应的目标位置;通过重复地执行下述来使得机器人代理将一个或多个对象移动到一个或多个目标位置:接收真实世界环境的当前状态的当前图像,使用基于当前动作和将要由机器人代理执行的动作预测未来图像的下一图像预测神经网络来根据当前图像确定将要由机器人代理执行的动作的下一序列,以及指示机器人代理执行动作的下一序列。

Control Strategy for Robot Agent

A method includes: receiving data for each of one or more objects to identify the corresponding target location where the robot agent interacting with the real world environment should move the object; moving one or more objects to one or more target locations by repeatedly executing the following: receiving the current state of the real world environment In the current image, the next image prediction neural network based on the current action and the action to be performed by the robot agent is used to determine the next sequence of actions to be performed by the robot agent according to the current image, and the next sequence of actions to be performed by the robot agent is indicated.

【技术实现步骤摘要】
【国外来华专利技术】用于机器人代理的控制策略对相关申请的交叉引用本申请要求于2016年9月15日提交的、序列号为62/395,329的美国临时申请的优先权。该在先申请的公开内容被认为是本申请的公开内容的一部分并且通过引用并入本申请的公开内容中。
本说明书涉及选择将要由机器人代理执行的动作。
技术介绍
机器人代理通过下述与环境交互:接收表征环境的状态的数据,并且作为响应、执行动作以便尝试执行机器人任务。一些机器人代理使用神经网络来选择响应于接收到任何给定观察(observation)而要执行的动作。神经网络是采用一层或多层的非线性单元来预测针对所接收到的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应的参数集的当前值来从接收到的输入生成输出。
技术实现思路
本说明书描述了被实施为一个或多个位置中的一个或多个计算机上的计算机程序的系统可以如何选择将要由机器人代理执行的动作。通常,一个创新方面可以体现在一种方法中,该方法包括:接收数据,该数据针对一个或多个对象中的每个来识别与真实世本文档来自技高网...

【技术保护点】
1.一种方法,包括:接收数据,所述数据针对一个或多个对象中的每个来识别与真实世界环境交互的机器人代理应当将所述对象移动到的相应的目标位置;以及通过重复地执行下述来使得机器人代理将所述一个或多个对象移动到所述一个或多个目标位置:接收真实世界环境的当前状态的当前图像;使用基于当前动作和将要由机器人代理执行的动作预测未来图像的下一图像预测神经网络来根据当前图像确定将要由机器人代理执行的动作的下一序列,其中,下一序列是多个候选序列中的下述序列,所述序列如果由机器人代理从环境处于当前状态时开始执行,则最有可能导致一个或多个对象被移动到相应的目标位置;以及指示机器人代理执行动作的下一序列。

【技术特征摘要】
【国外来华专利技术】2016.09.15 US 62/395,3291.一种方法,包括:接收数据,所述数据针对一个或多个对象中的每个来识别与真实世界环境交互的机器人代理应当将所述对象移动到的相应的目标位置;以及通过重复地执行下述来使得机器人代理将所述一个或多个对象移动到所述一个或多个目标位置:接收真实世界环境的当前状态的当前图像;使用基于当前动作和将要由机器人代理执行的动作预测未来图像的下一图像预测神经网络来根据当前图像确定将要由机器人代理执行的动作的下一序列,其中,下一序列是多个候选序列中的下述序列,所述序列如果由机器人代理从环境处于当前状态时开始执行,则最有可能导致一个或多个对象被移动到相应的目标位置;以及指示机器人代理执行动作的下一序列。2.根据权利要求1所述的方法,其中,所述当前图像是由机器人代理的相机捕获的图像。3.根据权利要求1或2中任一项所述的方法,还包括:针对向用户的呈现,提供允许用户指定要移动的对象和目标位置的用户界面。4.根据权利要求1至3中任一项所述的方法,其中,指示机器人代理执行动作的下一序列包括:指示机器人代理中断由机器人代理正在执行的动作的当前序列并且开始执行动作的下一序列。5.根据权利要求1至4中任一项所述的方法,其中,所述下一图像预测神经网络是已经被训练为进行下述的递归神经网络:接收至少当前图像和输入动作作为输入,以及处理所述输入以生成下一图像,如果机器人代理在环境处于当前状态时执行输入动作,则所述下一图像是环境的预测的下一状态的图像,以及其...

【专利技术属性】
技术研发人员:CB芬恩SV莱文
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1