机器人操纵的深度强化学习制造技术

技术编号：21406478 阅读：21 留言：0更新日期：2019-06-19 09:16

实施方式利用深度强化学习来训练策略神经网络，该策略神经网络参数化策略，以用于基于当前状态来确定机器人动作。这些实施方式中的一些从同时操作的多个机器人收集经验数据。每个机器人在作为对执行任务的每次探索并且各自在情节期间基于策略网络和策略网络的当前策略参数被引导的情节的迭代执行期间生成经验数据的实例。所收集的经验数据在情节期间生成，并用于通过基于一批所收集的经验数据迭代地更新策略网络的策略参数来训练策略网络。此外，在由机器人执行的多个情节中的每一个情节的执行之前，可以提供(或检索)当前更新的策略参数，以供情节的执行时利用。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】机器人操纵的深度强化学习
技术介绍
许多机器人被编程以利用一个或多个末端执行器来操纵一个或多个对象。例如，机器人可以利用末端执行器向对象施加力并引起该对象的移动。例如，机器人可以利用抓取末端执行器或其他末端执行器来转移对象，而不一定要抓取该对象。而且，例如，机器人可以利用诸如“冲击(impactive)”抓取器或“侵入(ingressive)”抓取器的抓取末端执行器(例如，使用钉、针等物理地穿透对象)来从第一位置拾取对象，将该对象移动到第二位置，以及在第二位置处放下该对象。
技术实现思路
下面描述的实施方式提供了当执行一个或多个任务时，一个或多个机器人的操作性能的改进。如本文所述，使用强化学习过程来改进一个或多个机器人的性能，这促进了用于使用一个或多个机器人执行特定物理任务的最佳方法或策略的快速学习。机器人能够使用学习到的策略来提高任务执行的效率。例如，随着所描述的强化学习过程的进行，物理任务可以由机器人更快地和/或以更少的电力消耗来执行。因为机器人性能的其他方面随着学习过程得到改进，这种物理任务可以附加地或可替换地被更安全地执行，或者可以在定义的安全参数内继续进行。从以下公开中可以明显看出，学习过程可以是迭代的。当新的迭代被传递到负责控制机器人的物理动作的(多个)计算装置时，一个或多个机器人可以根据针对特定任务的策略/方案的每个新的改进的迭代来执行。如此以来，在由机器人执行的物理动作方面，上述效率增益可以随着学习过程的继续而频繁发生。总的来说，机器人性能改进的速率以及所得到的效率增益可以特别快，并且可以使得机器人以最佳方式在比使用其他学习技术更短的时间内完成物理任...

【技术保护点】
1.一种由一个或多个处理器实施的方法，包括：在由多个机器人中的每一个机器人执行多个情节期间，所述情节中的每一个情节是基于表示对任务的强化学习策略的策略神经网络执行所述任务的探索：将由机器人在情节期间生成的机器人经验数据的实例存储在缓冲区中，所述机器人经验数据的实例中的每一个在情节中的对应情节期间生成，并且至少部分地在使用具有所述对应情节的策略神经网络的对应策略参数的策略神经网络生成的对应输出上生成；迭代地生成所述策略神经网络的更新的策略参数，其中迭代地生成的迭代中的每次迭代包括在迭代期间使用在所述缓冲区中的一组机器人经验数据的实例中的一个或多个来生成所述更新的策略参数；以及由机器人中的每一个机器人结合由机器人执行的多个情节中的每一个情节的开始，更新将由机器人在所述情节中使用的策略神经网络，其中更新所述策略神经网络包括使用迭代地生成更新的策略参数的最近迭代的更新的策略参数。

【技术特征摘要】
【国外来华专利技术】2016.09.15 US 62/395,3401.一种由一个或多个处理器实施的方法，包括：在由多个机器人中的每一个机器人执行多个情节期间，所述情节中的每一个情节是基于表示对任务的强化学习策略的策略神经网络执行所述任务的探索：将由机器人在情节期间生成的机器人经验数据的实例存储在缓冲区中，所述机器人经验数据的实例中的每一个在情节中的对应情节期间生成，并且至少部分地在使用具有所述对应情节的策略神经网络的对应策略参数的策略神经网络生成的对应输出上生成；迭代地生成所述策略神经网络的更新的策略参数，其中迭代地生成的迭代中的每次迭代包括在迭代期间使用在所述缓冲区中的一组机器人经验数据的实例中的一个或多个来生成所述更新的策略参数；以及由机器人中的每一个机器人结合由机器人执行的多个情节中的每一个情节的开始，更新将由机器人在所述情节中使用的策略神经网络，其中更新所述策略神经网络包括使用迭代地生成更新的策略参数的最近迭代的更新的策略参数。2.根据权利要求1所述的方法，其中，更新的策略参数中的每一个为所述策略神经网络的对应层的对应节点定义对应值。3.根据权利要求1或权利要求2所述的方法，其中，对于所述机器人中的给定机器人的机器人经验数据的实例以第一频率存储在所述缓冲区中，其中所述第一频率是比迭代地生成所述更新的策略参数的生成频率更低的频率。4.根据权利要求1或权利要求2所述的方法，其中，对于所述机器人中的每一个机器人的机器人经验数据的实例以对应频率存储在所述缓冲区中，其中所述对应频率中的每一个频率都低于迭代地生成所述更新的策略参数的生成频率。5.根据权利要求1-4中任一项所述的方法，其中，将所述机器人经验数据的实例存储在所述缓冲区中由第一线程中的一个或多个处理器执行，并且其中迭代地生成由与所述第一线程分离的第二线程中的一个或多个处理器执行。6.根据权利要求5所述的方法，其中，所述第一线程由第一组一个或多个处理器执行，并且所述第二线程由第二组一个或多个处理器执行，所述第二组与所述第一组不重叠。7.根据权利要求1-6中任一项所述的方法，其中，迭代地生成的迭代中的每次迭代包括在生成迭代期间，鉴于在所述缓冲区中的一组机器人经验数据的实例中的一个或多个，基于最小化损失函数来生成更新的策略参数。8.根据权利要求1-7中任一项所述的方法，其中，迭代地生成的迭代中的每次迭代包括在生成迭代期间，鉴于在所述缓冲区中的一组机器人经验数据的实例中的一个或多个的离策略学习。9.根据权利要求8所述的方法，其中，所述离策略学习是Q学习。10.根据权利要求9所述的方法，其中，所述Q学习利用归一化优势函数(NAF)算法或深度确定性策略梯度(DDPG)算法。11.根据权利要求1-10中任一项所述的方法，其中，所述经验数据的实例中的每一个指示对应的：开始机器人状态、从所述开始机器人状态转换到的后续机器人状态、执行以从所述开始机器人状态转换到所述后续机器人状态的动作、以及对所述动作的奖励；其中，所述执行以从开始机器人状态转换到后续机器人状态的动作是基于使用具有对于对应情节的更新的策略参数的策略神经网络处理开始机器人状态而生成的，并且其中，对所述动作的奖励是基于所述强化学习策略的奖励函数而生成的。12.根据权利要求1-11中任一项所述的方法，还包括：基于一个或多个标准，终止所述多个情节的执行并终止迭代地生成；向所述策略神经网络提供所述更新策略参数的最近生成的版本，以供一个或多个附加机器人使用。13.一种方法，包括：由给定机器人的一个或多个处理器：执行基于具有第一组策略参数的策略网络执行任务的探索的给定情节；提供在所述给定情节期间基于所述策略网络生成的机器人经验数据的第一实例；在由所述给定机器人执行基于所述策略网络执行任务的后续情节之前：用更新的策略参数替换所述第一组的一个或多个策略参数，其中所述更新的策略参数是基于机器人经验数据的附加实例生成的，所述附加实例是在由附加机器人执行任务的探索的附加机器人情节期间由所述附加机器人生成的；其中，所述后续情节紧接着第一情节，并且其中在所述后续情节中基于所述策略网络执行任务包括使用所述更新的策略参数来代替替换的策略参数。14.根据权利要求13所述的方法，还包括：由一个或多个附加处理器并且在所述后续情节的执行期间生成进一步更新的策略参数，其中，生成所述进一步更新的策略参数基于在所述第一情节期间生成的机器人经验数据的第一实例中的一个或多个；以及提供所述进一步更新的策略参数，以供所述附加机器人在由所述附加机器人执行对应情节时使用。15.根据权利要求14所述的方法，其中，所述附加机器人在由所述给定机器人执行所述后续情节期间开始执行所述对应情节。16.根据权利要求14所述的方法，其中，在由所述给定机器人执行任何情节时，所述进一步更新的策略参数不被所述给定机器人利用。17.根据权利要求14-16中任一项所述的方法，还包括：由一个或多个附加处理器生成更进一步更新的策略参数，其中，所述更进一步更新的策略参数在所述后续情节的执行期间生成，并且在所述进一步更新的策略参数生成之后生成；以及提供所述...

【专利技术属性】
技术研发人员：S莱文，E霍利，S古，T利利克拉普，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人