数据高效的分层强化学习制造技术

技术编号：26849976 阅读：45 留言：0更新日期：2020-12-25 13:18

训练和/或利用机器人控制的分层强化学习(HRL)模型。HRL模型至少可以包括更高级别策略模型和更低级别策略模型。一些实施方式涉及能够在更高级别策略模型和/或更低级别策略模型的训练中利用更有效的离线策略训练的技术。这些实施方式中的一些利用离线策略的校正，该校正重新标记经验数据的更高级别动作，该经验数据是在过去利用HRL模型的先前训练的版本生成的，具有经修改的更高级别动作。然后，经修改的更高级别动作被用于离线策略地训练更高级别策略模型。尽管更低级别策略模型在训练时是不同的版本(相对于收集经验数据时的版本)，但这可以实现有效的离线策略训练。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】数据高效的分层强化学习
技术介绍
许多机器人被手动编程来执行某些任务。例如，装配线上的机器人可以通过手动编程来识别某些对象，并对该某些对象执行特定操作。此外，一些机器人可以利用一个或多个经训练的机器学习模型来执行某些任务。例如，深度强化学习(reinforcementlearning，RL)已经被提出并用于一些连续的机器人控制任务，诸如移动(locomotion)和对象操纵。然而，这样的机器人控制任务是原子的(atomic)，因为它们需要要么偶发要么循环地执行一些技能。这种机器人控制任务不涉及复杂的多级推理，诸如利用各种移动行为来实现需要运动、与对象交互、和制定离散决策的复杂目标。
技术实现思路
本文公开的实施方式涉及训练和/或利用多级分层强化学习(Multi-levelhierarchicalreinforcementlearning，HRL)模型以用于机器人控制。HRL模型至少可以包括更高级别策略模型和更低级别策略模型。更高级别策略模型和更低级别策略模型可以各自是相应的机器学习模型，诸如神经网络模型。更高级别策略模型用于在...

【技术保护点】
1.一种用于机器人控制的分层强化学习模型的更高级别策略模型的离线策略训练的方法，所述方法由一个或多个处理器实现，并且包括：/n从先前存储的基于在先前经验事件期间使用在先前训练的状态下的分层强化学习模型控制机器人而生成的用于所述机器人的经验数据中检索：/n基于所述机器人在所述先前经验事件中的观察的状态的所存储的状态；/n用于从所存储的状态转换到目标状态的所存储的更高级别动作；/n其中，所存储的更高级别动作是先前在所述先前经验事件期间使用所述更高级别策略模型而生成的，并且/n其中，所存储的更高级别动作是先前在生成在所述先前经验事件期间应用于所述机器人的更低级别动作时在先前事件期间使用所述分层强化学...

【技术特征摘要】
【国外来华专利技术】20180518 US 62/673,7461.一种用于机器人控制的分层强化学习模型的更高级别策略模型的离线策略训练的方法，所述方法由一个或多个处理器实现，并且包括：
从先前存储的基于在先前经验事件期间使用在先前训练的状态下的分层强化学习模型控制机器人而生成的用于所述机器人的经验数据中检索：
基于所述机器人在所述先前经验事件中的观察的状态的所存储的状态；
用于从所存储的状态转换到目标状态的所存储的更高级别动作；
其中，所存储的更高级别动作是先前在所述先前经验事件期间使用所述更高级别策略模型而生成的，并且
其中，所存储的更高级别动作是先前在生成在所述先前经验事件期间应用于所述机器人的更低级别动作时在先前事件期间使用所述分层强化学习模型的更低级别策略模型被处理的；以及
基于在所述先前事件期间所述更低级别动作的应用而确定的至少一个所存储的环境奖赏；
确定经修改的更高级别动作以代替所存储的更高级别动作来用于所述分层强化学习模型的进一步训练，其中确定经修改的更高级别动作是基于所述更低级别策略模型的当前训练的状态，所述更低级别策略模型的当前训练的状态不同于所述先前训练的状态；以及
使用所存储的状态、使用至少一个所存储的环境奖赏、以及使用经修改的更高级别动作代替所存储的更高级别动作，来进一步对所述更高级别策略模型进行离线策略训练。

2.根据权利要求1所述的方法，还包括：
在所述进一步离线策略训练之后，使用所述分层强化学习模型来控制附加机器人的一个或多个致动器。

3.根据权利要求1所述的方法，其中基于所存储的更高级别动作和基于所述更低级别策略模型的当前训练的状态来确定经修改的更高级别动作包括：
识别包括所述经修改的更高级别动作的多个候选的经修改的更高级别动作；和
基于确定如果在所述更低级别策略模型的当前训练的状态下将所述经修改的更高级别动作与所存储的状态观察一起应用于所述更低级别策略模型，则所述经修改的更高级别动作比候选的经修改的更高级别动作中的其他经修改的更高级别动作有更大的可能性来引发所述更低级别动作，来选择所述经修改的更高级别动作。

4.根据权利要求3所述的方法，还包括：
基于确定如果在所述更低级别策略模型的当前训练的状态下将所述经修改的更高级别动作与所存储的状态一起应用于所述更低级别策略模型，则所述经修改的更高级别动作比所存储的更高级别动作有更大的可能性来引发所述更低级别动作，来选择所述经修改的更高级别动作而不是所存储的更高级别动作。

5.根据权利要求3或权利要求4所述的方法，其中识别所述多个候选的经修改的更高级别动作包括：选择固定数量的候选的经修改的更高级别动作。

6.根据权利要求5所述的方法，其中选择所述固定数量的候选的经修改的更高级别动作是基于从基于所存储的状态观察为中心的高斯分布进行随机采样。

7.根据前述权利要求中任一项所述的方法，其中所存储的状态包括所述机器人的多个组件的位置。

8.根据权利要求7所述的方法，其中，所存储的状态缺少所述机器人的任何组件的任何速度。

9.根据前述权利要求中任一项所述的方法，还包括：
基于参数化的奖赏对所述更低级别策略模型进行离线策略训练，所述参数化的奖赏基于以下而确定：
...

【专利技术属性】
技术研发人员：H李，S顾，S莱文，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人