用于训练代理的方法技术

技术编号：40710038 阅读：5 留言：0更新日期：2024-03-22 11:11

根据各种实施方式，描述了一种用于使用规划组件来训练代理的方法，具有：执行多个控制循环，以及训练所述规划组件以减少损失，所述损失包含由在控制循环中出现的从粗尺度状态到粗尺度后续状态的多个粗尺度状态转换中每个粗尺度状态转换的辅助损失，所述辅助损失代表由所述粗尺度状态的规划组件输出的值与针对该粗尺度状态转换获得的奖励和所述粗尺度后续状态的值的至少一部分的总和之间的偏差。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及用于训练代理的方法。

技术介绍

1、强化学习(reinforcement learning，rl)是一种机器学习范式，其使得诸如机器人的代理可以学习执行与任务规范有关的期望行为，例如应当采取哪些控制措施以在机器人导航场景下到达目标位置。

2、将规划与强化学习相组合的架构可以有效地用于决策问题(例如，基于传感器输入来控制车辆或机器人)。所述架构使得能够引入先前的问题知识(例如环境地图)，并且可以通过规划部分实现不同问题情况(例如不同环境布局)的泛化，同时所述架构保留通过rl部分处理高维度观察和未知动态的能力。

3、nardelli等人于2019年发表的出版物“value propagation networks”(https://arxiv.org/pdf/1805.11199.pdf)(以下称为参考文献1)描述了一种具有包含神经网络的规划模块的架构，该规划模块在存在目标地图和环境的离散地图(图像)的情况下输出传播地图和奖励地图，其用于值地图的迭代规划。为了选择动作并且为了训练，向规划部分添加actor-critic(演员-评论者)控制策略，该控制策略获得值地图(的摘录)作为输入。通过也由规划部分来反向传播由actor-critic损失得出的梯度，整个架构得到连贯的训练。vprop(代表“value propagation，值传播”)或同样在该出版物中描述的变型mvprop(代表“max-propagation，最大传播”)是针对离散状态和动作空间问题而提出的，因为需要离散地图作为输入并且必须从规

4、fujimoto等人于2018年发表的出版物“addressing function approximationerror in actor-critic methods”(https://arxiv.org/pdf/1802.09477.pdf)，以下称为参考文献2，描述了一种off-policy-actor-critic算法，将其称为td3(twin delayed deepdeterministic policy gradient，双延迟深度确定性策略梯度)。

5、期望代理训练方法进一步提高代理的性能，特别是在特殊环境中，例如具有不同的地形类型。

技术实现思路

1、根据各种实施方式，提供了一种用于训练代理的方法，具有执行多个控制循环，其中在每个控制循环中，

2、·规划组件接收环境的表示，所述表示包含关于所述环境的布局信息，其中根据粗尺度状态的网格将所述环境划分为粗尺度状态(或“高级”状态)，使得每个可以在所述环境中采取的(“细尺度”或“低级”)状态与可以在所述环境中采取的多个其他状态一起处于粗尺度状态；

3、·所述规划组件的神经网络从所述环境的表示中导出关于所述环境中状态的可穿越性的信息，

4、·所述规划组件基于关于可穿越性的信息和粗尺度状态的初步奖励信息向每个粗尺度状态分配一个值；以及

5、·(对于相应的控制)在所述环境中由所述代理达到的多个状态中的每一个状态中，演员神经网络从该状态的说明中以及从邻域中粗尺度状态的规划组件所确定的值中确定动作，所述邻域包含该状态所处的粗尺度状态以及与该粗尺度状态邻接的粗尺度状态；以及

6、其中将所述规划组件训练为减少辅助损失，所述辅助损失包含由所确定的动作引起的从粗尺度状态到粗尺度后续状态的多个粗尺度状态转换中每个粗尺度状态转换的损失，所述损失代表从所述粗尺度状态的规划组件输出的值与针对该粗尺度状态转换获得的奖励和所述粗尺度后续状态的值的至少一部分的总和之间的偏差。

7、辅助损失，也被称为规划组件损失或者在下面描述的基于mvprop的实施例中称为mvprop辅助损失，如下改进了训练：当经过训练的代理应用于控制决策过程(例如机器人导航任务)时，其性能更高(完成任务的成功率更高和在独立训练过程中训练的代理之间的性能差异较低)。用于训练规划组件(本文也称为规划模块)的辅助损失使得在具有各种地形类型的应用场景中能够实现特别高的成功率，这种应用场景需要学习环境的多样化传播因子地图。

8、可以在环境中采取的(细尺度)状态例如是位置(例如，在导航任务的情况下，在所述导航任务中环境简单地是位置的2d或3d环境)。然而，状态空间也可以更复杂(例如包括方向)，使得可以在环境中采取的每个状态在所述环境中具有多余一个的位置(例如位置和方向的配对，例如在控制机器人臂时)。状态是否可以穿越以及穿越的程度(即关于状态的可穿越性的信息，例如以传播因子的形式)可以理解为，可以采取该状态(例如在特定位置处的特定方向)并且从该状态开始又可以达到另一个状态。在此，对于(粗尺度)状态，可以得出(例如传播因子的)中间值(例如在0和1之间)，所述中间值表达了这种转换的概率有多大(例如留在泥泞地形路段中的风险)或可以以什么相对速度(例如在沙地形中缓慢移动)穿越该状态。

9、代理基于演员神经网络的输出在环境中达到的多个状态不需要是代理(在所述控制循环中)达到的所有状态。相反，可以为一些状态随机确定动作以进行探索。由这些动作引起的粗尺度状态转换也可以包含在用于训练规划组件的损失中。换句话说，每个状态转换都可以归因于所述代理的一个动作，该动作要么是根据所学习的策略(即基于演员网络的输出)而被选择的，要么是出于探索目的而被随机选择的。

10、布局信息包含例如关于环境的表面、环境中的障碍物和/或环境中的一个或多个目标的信息。

11、表述“粗尺度后续状态的值的至少一部分”应理解为所述粗尺度后续状态的出现在总和中的值可以像在强化学习中那样通常被打折(即可以用通常——如下所示——以γ表示的折扣因子进行加权，该折扣因子小于1)。

12、下面说明各种实施例。

13、实施例1是如上所述的一种用于训练代理的方法。

14、实施例2是根据实施例1的方法，其中所述规划组件被训练为减少总损失，所述总损失除了所述辅助损失之外还包含当所述演员神经网络选择由评论者网络评价得低的动作时对其进行惩罚的演员损失。

15、由此，在训练规划组件时通过由演员网络输出的动作来考虑高控制性能的要求。

16、实施例3是根据实施例1的方法，其中所述规划组件被训练为减少总损失，所述总损失除了所述辅助损失之外还包含评论者损失，所述评论者损失对偏差进行惩罚，所述偏差是由评论者网络提供的状态-动作对的评价与包含通过在状态-动作对的状态下执行所述状态-动作对的动作实际获得的奖励和由评论者网络提供的后续状态-后续动作对的打折扣的评价之总和的评价之间的偏差，其中要用于后续状态的后续动作是在演员网络的辅助下针对后续状态确定的。

17、因此，在训练规划组件时考虑对评价者网络(或多个评价者网络，如果例如还使用目标评价者网络的话)的高准确性要求。

18、实施例4是根据实施例1的方法，其中所述规划组本文档来自技高网...

【技术保护点】

1.一种用于训练代理的方法，具有：

2.根据权利要求1所述的方法，其中所述规划组件被训练为减少总损失，所述总损失除了所述辅助损失之外还包含当所述演员神经网络选择由评论者网络评价得低的动作时对其进行惩罚的演员损失。

3.根据权利要求1所述的方法，其中所述规划组件被训练为减少总损失，所述总损失除了所述辅助损失之外还包含评论者损失，所述评论者损失对偏差进行惩罚，所述偏差是由评论者网络提供的状态-动作对的评价与包含通过在状态-动作对的状态下执行所述状态-动作对的动作实际获得的奖励和由评论者网络提供的后续状态-后续动作对的打折扣的评价之总和的评价之间的偏差，其中要用于后续状态的后续动作是在演员网络的辅助下针对后续状态确定的。

4.根据权利要求1所述的方法，其中所述规划组件被训练为减少总损失，所述总损失除了所述辅助损失之外还包含当所述演员神经网络选择由评论者网络评价得低的动作时对其进行惩罚的演员损失以及评论者损失，所述评论者损失对偏差进行惩罚，所述偏差是由评论者网络提供的状态-动作对的评价与包含通过在状态-动作对的状态下执行所述状态-动作对的动作实际获得的

5.根据权利要求1至4中任一项所述的方法，其中所述布局信息包含关于所述环境中不同地形类型的位置的信息，并且每个地形类型的表示包含具有二进制类型的地图，所述地图针对所述环境中多个地点中的每个地点说明了在该地点是否存在所述地形类型。

6.根据权利要求1至5中任一项所述的方法，其中由所述规划组件为粗尺度状态的邻域确定的值在所确定的这些值的平均值和所确定的这些值的标准偏差方面加以归一化。

7.一种控制装置，其被设置为执行根据权利要求1至6中任一项所述的方法。

8.一种具有指令的计算机程序，所述指令当其由处理器执行时使得所述处理器执行根据权利要求1至6中任一项所述的方法。

9.一种存储指令的计算机可读介质，所述指令当其由处理器执行时使得所述处理器执行根据权利要求1至6中任一项所述的方法。

...

【技术特征摘要】

1.一种用于训练代理的方法，具有：

4.根据权利要求1所述的方法，其中所述规划组件被训练为减少总损失，所述总损失除了所述辅助损失之外还包含当所述演员神经网络选择由评论者网络评价得低的动作时对其进行惩罚的演员损失以及评论者损失，所述评论者损失对偏差进行惩罚，所述偏差是由评论者网络提供的状态-动作对的评价与包含通过在状态-动...

【专利技术属性】
技术研发人员：J·范登布洛克，H·范胡夫，J·G·沃尔克，
申请(专利权)人：罗伯特·博世有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人