一种计算机实现的方法及其系统技术方案

技术编号：40020719 阅读：10 留言：0更新日期：2024-01-16 16:43

用于训练强化学习系统的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。在一个方面，训练动作选择策略神经网络以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作的方法包括：接收表征环境的当前状态的观察图像；使用动作选择策略神经网络处理包括观察图像的输入以生成动作选择输出；使用几何预测神经网络处理由动作选择策略神经网络生成的中间输出，以预测当处于当前状态时的环境的几何特征的值；以及将基于几何的辅助损失的梯度反向传播到动作选择策略神经网络中，以确定对于网络参数的当前值的基于几何的辅助更新。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及强化学习。

技术介绍

1、在强化学习系统中，代理通过执行由强化学习系统响应于接收到表征当前环境状态的观察选择的动作来与环境交互。

2、一些强化学习系统根据神经网络的输出、响应于接收到给定观察来选择要由代理执行的动作。

3、神经网络是采用一层或多层非线性单元来预测对于接收的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。

技术实现思路

1、本说明书描述了在一个或多个位置中的一个或多个计算机上被实施为计算机程序的强化学习系统，该强化学习系统选择要由与环境交互的代理执行的动作。通常，系统响应于环境观察使用动作选择策略神经网络(action selection policy neural network)来选择要执行的动作。为了改进动作选择策略神经网络的训练，在该训练期间，训练引擎还训练接收动作选择策略神经网络的相应中间输出作为输入的(i)几何预测神经网络(geometry prediction neural network)、(ii)回环预测神经网络(loop closureprediction neural network)或两者。

2、提供了一种训练动作选择策略神经网络的方法，动作选择策略神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作

3、在一些实施方式中，几何特征的预测值是由观察图像表征的环境的预测深度，并且几何特征的实际值是由观察图像表征的环境的实际深度。在一些实施方式中，辅助损失用于训练系统，但是不需要另外使用几何特征的预测值。

4、在一些实施方式中，动作选择策略神经网络包括：卷积编码器神经网络，生成输入的编码表示，中间神经网络，处理输入的编码表示以生成中间表示；和输出神经网络，处理中间表示以生成动作选择输出。

5、在一些实施方式中，中间输出包括编码表示。

6、在一些实施方式中，中间输出包括中间表示。

7、在一些实施方式中，该方法还包括：使用回环预测神经网络处理中间表示，回环预测神经网络被配置为生成表示当环境处于当前状态时代理已返回到代理已经访问过的环境中的位置的预测似然性的分数；确定基于环境的当前状态与更早的状态之间的实际相似性和预测似然性的回环辅助损失的梯度；以及将回环辅助损失的梯度反向传播到动作选择策略神经网络中，以确定对于网络参数的当前值的回环辅助更新。

8、在一些实施方式中，中间神经网络是递归神经网络。

9、在一些实施方式中，中间神经网络是前馈神经网络。

10、在一些实施方式中，该方法还包括：使用动作选择输出选择当环境处于当前状态时要由代理执行的动作；接收基于朝着实现一个或多个目标的进展的奖励；至少部分地基于奖励来确定对于网络参数的主更新。

11、在一些实施方式中，该方法还包括：使用基于几何的辅助更新和主更新来更新网络参数的当前值。

12、在一些实施方式中，该方法还包括：使用基于几何的辅助更新来更新网络参数的当前值以生成更新的参数值；以及使用动作选择策略神经网络根据更新的参数值选择要由代理执行的动作。

13、可以实施本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。通过训练几何预测神经网络或回环预测神经网络或两者来执行辅助预测任务，除了训练动作选择策略神经网络以最大化累积奖励之外，本说明书中描述的强化学习系统可以增强在动作选择策略神经网络的训练期间接收到的反馈信号以改进训练。特别地，训练几何预测神经网络或回环预测神经网络调整动作选择策略神经网络参数的值，使它们生成更有用的观察数据的表示并最终确定更有效的策略输出，以最大化累积奖励，甚至当强化学习系统收到的奖励稀疏时(例如，仅很少非零)。例如，训练几何预测神经网络调整动作选择策略神经网络参数的值，以鼓励学习有助于避障和短期轨迹规划的表示。作为另一示例，训练回环预测神经网络调整动作选择策略神经网络参数的值以鼓励环境的有效探索和空间推理。

14、本说明书中描述的强化学习系统比不包括几何预测神经网络和回环预测神经网络的传统强化学习系统更快地训练动作选择策略神经网络。因此，本说明书中描述的强化学习系统允许在训练中更有效地使用计算资源。此外，本说明书中描述的强化学习系统实现了优于传统强化学习系统的性能，即，允许代理更有效地导航经过环境。

15、在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其它特征、方面和优点将变得显而易见。

本文档来自技高网...

【技术保护点】

1.一种训练动作选择神经网络的计算机实现的方法，所述动作选择神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作，所述方法包括：

2.根据权利要求1所述的方法，其中，确定所述回环特征的实际值包括：

3.根据权利要求1所述的方法，其中，所述动作选择神经网络包括：

4.根据权利要求3所述的方法，其中，中间输出包括编码表示。

5.根据权利要求3所述的方法，其中，中间输出包括中间表示。

6.根据权利要求3所述的方法，其中，中间神经网络包括递归神经网络。

7.根据权利要求3所述的方法，其中，中间神经网络包括前馈神经网络。

8.根据权利要求1所述的方法，进一步包括：

9.根据权利要求8所述的方法，进一步包括：

10.根据权利要求1所述的方法，进一步包括：

11.一种系统，包括：

12.根据权利要求11所述的系统，其中，确定所述回环特征的实际值包括：

13.根据权利要求11所述的系统，其中，所述动作选择神经网络包括：</p>

14.根据权利要求13所述的系统，其中，中间输出包括编码表示。

15.根据权利要求13所述的系统，其中，中间输出包括中间表示。

16.根据权利要求13所述的系统，其中，中间神经网络包括递归神经网络。

17.一种或多种存储指令的非暂时性计算机存储介质，当由一个或多个计算机执行时，所述指令使一个或多个计算机执行用于训练动作选择神经网络的操作，所述动作选择神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作，所述操作包括：

18.根据权利要求17所述的非暂时性计算机存储介质，其中，确定所述回环特征的实际值包括：

19.根据权利要求17所述的非暂时性计算机存储介质，其中，所述动作选择神经网络包括：

20.根据权利要求19所述的非暂时性计算机存储介质，其中，中间输出包括编码表示。

...

【技术特征摘要】