一种计算机实现的方法及其系统技术方案

技术编号:40020719 阅读:26 留言:0更新日期:2024-01-16 16:43
用于训练强化学习系统的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,训练动作选择策略神经网络以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作的方法包括:接收表征环境的当前状态的观察图像;使用动作选择策略神经网络处理包括观察图像的输入以生成动作选择输出;使用几何预测神经网络处理由动作选择策略神经网络生成的中间输出,以预测当处于当前状态时的环境的几何特征的值;以及将基于几何的辅助损失的梯度反向传播到动作选择策略神经网络中,以确定对于网络参数的当前值的基于几何的辅助更新。

【技术实现步骤摘要】

本说明书涉及强化学习。


技术介绍

1、在强化学习系统中,代理通过执行由强化学习系统响应于接收到表征当前环境状态的观察选择的动作来与环境交互。

2、一些强化学习系统根据神经网络的输出、响应于接收到给定观察来选择要由代理执行的动作。

3、神经网络是采用一层或多层非线性单元来预测对于接收的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。


技术实现思路

1、本说明书描述了在一个或多个位置中的一个或多个计算机上被实施为计算机程序的强化学习系统,该强化学习系统选择要由与环境交互的代理执行的动作。通常,系统响应于环境观察使用动作选择策略神经网络(action selection policy neural network)来选择要执行的动作。为了改进动作选择策略神经网络的训练,在该训练期间,训练引擎还训练接收动作选择策略神经网络的相应中本文档来自技高网...

【技术保护点】

1.一种训练动作选择神经网络的计算机实现的方法,所述动作选择神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作,所述方法包括:

2.根据权利要求1所述的方法,其中,确定所述回环特征的实际值包括:

3.根据权利要求1所述的方法,其中,所述动作选择神经网络包括:

4.根据权利要求3所述的方法,其中,中间输出包括编码表示。

5.根据权利要求3所述的方法,其中,中间输出包括中间表示。

6.根据权利要求3所述的方法,其中,中间神经网络包括递归神经网络。

7.根据权利要求3所述的方法,其中,中...

【技术特征摘要】

1.一种训练动作选择神经网络的计算机实现的方法,所述动作选择神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作,所述方法包括:

2.根据权利要求1所述的方法,其中,确定所述回环特征的实际值包括:

3.根据权利要求1所述的方法,其中,所述动作选择神经网络包括:

4.根据权利要求3所述的方法,其中,中间输出包括编码表示。

5.根据权利要求3所述的方法,其中,中间输出包括中间表示。

6.根据权利要求3所述的方法,其中,中间神经网络包括递归神经网络。

7.根据权利要求3所述的方法,其中,中间神经网络包括前馈神经网络。

8.根据权利要求1所述的方法,进一步包括:

9.根据权利要求8所述的方法,进一步包括:

10.根据权利要求1所述的方法,进一步包括:

11.一种系统,包括:

12.根据权利要求11所述的系统,其中,确定所述回环特...

【专利技术属性】
技术研发人员:F·维奥拉P·W·米罗夫基A·巴尼诺R·帕斯卡努H·J·索耶A·J·巴拉德S·库马兰R·T·哈德塞尔L·西夫勒R·戈罗什恩K·卡夫克佐格卢M·M·R·德尼尔
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1