【技术实现步骤摘要】
本说明书涉及强化学习。
技术介绍
1、在强化学习系统中,代理通过执行由强化学习系统响应于接收到表征当前环境状态的观察选择的动作来与环境交互。
2、一些强化学习系统根据神经网络的输出、响应于接收到给定观察来选择要由代理执行的动作。
3、神经网络是采用一层或多层非线性单元来预测对于接收的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。
技术实现思路
1、本说明书描述了在一个或多个位置中的一个或多个计算机上被实施为计算机程序的强化学习系统,该强化学习系统选择要由与环境交互的代理执行的动作。通常,系统响应于环境观察使用动作选择策略神经网络(action selection policy neural network)来选择要执行的动作。为了改进动作选择策略神经网络的训练,在该训练期间,训练引擎还训练接收动作选择
...【技术保护点】
1.一种训练动作选择神经网络的计算机实现的方法,所述动作选择神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作,所述方法包括:
2.根据权利要求1所述的方法,其中,确定所述回环特征的实际值包括:
3.根据权利要求1所述的方法,其中,所述动作选择神经网络包括:
4.根据权利要求3所述的方法,其中,中间输出包括编码表示。
5.根据权利要求3所述的方法,其中,中间输出包括中间表示。
6.根据权利要求3所述的方法,其中,中间神经网络包括递归神经网络。
7.根据权利要求3
...【技术特征摘要】
1.一种训练动作选择神经网络的计算机实现的方法,所述动作选择神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作,所述方法包括:
2.根据权利要求1所述的方法,其中,确定所述回环特征的实际值包括:
3.根据权利要求1所述的方法,其中,所述动作选择神经网络包括:
4.根据权利要求3所述的方法,其中,中间输出包括编码表示。
5.根据权利要求3所述的方法,其中,中间输出包括中间表示。
6.根据权利要求3所述的方法,其中,中间神经网络包括递归神经网络。
7.根据权利要求3所述的方法,其中,中间神经网络包括前馈神经网络。
8.根据权利要求1所述的方法,进一步包括:
9.根据权利要求8所述的方法,进一步包括:
10.根据权利要求1所述的方法,进一步包括:
11.一种系统,包括:
12.根据权利要求11所述的系统,其中,确定所述回环特...
【专利技术属性】
技术研发人员:F·维奥拉,P·W·米罗夫基,A·巴尼诺,R·帕斯卡努,H·J·索耶,A·J·巴拉德,S·库马兰,R·T·哈德塞尔,L·西夫勒,R·戈罗什恩,K·卡夫克佐格卢,M·M·R·德尼尔,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。