【技术实现步骤摘要】
【国外来华专利技术】使用异策略行动者-评价者强化学习进行分布式训练
本说明书涉及强化学习。
技术介绍
智能体(agent)可以通过执行响应于接收到表征环境的当前状态的观察而选择的动作来与环境交互。可以根据神经网络的输出来确定响应于接收到给定观察而要由智能体执行的动作。神经网络是利用非线性单元的一个或多个层来为接收的输入预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应一组参数的当前值从接收的输入生成输出。
技术实现思路
本说明书描述了一种分布式训练系统,该分布式训练系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序,该系统可以使用异策略(off-policy)行动者-评价者强化学习技术来训练动作选择网络。根据第一方面,提供了一种用于训练动作选择神经网络的方法,所述动作选择神经网络用于选择要由与环境交互的智能体执行的动作。所述动作选择神经网络被配置为根据所述动作选择神经网 ...
【技术保护点】
1.一种用于训练动作选择神经网络的方法,所述动作选择神经网络用于选择要由与环境交互的智能体执行的动作,其中,所述动作选择神经网络被配置为根据所述动作选择神经网络的当前参数值处理包括所述环境的观察的输入以生成输出,所述输出包括对于所述智能体能够执行的预定的一组动作中的每个动作的相应的学习者策略得分,所述方法包括:/n获得一个或多个经验元组的序列,其中,每个经验元组包括:(i)表征在相应的时间步骤处所述环境的实例的状态的观察、(ii)使用行为策略被选择为在所述相应的时间步骤处要由所述智能体执行的动作、(iii)当所述动作被选择时通过所述行为策略分派给所选动作的行为策略得分、(i ...
【技术特征摘要】
【国外来华专利技术】20180205 US 62/626,6431.一种用于训练动作选择神经网络的方法,所述动作选择神经网络用于选择要由与环境交互的智能体执行的动作,其中,所述动作选择神经网络被配置为根据所述动作选择神经网络的当前参数值处理包括所述环境的观察的输入以生成输出,所述输出包括对于所述智能体能够执行的预定的一组动作中的每个动作的相应的学习者策略得分,所述方法包括:
获得一个或多个经验元组的序列,其中,每个经验元组包括:(i)表征在相应的时间步骤处所述环境的实例的状态的观察、(ii)使用行为策略被选择为在所述相应的时间步骤处要由所述智能体执行的动作、(iii)当所述动作被选择时通过所述行为策略分派给所选动作的行为策略得分、(iv)表征在所述智能体执行所选动作之后环境实例的后续状态的后续观察、以及(iv)在所述智能体执行所选动作之后接收到的反馈值;
调整状态值神经网络的当前参数值,其中,所述状态值神经网络被配置为根据所述状态值神经网络的当前参数值来处理包括所述环境的观察的输入,以生成输出,所述输出包括对于所述观察的状态值,所述调整包括:
使用所述状态值神经网络,根据所述状态值神经网络的当前参数值,并基于所述序列中的第一经验元组中包括的观察,确定对于所述序列中的所述第一经验元组中包括的观察的状态值;
对于经验元组的所述序列中的每个经验元组:
使用所述动作选择神经网络,根据所述动作选择神经网络的当前参数值,并基于所述经验元组中包括的观察,确定对于来自所述经验元组的所选动作的学习者策略得分;
基于对于所选动作的所述学习者策略得分与对于所选动作的所述行为策略得分的比来确定跟踪系数;
基于:(i)对于所述经验元组的所述跟踪系数、以及(ii)对于所述序列中的所述经验元组之前的任何经验元组的跟踪系数,确定对于所述经验元组的校正因子;
至少基于:(i)所述经验元组中包括的所述反馈值、(ii)通过根据所述状态值神经网络的当前参数值处理所述经验元组中包括的所述观察而生成的对于所述经验元组中包括的观察的状态值、以及(iii)通过根据所述状态值神经网络的当前参数值处理所述经验元组中包括的所述后续观察而生成的对于所述经验元组中包括的所述后续观察的状态值,确定对于所述经验元组的状态值时间差异;
至少基于:(i)所述校正因子、(ii)所述状态值时间差异和(iii)对于所述序列中的所述第一经验元组中包括的所述观察的所述状态值,确定对于所述序列中的所述第一经验元组中包括的所述观察的状态值目标;
确定状态值损失函数相对于所述状态值神经网络的参数的梯度,其中,所述状态值损失函数至少基于所述状态值目标;以及
基于所述梯度,调整所述状态值神经网络的当前参数值;以及
至少基于:(i)对于来自所述序列的所述第一经验元组的所选动作的所述学习者策略得分与所述行为策略得分的比、以及(ii)所述状态值神经网络通过根据所述状态值神经网络的当前参数值处理一个或多个经验元组中包括的观察而生成的状态值,来调整所述动作选择神经网络的当前参数值。
2.根据权利要求1所述的方法,其中,确定对于所述经验元组的所述校正因子包括:
在第一截断值处截断对于所述经验元组的所述跟踪系数;以及
在第二截断值处截断对于所述序列中的所述经验元组之前的任何经验元组的跟踪系数。
3.根据权利要求2所述的方法,其中,所述第一截断值大于或等于所述第二截断值。
4.根据权利要求1-3中的任一项所述的方法,其中,确定对于所述经验元组的所述校正因子包括:
通过预定缩放因子来缩放所述跟踪系数。
5.根据权利要求1-4中的任一项所述的方法,其中,确定对于所述经验元组的所述校正因子包括:
确定(i)对于所述经验元组的所述跟踪系数和(ii)对于所述序列中的所述经验元组之前的任何经验元组的所述跟踪系数的乘积。
6.根据权利要求1-5中的任一项所述的方法,其中,确定对于所述经验元组的状态值时间差异包括将以下各项相加:(i)所述经验元组中包括的所述反馈值、(ii)折损因子与对于所述经验元组中包括的所述后续观察的所述状态值的乘积、以及(iii)对于所述经验元组中包括的所述观察的所述状态值的负值。
7.根据权利要求1-6中的任一项所述的方法,其中,确定状态值目标包括:
在经验元组的所述序列上确定(i)对于所述经验元组的所述校正因子和(ii)对于所述经验元组的所述状态值时间差异的乘积的折损总和,以及
将对于所述第一经验元组中包括的所述观察的所述状态值加到所述折损总和。
8.根据权利要求1-7中的任一项所述的方法,其中,所述状态值损失函数包括所述状态值目标与对于所述序列中的所述第一经验元组中包括的所述观察的所述状态值之间的平方损失。
9.根据权利要求1-8中的任一项所述的方法,其中,基于对于所选动作的所述学习者策略得分与所述行为策略得分的比来调整所述动作选择神经网络的所述当前参数值包括:
在预定值处截断所述比。
10.根据权利要求1-9中的任一项所述的方法,其中,调整所述动作选择神经网络的所述当前参数值还至少基于:
对于所述序列中的所述第一经验元组中包括的所选动作的所述学习者策略得分的梯度;以及
对于在所述序列中的所述第一经验元组之后的随后经验元组中包括的观察的状态值目标,其中,对于所述随后经验元组中包括的所述观察的所述状态值目标至少基于:(i)对于所述随后经验元组和后续经验元组的校正因子、(ii)对于所述随后经验元组和后续经验元组的状态值时间差异、以及(iii)对于所述序列中的所述随后经验元组中包括的所述观察的状态值;以及
所述序列中的一个或多个经验元组中包括的反馈值。
11.根据权利要求1-10中的任一项所述的方法,还包括:
确定熵奖励,包括在所述预定的一组动作中的每个动作上确定:(i)基于所述第一经验元组中包括的所述观察的对于来自所述动作选择神经网络的动作的学习者策略得分以及(ii)基于所述第一经验元组中包括的所述观察的对于来自所述动作选择神经网络的动作的所述学习者策略得分的对数的乘积的总和;以及
还至少基于所述熵奖励相对于所述动作选择神经网络的参数的梯度来调整所述动作选择神经网络的所述当前参数值。
12.根据权利要求1-11中的任一项所述的方法,其中,所述行为策略不同于由所述动作选择神经网络限定的学习者策略。
13.一种用于训练学习者动作选择神经网络的系统,所述学习者动作选择神经网络用于根据学习者动作选择神经网络参数来选择要由与环境交互的智能体执行的动作,所述系统包括:
多个行动者计算单元,每个行动者计算单元被配置为维护相应的行动者动作选择神经网络并执行行动者操作,所述行动者操作包括:
生成一个或多个经验元组的轨迹,其中,生成经验元组包括:
接收表征所述环境的实例的当前状态的观察,
使用所述行动者动作选择神经网络根据所述行动者动作选择神经网络的当前参数值并基于所述观察,确定要由所述智能体执行的所选动作以及对于所选动作的策略得分;
获得转变数据,所述转变数据包括:(i)表征在所述智能体执行所选动作之后环境实例的后续状态的后续观察、以及(ii)在所述智能体执行所选动作之后接收到的反馈值;
根据所述观察、所选动作、对于所选动作的所述策略得分、所述后续观察以及所述反馈值来生成经验元组;
将所述经验元组的轨迹存储在队列中,其中,每个行动者计算单元均能够访问所述队列,并且所述队列包括不同经验元组轨迹的有序序列;以及
一个或多个学习者计算单元,其中,所述一个或多个学习者计算单元中的每一个被配置为执行学习者操作,所述学习者操作包括:
从所述队列获得一批经验元组轨迹;以及
使用该一批经验元组轨迹,利用强化学习技术来确定对所述学习者动作选择神经网络参数的更新。
14.根据权利要求13所述的系统,其中,每个行动者计算单元执行行动者操作,所述行动者操作还包括更新所述行动者动作选择神经网络的当前参数值,包括:
获得所述学习者动作选择神经网络的当前参数值;以及
基于当前学习者动作选择神经网络参数值来更新所述行动者动作选择神经网络的所述当前参数值。
15.根据权利要求14所述的系统,其中,每个行动者计算单元在生成经验元组轨迹之后,在更新所述行动者动作选择神经网络的所述当前参数值之前,抑制生成附加的经验元组轨迹。
16.根据权利要求13-15中的任一项所述的系统,其中:
所述学习者动作选择神经网络包括一个或多个卷积层;以及
使用所述一批经验元组轨迹来确定对所述学习者动作选择神经网络参数的更新包括使用所述学习者动作选择神经网络来处理...
【专利技术属性】
技术研发人员:HJ索耶,L埃思佩霍尔特,K西蒙扬,Y多伦,V菲罗伊,V米尼,K卡沃克库格鲁,R穆诺斯,T沃德,TJA哈利,I杜宁,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:英国;GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。