异步深度强化学习制造技术

技术编号:34517183 阅读:50 留言:0更新日期:2022-08-13 21:05
本公开涉及异步深度强化学习。用于异步深度强化学习的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。所述系统之一包括被配置为实现多个工作体的一个或多个计算机,其中每个工作体被配置为独立于每个其它工作体进行操作,并且其中每个工作体与在深度神经网络的训练期间和环境的相应副本进行交互的行动体相关联。本说明书的多个方面具有更快速地训练神经网络和/或降低训练的存储器要求的技术效果。的技术效果。的技术效果。

【技术实现步骤摘要】
异步深度强化学习
[0001]分案说明
[0002]本申请属于申请日为2016年11月11日的中国专利技术专利申请201680065534.X的分案申请。


[0003]本说明书涉及异步深度强化学习。

技术介绍

[0004]在强化学习系统中,智能体(agent)通过响应于接收到表征环境的当前状态的观察而执行该强化学习系统所选择的动作来与该环境进行交互。
[0005]一些强化学习系统响应于接收到依据神经网络的输出的给定观察而选择要由智能体执行的动作。
[0006]神经网络是采用非线性单元的一个或多个层来针对所接收输入预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作网络中下一层的输入,所述下一层即下一个隐藏层或输出层。该网络的每一层依据相应参数集合的当前值从所接收输入生成输出。

技术实现思路

[0007]本说明书描述了涉及强化学习的技术。具体地,本说明书描述了用于对强化学习系统所使用的深度神经网络进行异步训练以选择智能体在与环境交互时所要执行的动作的技术。本说明书的方面具有更快速地训练神经网络和/或降低训练的存储器要求的技术效果。
[0008]对于要被配置为执行特定操作或动作的一个或多个计算机的系统而言,意味着该系统已经在其上安装了在操作中使得该系统执行该操作或动作的软件、固件、硬件或者它们的组合。对于要被配置为执行特定操作或动作的一个或多个计算机程序而言,意味着该一个或多个程序包括在被数据处理装置执行时使得该装置实行该操作或动作的指令。
[0009]本说明书所描述的主题能够在特定实施例中实现,从而实现以下优势中的一种或多种。通过使训练并行化,强化学习系统所使用的神经网络能够被更快地训练。更具体地,通过使用在单个机器上独立操作的多个工作体(worker)来使得训练并行化,能够降低由于并行所导致的通信成本。此外,通过去除了在工作体像在包括多个机器上的多个工作体的并行化技术通常所要求的那样在中继存储器或其它存储中存储经验元组的需求,训练的存储器要求能够有所减少并且能够采用on

policy的强化学习方法。
[0010]本说明书的主题的一个或多个实施例的细节在以下的附图和描述中给出。本主题的其它方法、特征和优势将根据描述、附图和权利要求书而变得清楚明白。例如,说明书提供了用于实施本文所公开的技术的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一些实施例中,一种计算机程序包括指令,所述指令在被计算装置执行时使得
其实行本文所公开的任何技术。
附图说明
[0011]图1示出了示例神经网络训练系统。
[0012]图2是用于训练深度神经网络的示例过程的流程图。
[0013]图3是用于执行Q学习技术的迭代的示例过程的流程图。
[0014]图4是用于执行SARSA技术的迭代的示例过程的流程图。
[0015]图5是用于训练策略神经网络的示例过程的流程图。
[0016]各图中相似的附图标记和名称指示相似的元素。
具体实施方式
[0017]本说明书总体上描述了用于异步深度强化学习的技术。具体地,本说明书描述了多个工作体能够如何异步训练强化学习系统所使用的深度神经网络,以选择要由与环境交互的智能体所执行的动作。
[0018]在一些实施方式中,该环境是仿真环境并且该智能体被实现为与该仿真环境进行交互的一个或多个计算机程序。例如,该仿真环境可以是视频游戏,并且该智能体可以是玩视频游戏的仿真用户。作为另一个示例,该仿真环境可以是运动仿真环境,例如驾驶仿真或飞行仿真,并且该智能体是通过运动仿真进行导航的仿真交通工具。在这些实施方式中,动作可以是用于控制仿真用户或仿真交通工具的控制输入。
[0019]在一些其它实施方式中,该环境是真实世界环境并且该智能体是与真实世界环境进行交互的机械智能体。例如,智能体可以是与环境进行交互从而完成特定任务的机器人。作为另一个示例,智能体可以是通过环境导航的自主或半自主交通工具。在这些实施方式中,动作可以是用于控制机器人或自主交通工具的控制输入。
[0020]通常,强化学习系统接收表征环境的当前状态的观察,并且使用该观察来选择要由智能体所执行的动作。响应于智能体执行所选择的动作,环境变换为新的状态并且该强化学习系统接收到回馈。该回馈是作为环境状态的函数的数值。在与环境交互的同时,强化学习系统尝试响应于智能体所执行的动作而使得智能体所接收到的长期回馈最大化。
[0021]具体地,响应于给定观察,强化学习系统依据深度神经网络所生成的输出来选择要由智能体所执行的动作。
[0022]为了允许强化学习系统有效地选择要由智能体所执行的动作,神经网络训练系统对深度神经网络进行训练以将该深度神经网络的参数值从初始参数值进行调节。
[0023]具体地,该神经网络训练系统包括通过选择要由与环境副本进行交互的行动体(actor)所执行的动作对深度神经网络进行异步训练的多个工作体。
[0024]每个行动体是独立于每个其它实例进行操作的智能体的实例。例如,当智能体是机械智能体时,每个行动体也是单独的机械智能体,它与智能体相同或近似相同并且独立于每个其它行动体进行操作,例如具有与智能体相同或近似相同的性质并且能够执行相同的动作。
[0025]图1示出了示例神经网络训练系统100。神经网络训练系统100是被实现为以下所描述的系统、组件和技术在其中实现的一个或多个位置中的一个或多个计算机上的计算机
程序的系统的示例。
[0026]神经网络训练系统100包括多个工作体102A

N和共享存储器110。工作体102A

N中的每一个与相应的行动体104A

N相关联,所述相应行动体A

1与对应的环境副本106A

N进行交互。例如,工作体102A与行动体104A相关联,所述行动体104A与环境副本106A进行交互。
[0027]在一些实施方式中,工作体102A

N中的每一个在相同计算机上实现,但是在该计算机内能够为工作体独立执行计算的单独线程、进程或其他硬件或软件中执行。在这些实施方式中,共享存储器110是该计算机的能够由工作体102A

N中的每一个所访问的存储器。在环境是虚拟环境的实施方式中,与给定工作体相关联的行动体和环境副本在与给定工作体相同的线程或其它硬件或软件中执行。
[0028]工作体102A

N中的每一个维持被训练的深度神经网络的实例,并且访问共享存储器110以获得已经存储在共享存储器110中的深度神经网络的当前参数值。然后,每个工作体使用该工作体的深度神经网络的实例依据从共享存储器110所获得的该神经网络的当前参数值来选择要由与该工作体相关联的行动体所执行的动作。
[0029]具体地,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练深度神经网络的系统,所述深度神经网络用于选择要由智能体执行的动作,所述智能体通过执行从预定动作集合中选择的动作来与环境进行交互,所述系统包括:多个工作体中的所有工作体能够访问的共享存储器,其中,所述共享存储器存储所述深度神经网络的参数值;多个工作体,其中,每个工作体被配置为独立于每个其它工作体进行操作,其中,每个工作体与在所述深度神经网络的训练期间和所述环境的相应副本进行交互的相应行动体相关联,并且其中,每个工作体进一步被配置为重复执行操作,所述操作包括:确定所述深度神经网络的当前参数值;接收表征由与该工作体相关联的所述行动体所交互的环境副本的当前状态的当前观察;根据该工作体的相应动作选择策略使用由所述深度神经网络根据所述当前参数值生成的一个或多个输出来选择要由与该工作体相关联的所述行动体响应于所述当前观察而执行的当前动作;在所述环境副本处于所述当前状态时,识别由于所述行动体执行所述当前动作所产生的实际回馈;接收表征由与所述行动体所交互的环境副本的下一状态的下一观察,其中,所述环境副本响应于所述行动体执行所述当前动作而从所述当前状态变换到所述下一状态;执行强化学习技术的迭代以使用所述实际回馈和所述下一观察来确定当前梯度;利用所述当前梯度来更新累加梯度以确定更新的累加梯度;确定用于更新存储在所述共享存储器中的深度神经网络的所述参数值的标准是否已经被满足;以及在用于更新存储在所述共享存储器中的深度神经网络的当前参数值的所述标准已经被满足时:使用所述更新的累加梯度和存储在所述共享存储器中的深度神经网络的所述参数值来确定所述深度神经网络的更新的参数值;将所述深度神经网络的所述更新的参数值存储在能够由所述多个工作体中的所有工作体访问的所述共享存储器中。2.根据权利要求1所述的系统,其中,每个工作体独立于相同计算机上的每个其它工作体来执行。3.根据权利要求1所述的系统,其中,每个工作体的相应动作选择策略不同于每个其它工作体的相应动作选择策略。4.根据权利要求1所述的系统,所述操作进一步包括:在更新存储在所述共享存储器中的深度神经网络的所述参数值的所述标准已经被满足时,清除所述更新的累加梯度。5.根据权利要求1所述的系统,其中,确定用于更新存储在所述共享存储器中的深度神经网络的参数值的所述标准是否已经被满足包括:确定自之前更新存储在所述共享存储器中的深度神经网络的所述参数值起已经执行了指定数目的所述强化学习技术的迭代。6.根据权利要求1所述的系统,其中,所述深度神经网络是Q网络,所述Q网络被配置为接收表征所述环境的输入状态的输入观察和输入动作,并且生成Q值,所述Q值是在所述环
境处于所述输入状态时由于执行所述输入动作所产生的长期回馈的估计,并且其中,选择要所述行动体响应于所述当前观察而执行的所述当前动作包括:对于所述预定动作集合中的每个动作,使用所述深度神经网络处理所述当前观察和该动作,以根据所述深度神经网络的所述当前参数值生成该动作的Q值;和根据所述工作体的所述动作选择策略使用所述动作的所述Q值,从所述预定动作集合中选择动作。7.根据权利要求6所述的系统,其中,所述强化学习技术是Q学习技术,并且其中,执行所述迭代包括:在所述环境副本处于所述下一状态时,确定所述预定动作集合中的任一个动作的目标网络的最大输出,其中,所述目标网络是与所述Q网络相同但具有可能不同的参数值的神经网络;根据所述目标网络的所述最大输出、所述实际回馈和所述当前动作的所述Q值确定误差;和使用所述误差确定所述当前梯度。8.根据权利要求6所述的系统,其中,所述强化学习技术是SARSA技术,并且其中,执行所述迭代包括:根据所述工作体的相应动作选择策略,选择要由与所述工作体相关联的所述行动体响应于所述下一观察而执行的下一动作;使用目标网络处理所述下一动作和所述下一观察,以确定所述下一动作的目标网络输出,其中,所述目标网络是与所述Q网络相同但具有可能不同的参数值的神经网络;从所述下一动作的所述目标网络输出、所述实际回馈和所述当前动作的所述Q值确定误差;和使用所述误差确定所述当前梯度。9.一个或多个存储指令的非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时,使所述一个或多个计算机实现一种用于训练深度神经网络的系统,所述深度神经网络用于选择要由智能体执行的动作,所述智能体通过执行从预定动作集合中选择的动作来与环境进行交互,所述系统包括:多个工作体中的所有工作体能够访问的共享存储器,其中,所述共享存储器存储所述深度神经网络的参数值;多个工作体,其中,每个工作体被配置为独立于每个其它工作体进行操作,其中,每个工作体与在所述深度神经网络的训练期间和所述环境的相应副本进行交互的相应行动体相关联,并且其中,每个工作体进一步被配置为重复执行操作,所述操作包括:确定所述深度神经网络的当前参数值;接收表征由与该工作体相关联的所述行动体所交互的环境副本的当前状态的当前观察;根据该工作体的相应动作选择策略使用由所述深度神经网络根据所述当前参数值生成的一个或多个输出来选择要由与该工作体相关联的所述行动体响应于所述当前观察而执行的当前动作;在所述环境副本处于所述当前状态时,识别由于所述行动体执行所述当前动作所产生
的实际回馈;接收表征由与所述行动体所交互的环境副本的下一状态的下一观察,其中,所述环境副本响应于所述行动体执行所述当前动作而从所述当前状态变换到所述下一状态;执行强化学习技术的迭代以使用所述实际回馈和所述下一观察来确定当前梯度;利用所述当前梯度来更新累加梯度以确定更新的累加梯度;确定用于更新存储在所述共享存储器中的深度神经网络的所述参数值的标准是否已经被满足;以及在用于更新存储在所述共享存储器中的深度神经网络的当前参数值的所述标准已经被满足时:使用所述更新的累加梯度和存储在所述共享存储器中的深度神经网络的所述参数值来确定所述深度神经网络的更新的参数值;将所述深度神经网络的所述更新的参数值存储在能够由所述多个工作体中的所有工作体访问的所述共享存储器中。10.根据权利要求9所述的计算机存储介质,其中,每个工作体独立于相同计算机上的每个其它工作体来执行。11.根据权利要求9所述的计算机存储介质,其中,每个工作体的相应动作选择策略不同于每个其它工作体的相应动作选择策略。12.根据权利要求9所述的计算机存储介质,所述操作进一步包括:在更新存储在所述共享存储器中的深度神经网络的所述参数值的所述标准已经被满足时,清除所述更新的累加梯度。13.根据权利要求9所述的计算机存储介质,其中,确定用于更新存储在所述共享存储器中的深度神经网络的参数值的所述标准是否已经被满足包括:确定自之前更新存储在所述共享存储器中的深度神经网络的所述参数值起已经执行了指定数目的所述强化学习技术的迭代。14.根据权利要求9所述的计算机存储介质,其中,所述深度神经网络是Q网络,所述Q网络被配置为接收表征所述环境的输入状态的输入观察和输入动作,并且生成Q值,所述Q值是在所述环境处于所述输入状态时由于执行所述输入动作所产生的长期回馈的估计,并且其中,选择要所述行动体响应于所述当前观察而执行的所述当前动作包括:对于所述预定动作集合中的每个动作,使用所述深度神经网络处理所述当前观察和该动作,以根据所述深度神经网络的所述当前参数值生成该动作的Q值;和根据所述工作体的所述动作选择策略使用所述动作的所述Q值,从所述预定动作集合中选择动作。15.根据权利要求14所述的计算机存储介质,其中,所述强化学习技术是Q学习技术,并且其中,执行所述迭代包括:在所述环境副本处于所述下一状态时,确定所述预定动作集合中的任一个动作的目标网络的最大输出,其中,所述目标网络是与所述Q网络相同但具有可能不同的参数值的神经网络;根据所述目标网络的所述最大输出、所述实际回馈和所述当前动作的所述Q值确定误差;和
使用所述误差确定所述当前梯度。16.根据权利要求14所述的计算机存储介质,其中,所述强化学习技术是SARSA技术,并且其中,执行所述迭代包括:根据所述工作体的相应动作选择策略,选择要由与所述工作体相关联的所述行动体响应于所述下一观察而执行的下一动作;使用目标网络处理所述下一动作和所述下一观察,以确定所述下一动作的目标网络输出,其中,所述目标网络是与所述Q网络相同但具有可能不同的参数值的神经网络;从所述下一动作的所述目标网络输出、所述实际回馈和所述当前动作的所述Q值确定误差;和使用所述误差确定所述当前梯度。17.一种训练深度神经网络的方法,所述深度神经网络用于选择要由智能体执行的动作,所述智能体通过执行从预定动作集合中选择的动作来与环境进行交互,所述方法包括:使用多个工作体重复更新所述深度神经网络的参数值,所述参数值存储在所述多个工作体中的所有工作体能够访问的共享存储器中,其中,每个工作体被配置为独立于每个其它工作体进行操作,其中,每个工作体与在所述深度神经网络的训练期间和所述环境的相应副本进行交互的相应行动体相关联,并且其中,每个工作体进一步被配置为重复执行操作,所述操作包括:确定所述深度神经网络的当前参数值;接收表征由与该工作体相关联的所述行动体所交互的环境副本的当前状态的当前观察;根据该工作体的相应动作选择策略使用由所述深度神经网络根据所述当前参数值生成的一个或多个输出来选择要由与该工作体相关联的所述行动体响应于所述当前观察而执行的当前动作;在所述环境副本处于所述当前状态时,识别由于所述行动体执行所述当前动作所产生的实际回馈;接收表征由与所述行动体所交互的环境副本的下一状态的下一观察,其中,所述环境副本响应于所述行动体执行所述当前动作而从所述当前状态变换到所述下一状态;执行强化学习技术的迭代以使用所述实际回馈和所述下一观察来确定当前梯度;利用所述当前梯度来更新累加梯度以确定更新的累加梯度;确定用于更新存储在所述共享存储器中的深度神经网络的所述参数值的标准是否已经被满足;以及在用于更新存储在所述共享存储器中的深度神经网络的当前参数值的所述标准已经被满足时:使用所述更新的累加梯度和存储在所述共享存储器中的深度神经网络的所述参数值来确定所述深度神经网络的更新的参数值;将所述深度神经网络的所述更新的参数值存储在能够由所述多个工作体中的所有工作体访问的所述共享存储器中。18.根据权利要求17所述的方法,其中,每个工作体独立于相同计算机上的每个其它工作体来执行。
19.根据权利要求17所述的方法,其中,每个工作体的相应动作选择策略不同于每个其它工作体的相应动作选择策略。20.根据权利要求17所述的方法,其中,所述深度神经网络是Q网络,所述Q网络被配置为接收表征所述环境的输入状态的输入观察和输入动作,并且生成Q值,所述Q值是在所述环境处于所述输入状态时由于执行所述输入动作所产生的长期回馈的估计,并且其中,选择要所述行动体响应于所述当前观察而执行的所述当前动作包括:对于所述预定动作集合中的每个动作,使用所述深度神经网络处理所述当前观察和该动作,以根据所述深度神经网络的所述当前参数值生成该动作的Q值;和根据所述工作体的所述动作选择策略使用所述动作的所述Q值,从所述预定动作集合中选择动作。21.一种用于训练深度神经网络的系统,所述深度神经网络用于控制通过执行从预定动作集合中选择的动作来与环境进行交互的智能体,所述深度神经网络包括具有多个策略参数的策略神经网络和具有多个基线参数的基线神经网络,并且所述系统包括一个或多个计算机,所述一个或多个计算机被配置为实现:一个或多个工作体,其中,每个工作体与在所述深度神经网络的训练期间和所述环境的相应实例进行交互的相应行动体相关联,并且其中,每个工作体进一步被配置为重复执行操作,所述操作包括:确定所述深度神经网络的当前参数值,包括:从能够由所述一个或多个工作体中的每个工作体访问的存储器接收所述基线神经网络的所述基线参数的当前值;以及从所述存储器接收所述策略神经网络的所述策略参数的当前值;直到与所述工作体相关联的所述行动体所交互的环境实例变换到满足特定标准的状态为止:接收表征所述环境实例的状态的观察,并且响应于每个观察,根据所述工作体的相应动作选择策略来选择要由与所述工作体相关联的所述行动体响应于该观察而执行的动作,其中,所述选择针对每个观察包括:使用所述策略神经网络并且根据所述策略神经网络的所述当前参数值来处理所述观察,以根据所述策略神经网络的所述当前参数值来生成针对预定动作集合中的每个动作的相应分值,以及使用所述相应分值来选择要由所述行动体执行的当前动作;针对在满足所述特定标准之前接收到的每个观察:基于所述基线网络的所述当前参数值来生成表示从由该观察表征的状态开始由所述智能体接收到的估计回馈的基线分值;识别由于所述行动体响应于该观察而执行所选择的动作所产生的实际回馈;至少根据所述实际回馈和针对表征满足所述特定标准的状态的观察的基线分值来确定实际长期回馈;以及执行强化学习技术的迭代以基于所述基线分值和所述实际长期回馈来针对所述基线和策略网络确定相应当前梯度;
基于所述相应当前梯度针对所述基线和策略网络更新相应累加梯度以确定相应更新的累加梯度;确定用于更新所述深度神经网络的所述当前参数值的标准是否已经被满足;以及当用于更新所述深度神经网络的所述当前参数值的所述标准已经被满足时:更新所述深度神经网络的所述参数,其中,所述更新包括:使用所述更新的累加梯度来确定更新的参数值;以及将所述更新的参数值存储在能够由所述一个或多个工作体中的每一个工作体访问的存储器中。22.根据权利要求21所述的系统,其中,所述一个或多个工作体中的每个工作体在相同计算机上执行。23.根据权利要求21所述的系统,所述操作进一步包括:当更新所述深度神经网络的所述当前参数值的所述标准已经被满足时,清除所述更新的累加梯度。24.根据权利要求21所述的系统,其中,确定更新所述深度神经网络的所述当前参数值的所述标准是否已经被满足包括:确定自之前更新所述深度神经网络的参数值起已经执行了指定数目的所述强化学习技术的迭代。25.根据权利要求21所述的系统,其中,确定所述实际长期回馈包括:针对在满足所述标准之前接收到的最新观察,基于针对该观察的所述实际回馈和针对表征满足所述特定标准的状态的观察的所述基线分值来设置所述实际长期回馈;以及针对在满足所述标准之前接收到的每个其它观察,将针对该观察的所述实际长期回馈设置为所述实际回馈加上针对在该观察之后接收到的观察的实际长期回馈的折扣总和。26.根据权利要求21所述的系统,其中,针对所述策略神经网络的梯度更新由以下确定:其中,π(a
t
|s
t
;θ

)表示根据所述策略神经网络的所述当前参数值确定的针对响应于所述观察s
t
所执行的动作的分值,R
t
是所述实际回馈,并且b
t
是所述基线分值。27.根据权利要求26所述的系统,其中,针对所述基线神经网络的所述梯度更新由以下确定:其中,b(s
t
;θ

b
)是针对所述观察s
t
的所述基线分值。28.一个或多个存储指令的非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时,使所述一个或多个计算机实现一种用于训练深度神经网络的系统,所述深度神经网络用于控制通过执行从预定动作集合中选择的动作来与环境进行交互的智能体,所述深度神经网络包括具有多个策略参数的策略神经网络和具有多个基线参数的基线神经网络,并且所述系统包括:一个或多个工作体,其中,每个工作体与在所述深度神经网络的训练期间和所述环境的相应实例进行交互的相应行动体相关联,并且其中,每个工作体进一步被配置为重复执行操作,所述操作包
括:确定所述深度神经网络的当前参数值,包括:从能够由所述一个或多个工作体中的每个工作体访问的存储器接收所述基线神经网络的所述基线参数的当前值;以及从所述存储器接收所述策略神经网络的所述策略参数的当前值;直到与所述工作体相关联的所述行动体所交互的环境实例变换到满足特定标准的状态为止:接收表征所述环境实例的状态的观察,并且响应于每个观察,根据所述工作体的相应动作选择策略来选择要由与所述工作体相关联的所述行动体响应于该观察而执行的动作,其中,所述选择针对每个观察包括:使用所述策略神经网络并且根据所述策略神经网络的所述当前参数值来处理所述观察,以根据所述策略神经网络的所述当前参数值来生成针对预定动作集合中的每个动作的相应分值,以及使用所述相应分值来选择要由所述行动体执行的当前动作;针对在满足所述特定标准之前接收到的每个观察:基于所述基线网络的所述当前参数值来生成表示从由该观察表征的状态开始由所述智能体接收到的估计回馈的基线分值;识别由于所述行动体响应于该观察而执行所选择的动作所产生的实际回馈;至少根据所述实际回馈和针对表征满足所述特定标准的状态的观察的基线分值来确定实际长期回馈;以及执行强化学习技术的迭代以基于所述基线分值和所述实际长期回馈来针对所述基线和策略网络确定相应当前梯度;基于所述相应当前梯度针对所述基线和策略网络更新相应累加梯度以确定相应更新的累加梯度;确定用于更新所述深度神经网络的所述当前参数值的标准是否已经被满足;以及当用于更新所述深度神经网络的所述当前参数值的所述标准已经被满足时:更新所述深度神经网络的所述参数,其中,所述更新包括:使用所述更新的累加梯度来确定更新的参数值;以及将所述更新的参数值存储在能够由所述一个或多个工作体中的每一个工作体访问的存储器中。29.根据权利要求28所述的非暂时性计算机存储介质,其中,所述一个或多个工作体中的每个工作体在相同计算机上执行。30.根据权利要求28所述的非暂时性计算机存储介质,所述操作进一步包括:当更新所述深度神经网络的所述当前参数值的所述标准已经被满足时,清除所述更新的累加梯度。31.根据权利要求28所述的非暂时性计算机存储介质,其中,确定更新所述深度神经网络的所述当前参数值的所述标准是否已经被满足包括:确定自之前更新所述深度神经网络的参数值起已经执行了指定数目的所述强化学习技术的迭代。32.根据权利要求28所述的非暂时性计算机存储介质,其中,确定所述实际长期回馈包括:
针对在满足所述标准之前接收到的最新观察,基于针对该观察的所述实际回馈和针对表征满足所述特定标准的状态的观察的所述基线分值来设置所述实际长期回馈;以及针对在满足所述标准之前接收到的每个其它观察,将针对该观察的所述实际长期回馈设置为所述实际回馈加上针对在该观察之后接收到的观察的实际长期回馈的折扣总和。33.根据权利要求28所述的非暂时性计算机存储介质,其中,针对所述策略神经网络的梯度更新由以下确定:其中,π(a
t
|s
t
;θ

)表示根据所述策略神经网络的所述当前参数值确定的针对响应于所述观察s
t
所执行的动作的分值,R
t
是所述实际回馈,并且b
t
是所述基线分值。34.根据权利要求33所述的非暂时性计算机存储介质,其中,针对所述基线神经网络的所述梯度更新由以下确定:其中,b(s
t
;θ

b
)是针对所述观察s
t
的所述基线分值。35.一种由一个或多个计算机执行的用于训练深度神经网络的方法,所述深度神经网络用于控制通过执行从预定动作集合中选择的动作来与环境进行交互的智能体,所述深度神经网络包括具有多个策略参数的策略神经网络和具有多个基线参数的基线神经网络,并且所述系统包括一个或多个计算机,所述方法包括:由一个或多个工作体中的第一工作体确定所述深度神经网络的当前参数值,其中,每个工作体与在所述深度神经网络的训练期间和所述环境的相应实例进行交互的相应行动体相关联,所述确定包括:从能够由所述一个或多个工作体中的每个工作体访问的存储器接收所述基线神经网络的所述基线参数的当前值;以及从所述存储器接收所述策略神经网络的所述策略参数的当前值;直到与所述工作体相关联的所述行动体所交互的环境实例变换到满足特定标准的状态为止:由所述第一工作体接收表征所述环境实例的状态的观察,并且响应于每个观察,根据所述第一工作体的相应动作选择策略来选择要由与所述第一工作体相关联的所述行动体响应于该观察而执行的动作,其中,所述选择针对每个观察包括:使用所述策略神经网络并且根据所述策略神经网络的所述当前参数值来处理所述观察,以根据所述策略神经网络的所述当前参数值来生成针对预定动作集合中的每个动作的相应分值,以及使用所述相应分值来选择要由所述行动体执行的当前动作;针对在满足所述特定标准之前接收到的每个观察:由所述第一工作体基于所述基线网络的所述当前参数值来生成表示从由该观察表征的状态开始由所述智能体接收到的估计回馈的基线分值;由所述第一工作体识别由于所述行动体响应于该观察而执行所选择的动作所产生的实际回馈;
由所述第一工作体至少根据所述实际回馈和针对表征满足所述特定标准的状态的观察的基线分值来确定实际长期回馈;以及由所述第一工作体执行强化学习技术的迭代以基于所述基线分值和所述实际长期回馈来针对所述基线和策略网络确定相应当前梯度;由所述第一工作体基于所述相应当前梯度针对所述基线和策略网络更新相应累加梯度以确定相应更新的累加梯度;由所述第一工作体确定用于更新所述深度神经网络的所述当前参数值的标准是否已经被满足;以及当用于更新所述深度神经网络的所述当前参数值的所述标准已经被满足时:由所述第一工作体更新所述深度神经网络的所述参数,其中,所述更新包括:使用所述更新的累加梯度来确定更新的参数值;以及将所述更新的参数值存储在能够由所述一个或多个工作体中的每一个工作体访问的存储器中。36.根据权利要求35所述的方法,其中,所述一个或多个工作体中的每个工作体在相同计算机上执行。37.根据权利要求35所述的方法,所述操作进一步包括:当更新所述深度神经网络的所述当前参数值的所述标准已经被满足时,清除所述更新的累加梯度。38.根据权利要求35所述的方法,其中,确定更新所述深度神经网络的所述当前参数值的所述标准是否已经被满足包括:确定自之前更新所述深度神经网络的参数值起已经执行了指定数目的所述强化学习技术的迭代。39.根据权利要求35所述的方法,其中,确定所述实际长期回馈包括:针对在满足所述标准之前接收到的最新观察,基于针对该观察的所述实际回馈和针对表征满足所述特定标准的状态的观察的所述基线分值来设置所述实际长期回馈;以及针对在满足所述标准之前接收到的每个其它观察,将针对该观察的所述实际长期回馈设置为所述实际回馈加上针对在该观察之后接收到的观察的实际长期回馈的折扣总和。40.根据权利要求35所述的方法,其中,针对所述策略神经网络的梯度更新由以下确定:其中,π(a
t
|s
t
;θ

)表示根据所述策略神经网络的所述当前参数值确定的针对响应于所述观察s
t
所执行的动作的分值,R
t
是所述实际回馈,并且b
t
是所述基线分值。41.一种包括一个或多个计算机的系统,其中,所述一个或多个计算机被配置为实现策略神经网络,所述策略神经网络用于控制通过执行从预定动作集合中选择的动作来与环境进行交互的智能体,其中:所述策略神经网络具有多个策略参数并且被配置为处理表征所述环境的状态的观察以针对所述预定动作集合中的每个动作生成相应分值;所述策略神经网络已与基线神经网络一起训练,所述基线神经网络具有多个基线参数并且被配置为处理表征所述环境的状态的输入观察以生成基线分值,所述基线分值表示从所述输入观察表征的所述状态开始所述智能体接收的估计长期回馈;和所述策略神经网络和所述基线神经网络已使用多个工作体训练,其中:
每个工作体被配置为独立于每个其他工作体操作;每个工作体与在所述训练期间和所述...

【专利技术属性】
技术研发人员:沃洛季米尔
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1