使用管理者和工作者神经网络的用于强化学习的动作选择制造技术

技术编号：38930695 阅读：16 留言：0更新日期：2023-09-25 09:35

提供了一种用于选择将由代理执行的动作的系统，包括：工作者神经网络系统，其被配置为在多个时间步中的每个时间步处：接收目标表示，所述目标表示定义作为由代理在所述环境中执行的动作的结果而要完成的目标，其中所述目标表示至少部分地基于所述时间步和/或一个或多个先前时间步的环境状态；和至少部分地基于所述目标表示和所述时间步的环境状态，为所述动作集中的每个动作生成相应的动作得分；以及动作选择子系统，被配置为在所述多个时间步中的每个时间步处：使用所述动作得分从所述动作集中选择要由所述代理在所述时间步执行的动作。作。作。

全部详细技术资料下载

【技术实现步骤摘要】
使用管理者和工作者神经网络的用于强化学习的动作选择
[0001]本申请是申请日为2018年2月19日、申请号为201880013632.8、专利技术名称为“使用神经网络的用于强化学习的动作选择”的中国专利技术专利申请的分案申请。

[0002]本说明书涉及强化学习。

技术介绍

[0003]在强化学习系统中，代理(agent)通过响应于接收到表征环境的当前状态的观察而执行由强化学习系统选择的动作来与环境交互。
[0004]一些强化学习系统根据神经网络的输出来选择由代理响应于接收到给定观察而要执行的动作。
[0005]神经网络是采用一个或多个非线性单元层来预测对接收输入的输出的机器学习模型。一些神经网络是深度神经网络，其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值根据接收的输入生成输出。

技术实现思路

[0006]本说明书总体上描述了一种动作选择系统，其选择要由与环境交互的强化学习代理执行的动作。
[0007]在第一方面，提供了一种动作选择系统，用于选择要由代理执行的动作，其中代理通过执行来自预定的动作集的动作来与环境交互，系统包括：管理者神经网络子系统，被配置为，在多个时间步中的每一个时间步处：接收环境在时间步处的当前状态的中间表示，将中间表示映射到潜在状态空间中的当前状态的潜在表示，使用目标循环(recurrent)神经网络处理潜在表示，其中目标循环神经网络被配置为接收潜在表示并...

【技术保护点】

【技术特征摘要】
1.一种用于选择将由代理执行的动作的系统，所述代理通过执行来自动作集的动作来与环境交互，所述系统包括一个或多个计算机以及通信地耦合到所述一个或多个计算机的一个或多个存储设备，其中所述一个或多个存储设备存储指令，所述指令当被所述一个或多个计算机执行时，使得所述一个或多个计算机实现：工作者神经网络系统，其被配置为在多个时间步中的每个时间步处：接收目标表示，所述目标表示定义作为由代理在所述环境中执行的动作的结果而要完成的目标，其中所述目标表示至少部分地基于所述时间步和/或一个或多个先前时间步的环境状态；和至少部分地基于所述目标表示和所述时间步的环境状态，为所述动作集中的每个动作生成相应的动作得分；和动作选择子系统，被配置为在所述多个时间步中的每个时间步处：使用所述动作得分从所述动作集中选择要由所述代理在所述时间步执行的动作。2.根据权利要求1所述的系统，还包括具有编码神经网络参数集的编码神经网络系统，所述编码神经网络系统被配置为：接收表征所述环境的当前状态的观察；根据所述编码神经网络参数集的当前值处理所述观察，以生成所述观察的中间表示；和输出所述中间表示。3.根据权利要求2所述的系统，其中所述编码神经网络包括卷积神经网络。4.根据权利要求2所述的系统，其中，所述工作者神经网络系统被配置为接收所述中间表示，并且其中，由所述工作者神经网络系统对相应动作得分的生成至少部分地基于所述中间表示。5.根据权利要求4所述的系统，其中所述工作者神经网络系统包括具有投影引擎参数集的投影引擎，所述投影引擎被配置为：接收所述目标表示；和根据所述投影引擎参数集的当前值来处理所述目标表示，以生成目标嵌入向量；和输出所述目标嵌入向量，其中，对所述动作集中的每个动作的相应动作得分的生成至少部分地基于所述目标嵌入向量。6.根据权利要求5所述的系统，其中，所述工作者神经网络系统被配置为将所述中间表示映射到动作集中的每个动作的相应动作嵌入向量。7.根据权利要求6所述的系统，其中所述工作者神经系统包括调制引擎，所述调制引擎被配置为：接收所述相应动作嵌入向量；接收所述目标嵌入向量；基于所述动作集中的每个动作的相应动作嵌入向量和所述目标嵌入向量，生成动作的相应动作得分。8.根据权利要求7所述的系统，其中生成动作的相应动作得分包括：根据所述目标嵌入向量修改所述动作的动作嵌入向量。
9.根据权利要求7所述的系统，其中生成动作的相应动作得分包括：组合所述相应动作嵌入向量和所述目标嵌入向量。10.根据权利要求1所述的系统，还包括管理者神经网络系统，所述管理者神经网络系统被配置为在多个时间步中的每个时间步处：在潜在空间中生成所述时间步的环境的当前状态的潜在表示；和至少使用所述时间步的环境的当前状态的潜在表示来生成所述时间步的最终目标表示。11.根据权利要求10所述的系统，其中所述管理者神经网络系统被配置为从编码神经网络接收表征环境的当前状态的观察...

【专利技术属性】
技术研发人员：S，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人