包括用于生成环境中的实体之间的数据编码关系的关系网络的强化学习系统技术方案

技术编号：27139658 阅读：35 留言：0更新日期：2021-01-27 20:59

提出了一种用于强化学习的神经网络系统，包括用于从状态数据中为环境中存在或至少潜在存在的多个实体中的每个实体提取相应实体数据的输入网络。实体数据描述实体。神经网络包含用于解析该数据的关系网络，该关系网络包括一个或多个注意力块，这些注意力块可以被堆叠以对实体数据执行连续的动作。每个注意力块包括用于实体中的每一个的相应变换网络。每个实体的变换网络能够基于多个其它实体的数据，将变换网络为该实体接收的数据变换为该实体的修改后实体数据。输出网络被布置成接收由关系网络输出的数据，并使用所接收的数据来选择相应动作(例如，来自可能动作的预定义空间中的动作)。的动作)。的动作)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】包括用于生成环境中的实体之间的数据编码关系的关系网络的强化学习系统

[0001]本说明书涉及强化学习。具体地，本说明书涉及一种用于为智能体(agent)选择在可能包含多个实体的环境中要执行的动作的神经网络系统，并且涉及由神经网络系统执行的方法。

技术介绍

[0002]在强化学习系统中，智能体通过执行由强化学习系统响应于接收到表征环境的当前状态的观测(observation)而选择的动作来与环境交互。
[0003]一些强化学习系统根据神经网络的输出，响应于接收到给定的观测，选择智能体要执行的动作。
[0004]神经网络是机器学习模型，其采用一层或多层非线性单元来预测对于接收到的输入的输出。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作对网络中下一层(即下一隐藏层或输出层)的输入。网络的每个层根据相应的参数集的当前值从接收的输入生成输出。

技术实现思路

[0005]本说明书一般地描述了强化学习系统，其选择与环境交互的强化学习智能体要执行的动作。为了使智能体与环境交互，系统接收表征环境的当前状态的数据(“状态数据”)，并响应于接收到的数据而选择智能体要执行的动作。在本说明书中，表征环境的状态的数据将被称为观测。
[0006]本说明书中描述的主题的一个创新方面可以被表示为一种用于强化学习的神经网络系统，包括用于从状态数据中为环境中存在或者至少潜在存在的多个实体中的每个实体提取相应实体数据的输入网络。实体数据描述实体。神经网络包含用于解析此数据的关...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于强化学习的神经网络系统，其中，所述神经网络系统用于选择与环境交互的智能体要执行的动作以执行任务来试图实现指定结果，所述系统包括：输入，用于接收表征环境的状态数据；输入网络，用于从状态数据中为环境中潜在存在的多个实体中的每一个个实体提取指示所述实体在环境中的存在的相应实体数据；关系网络，包括至少一个注意力块，每个注意力块包括用于实体中的每一个实体的相应变换网络，每个变换网络被布置成生成用于对应实体的相应修改后实体数据，所述修改后实体数据基于用于对应的多个实体的实体数据；以及输出网络，被布置成接收由关系网络输出的数据，并使用所接收的数据来选择相应动作。2.根据权利要求1所述的神经网络系统，其中，所述变换网络中的每一个包括一个或多个头部、以及用于从所述头部的输出生成修改后实体数据的自适应网络。3.根据权利要求2所述的神经网络系统，其中，将每个变换网络中的头部的数量表示为h，每个注意力块可操作以使用对应实体的实体数据来生成每个实体的h个值向量，并且每个头部可操作以形成通过相应注意力权重加权的对应的多个实体的值向量的总和。4.根据权利要求3所述的神经网络系统，其中，所述注意力块包括h个值网络，每个值网络用于从实体数据生成值向量。5.根据权利要求4所述的神经网络系统，其中，每个值网络通过将线性变换应用于实体数据来产生值向量。6.根据权利要求3至5中的任一项所述的神经网络系统，其中，对于每个实体，每个相应头部被布置以通过为对应的多个实体中的每一个生成相应显着性值并通过使用非线性函数组合所述显着性值以形成注意力权重，来生成注意力权重。7.根据权利要求6所述的神经网络系统，其中，所述非线性函数是soft-max函数。8.根据权利要求6或7所述的神经网络系统，其中，将每个变换网络中的头部的数量表示为h，每个注意力块包括用于从对应的实体数据生成每个实体的查询向量的h个查询网络、以及用于从对应的实体数据生成每个实体的键向量的h个键网络，每个头部被布置以使用对应实体的查询向量来生成多个实体中的每个实体的显着性值，作为查询向量与相应键向量的点积。9.根据权利要求3至8中任一项所述的神经网络系统，其中，每个变换网络被布置成级联加权的值向量，并使用级联的加权值向量来生成修改后实体数据。10.根据权利要求9所述的神经网络系统，其中，每个变换网络被布置成将级联的加权值向量添加到对应实体的实体数据以形成经求和的向量，并且将经求和的向量发送到自适应网络。11.根据权利要求2至10中任一项所述的神经网络系统，其中，所述自适应网络包括多层感知器。12.根据任一在前权利要求所述的神经网络系统，其中，对于每个实体，所述对应的多个实体包括所述实体本身。13.根据任一在前权利要求所述的神经网络系统，其中，每个输入网络包括至少一个卷积层。
14.根据权利要求13所述的神经...

【专利技术属性】
技术研发人员：李宇佳，VC巴普斯特，V扎姆巴尔迪，DN拉波索，AA桑托罗，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人