用于多代理环境中的行为预测和强化学习的图神经网络系统技术方案

技术编号：26896417 阅读：32 留言：0更新日期：2020-12-29 16:24

方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于预测在具有多个代理的环境中的代理的动作或对所述代理的影响，特别是用于强化学习。在一个方面，关系前向模型(RFM)系统接收表示多个代理中的每个代理的代理动作的代理数据，并实现：编码器图神经网络子系统，将代理数据处理为图数据以提供编码后的图数据；循环图神经网络子系统，处理编码后的图数据以提供处理后的图数据；解码器图神经网络子系统，解码处理后的图数据以提供解码后的图数据；以及输出，提供与一个或更多个代理的预测动作有关的、解码后的图数据的节点属性和/或边属性的表示数据。强化学习系统包括RFM系统。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于多代理环境中的行为预测和强化学习的图神经网络系统
技术介绍
本说明书涉及用于预测具有多个代理的环境中的代理的动作或对所述代理的影响的神经网络，特别是用于强化学习的神经网络。神经网络是采用一层或更多层非线性单元来预测接收到的输入的输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或更多个隐藏层。每个隐藏层的输出用作网络中下一层的输入，即下一个隐藏层或输出层。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。一些神经网络表现出包括由边连接的节点的图结构；图可以是其中节点可由多个边连接的多图(multigraph)。节点和边可以具有相关联的节点特征和边特征；这些可以使用可由神经网络实现的节点函数和边函数来更新。
技术实现思路
该说明书描述了神经网络系统和方法，该神经网络系统和方法被实现为在一个或更多个位置中的一台或更多台计算机上用于处理表示多个代理的行为的数据的计算机程序，以用于预测代理的动作或用于确定对代理的运作的影响。代理可以是工厂车间的机器人、或者自主或半自主运载工具。所描述的神经网络系统可以用于强化学习，例如，以通过预期其它代理的动作来改善性能，或者用于学习合作行为。因此，在一个方面，一种用于预测或解释在共享环境中的多个代理的动作的关系前向模型(RFM)神经网络系统包括：输入，接收表示多个代理中的每个代理的代理动作的代理数据；以及一个或更多个处理器。所述一个或更多个处理器配置为实现将代理数据处理为图数据(结合图数据处理)以提供编码后的图数据，图数据可以包括至少表示图的节点和边的数据；边可...

【技术保护点】
1.一种用于预测或解释在共享环境中的多个代理的动作的神经网络系统，该神经网络系统包括：/n输入，接收表示多个代理中的每个代理的代理动作的代理数据；以及一个或更多个处理器，配置为实现：/n编码器图神经网络子系统，将代理数据处理为图数据以提供编码后的图数据，/n其中，图数据包括(i)至少表示图的节点和边的数据以及(ii)图中至少一些节点的节点属性，/n其中，节点表示环境中的代理和一个或更多个非代理实体，/n其中，边连接图中的节点，/n其中，节点属性表示代理的代理动作，以及/n其中，编码后的图数据包括表示图数据的更新后的版本的节点属性和边属性；/n循环图神经网络子系统，包括处理编码后的图数据并提供处理后的图数据的循环神经网络，该处理后的图数据包括编码后的图数据的节点属性和边属性的更新后的版本；/n解码器图神经网络子系统，解码处理后的图数据并提供解码后的图数据，该解码后的图数据包括处理后的图数据的节点属性和边属性的更新后的版本；以及/n系统输出，提供表示数据，该表示数据包括针对一个或更多个代理的、解码后的图数据的节点属性和边属性之一或两者的表示，其中该表示与一个或更多个代理的预测动作或解释动作有关。/n...

【技术特征摘要】
【国外来华专利技术】20180518 US 62/673,8121.一种用于预测或解释在共享环境中的多个代理的动作的神经网络系统，该神经网络系统包括：
输入，接收表示多个代理中的每个代理的代理动作的代理数据；以及一个或更多个处理器，配置为实现：
编码器图神经网络子系统，将代理数据处理为图数据以提供编码后的图数据，
其中，图数据包括(i)至少表示图的节点和边的数据以及(ii)图中至少一些节点的节点属性，
其中，节点表示环境中的代理和一个或更多个非代理实体，
其中，边连接图中的节点，
其中，节点属性表示代理的代理动作，以及
其中，编码后的图数据包括表示图数据的更新后的版本的节点属性和边属性；
循环图神经网络子系统，包括处理编码后的图数据并提供处理后的图数据的循环神经网络，该处理后的图数据包括编码后的图数据的节点属性和边属性的更新后的版本；
解码器图神经网络子系统，解码处理后的图数据并提供解码后的图数据，该解码后的图数据包括处理后的图数据的节点属性和边属性的更新后的版本；以及
系统输出，提供表示数据，该表示数据包括针对一个或更多个代理的、解码后的图数据的节点属性和边属性之一或两者的表示，其中该表示与一个或更多个代理的预测动作或解释动作有关。

2.根据权利要求1所述的神经网络系统，其中，表示代理动作的代理数据包括多个代理中的每个代理的代理位置和运动数据，以及其中，用于确定每个代理的动作的节点属性还包括每个代理的位置和运动的属性。

3.根据权利要求1或2所述的神经网络系统，其中，每个代理通过边连接到每个其它代理，以及其中，每个非代理实体通过边连接到每个代理。

4.根据权利要求1、2或3所述的神经网络系统，其中，系统输出包括组合解码后的图数据中的节点的节点属性以输出表示数据的一个或更多个输出神经网络层，以及其中，该表示包括该节点所表示的代理的预测动作。

5.根据权利要求4所述的神经网络系统，其中，表示数据定义从表示一个或更多个代理的一个或更多个节点的节点属性得出的数据的空间图，以及其中，在空间图中，在相应节点的位置处或邻近相应节点的位置表示从节点属性得出的数据。

6.根据权利要求1-5中任一项所述的神经网络系统，其中，表示数据包括针对连接到一个或更多个节点的边的、解码后的图数据的边属性的表示，以及其中，从边的边属性的组合中确定用于该边的边属性的表示。

7.根据权利要求6所述的神经网络系统，其中，表示数据定义空间图，以及其中，在空间图中，在边的起始节点位置处表示用于该边的边属性的表示。

8.根据权利要求1-7中任一项所述的神经网络系统，其中，编码器图神经网络子系统、处理图神经网络子系统和解码器图神经网络子系统中的一个或更多个配置为：
对于每个边，使用边神经网络来处理边特征以确定输出边特征，
对于每个节点，聚合连接到该节点的边的输出边特征以确定该节点的聚合边特征，以及
对于每个节点，使用节点神经网络来处理聚合边特征和节点特征以确定输出节点特征。

9.根据权利要求8所述的神经网络系统，其中，处理边特征包括：对于每个边，将边特征和由该边连接的节点的节点特征提供到边神经网络以确定输出边特征。

10.根据权利要求8或9所述的神经网络系统，其中，编码器图神经网络子系统、处理图神经网络子系统和解码器图神经网络子系统中的一个或更多个还配置为使用全局特征神经网络来确定全局特征向量，全局特征向量表示输出边特征和输出节点特征，以及其中，随后的图神经网络子系统配置为当确定输出边特征和输出节点特征时处理全局特征向量。

11.一种强化学习系统，其包括根据权利要求1-10...

【专利技术属性】
技术研发人员：H宋，A塔切蒂，PW巴塔格利亚，V扎姆巴尔迪，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：英国;GB

全部详细技术资料下载我是这个专利的主人