用于多代理环境中的行为预测和强化学习的图神经网络系统技术方案

技术编号:26896417 阅读:32 留言:0更新日期:2020-12-29 16:24
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于预测在具有多个代理的环境中的代理的动作或对所述代理的影响,特别是用于强化学习。在一个方面,关系前向模型(RFM)系统接收表示多个代理中的每个代理的代理动作的代理数据,并实现:编码器图神经网络子系统,将代理数据处理为图数据以提供编码后的图数据;循环图神经网络子系统,处理编码后的图数据以提供处理后的图数据;解码器图神经网络子系统,解码处理后的图数据以提供解码后的图数据;以及输出,提供与一个或更多个代理的预测动作有关的、解码后的图数据的节点属性和/或边属性的表示数据。强化学习系统包括RFM系统。

【技术实现步骤摘要】
【国外来华专利技术】用于多代理环境中的行为预测和强化学习的图神经网络系统
技术介绍
本说明书涉及用于预测具有多个代理的环境中的代理的动作或对所述代理的影响的神经网络,特别是用于强化学习的神经网络。神经网络是采用一层或更多层非线性单元来预测接收到的输入的输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或更多个隐藏层。每个隐藏层的输出用作网络中下一层的输入,即下一个隐藏层或输出层。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。一些神经网络表现出包括由边连接的节点的图结构;图可以是其中节点可由多个边连接的多图(multigraph)。节点和边可以具有相关联的节点特征和边特征;这些可以使用可由神经网络实现的节点函数和边函数来更新。
技术实现思路
该说明书描述了神经网络系统和方法,该神经网络系统和方法被实现为在一个或更多个位置中的一台或更多台计算机上用于处理表示多个代理的行为的数据的计算机程序,以用于预测代理的动作或用于确定对代理的运作的影响。代理可以是工厂车间的机器人、或者自主或半自主运载工具。所描述的神经网络系统可以用于强化学习,例如,以通过预期其它代理的动作来改善性能,或者用于学习合作行为。因此,在一个方面,一种用于预测或解释在共享环境中的多个代理的动作的关系前向模型(RFM)神经网络系统包括:输入,接收表示多个代理中的每个代理的代理动作的代理数据;以及一个或更多个处理器。所述一个或更多个处理器配置为实现将代理数据处理为图数据(结合图数据处理)以提供编码后的图数据,图数据可以包括至少表示图的节点和边的数据;边可以是有向的或无向的。每个代理可以由节点表示。环境中的非代理实体每个也可以由节点表示。节点具有例如用于确定每个代理的动作的节点属性。节点可以每个具有相同属性的集合。提供给编码器的图数据可以缺少边属性。边可以将代理彼此连接以及将代理连接到非代理实体。编码后的图数据可以包括表示图数据的更新后的版本的节点属性和边属性。所述一个或更多个处理器还可以配置为实现处理图神经网络子系统,特别是循环图神经网络子系统。循环/处理图神经网络子系统可以包括处理编码后的图数据并提供处理后的图数据的循环神经网络,处理后的图数据包括编码后的图数据的节点属性和边属性的更新后的版本。所述一个或更多个处理器还可以配置为实现解码处理后的图数据并提供解码后的图数据的解码器图神经网络子系统,解码后的图数据包括处理后的图数据的节点属性和边属性的更新后的版本。该系统可以具有提供表示数据的系统输出,该表示数据包括针对一个或更多个代理(例如,所有)代理的、解码后的图数据的节点属性和边属性之一或两者的表示。该表示可以与一个或更多个代理的例如分别从解码后的图数据的节点属性或边属性得出的预测动作或解释动作有关。在一些实施方式中,动作可以包括代理的运动。因此,由系统捕获的代理数据可以包括每个代理的代理位置和运动数据。于是节点属性可以包括每个代理的位置和运动的属性。在一些实施方式中,每个代理可以通过边连接到每个其它代理,并且每个非代理实体可以通过边连接到每个代理。然而,在实施方式中,非代理实体例如静止实体没有通过边连接。在一些实施方式中,系统输出包括一个或更多个输出神经网络层,例如多层感知器(MLP)。节点属性可以被表示为向量。所述一个或更多个输出神经网络层可以组合解码后的图数据中的节点的节点属性,以便输出表示数据。从节点得出的表示可以包括由该节点表示的代理的预测动作。表示数据可以定义从表示一个或更多个代理的一个或更多个节点的节点属性得出的数据的空间图,例如热图。在这样的图中,可以在相应节点的位置处表示从节点属性得出的数据。例如,在动作可以包括代理的移动的情况下,图可以表示所表示的每个代理处于某个位置的概率。在一些实施方式中,表示数据包括针对连接到一个或更多个节点的边的、解码后的图数据的边属性的表示。可以从边的边属性的组合中确定该边的边属性的表示。例如,边属性可以被表示为向量,并且边的边属性的组合可以是向量范数,诸如p范数,其中p是整数。在实施方式中,边是有方向的(尽管节点可以通过边在两个相反的方向上连接)。因此,边可以从起始节点连接到末端节点,例如从代理或非代理实体节点连接到代理节点。边的表示,例如向量范数,可以表示起始节点对它所连接的代理节点的重要性或影响。边表示数据可以定义空间图,诸如热图。在空间图中,边的边属性的表示,例如属性的向量范数,可以位于边的起始节点位置。这样的空间图可以基于每个代理来定义,即对于所考虑的每个代理可以存在一个图。假设边的表示,例如向量范数,表示边的重要性。因此,例如,通过指示哪些节点影响了动作或通过识别哪些其它(多个)节点对特定代理最有影响力(例如,通过对其它节点进行排名),解码后的图的边属性可以对可用于解释代理行为的信息进行编码。该解释信息的变化可以随着时间的推移被追踪。如上所述的神经网络系统可以通过有监督训练,例如,基于对共享环境中多个代理的行为的观察来训练。在如上所述的包括编码器图神经网络子系统、处理图神经网络子系统和解码器图神经网络子系统中的一个或更多个的神经网络系统中,编码器图神经网络子系统、处理图神经网络子系统和解码器图神经网络子系统中的一个或更多个可以配置为实现如下的图网络处理:对于每个边,使用边神经网络来处理边特征以确定输出边特征。对于每个节点,聚合连接到该节点的边的输出边特征以确定该节点的聚合边特征。对于每个节点,使用节点神经网络来处理聚合边特征和节点特征以确定输出节点特征。该过程可以执行一次或迭代地执行多次。处理边特征可以包括:对于每个边,将边特征和由该边连接的节点的节点特征提供给边神经网络以确定输出边特征。编码器图神经网络子系统、处理图神经网络子系统和解码器图神经网络子系统中的一个或更多个还可以配置为使用全局特征神经网络来确定全局特征向量。全局特征向量可以表示输出边特征和输出节点特征。在编码器图神经网络子系统确定全局特征向量的情况下,随后的处理图神经网络子系统和解码器图神经网络子系统也可以对全局特征向量进行操作。图神经网络子系统,诸如处理(循环)图神经网络子系统,可以包括循环图网络。于是,边神经网络、节点神经网络和全局特征神经网络(如下所述)中的一个或更多个可以包括循环神经网络,例如GRU(门控循环单元)神经网络。在一些实施方式中,该系统可以被包括在强化学习系统中。强化学习系统可以配置为选择将要由与共享环境交互的代理之一执行的动作。强化学习系统可以包括获得状态数据和奖励数据的输入,状态数据表示共享环境的状态,奖励数据表示由于代理执行动作而收到的奖励。例如,可以通过从环境捕获一个或更多个观察(诸如图像)并使用观察处理神经网络(诸如卷积神经网络)处理这些观察而得出状态数据。强化学习系统还可以包括处理状态数据和奖励数据以选择动作的动作选择策略神经网络。动作选择策略神经网络可以配置为接收和处理表示数据以选择动作。观察还可以用于训练系统以预测/解释代理的动作。例如,观察处理神经网络或另一个神经网络可以配置为识别环境中的代理的动作。观察处理神经网络或另一个神经网本文档来自技高网...

【技术保护点】
1.一种用于预测或解释在共享环境中的多个代理的动作的神经网络系统,该神经网络系统包括:/n输入,接收表示多个代理中的每个代理的代理动作的代理数据;以及一个或更多个处理器,配置为实现:/n编码器图神经网络子系统,将代理数据处理为图数据以提供编码后的图数据,/n其中,图数据包括(i)至少表示图的节点和边的数据以及(ii)图中至少一些节点的节点属性,/n其中,节点表示环境中的代理和一个或更多个非代理实体,/n其中,边连接图中的节点,/n其中,节点属性表示代理的代理动作,以及/n其中,编码后的图数据包括表示图数据的更新后的版本的节点属性和边属性;/n循环图神经网络子系统,包括处理编码后的图数据并提供处理后的图数据的循环神经网络,该处理后的图数据包括编码后的图数据的节点属性和边属性的更新后的版本;/n解码器图神经网络子系统,解码处理后的图数据并提供解码后的图数据,该解码后的图数据包括处理后的图数据的节点属性和边属性的更新后的版本;以及/n系统输出,提供表示数据,该表示数据包括针对一个或更多个代理的、解码后的图数据的节点属性和边属性之一或两者的表示,其中该表示与一个或更多个代理的预测动作或解释动作有关。/n...

【技术特征摘要】
【国外来华专利技术】20180518 US 62/673,8121.一种用于预测或解释在共享环境中的多个代理的动作的神经网络系统,该神经网络系统包括:
输入,接收表示多个代理中的每个代理的代理动作的代理数据;以及一个或更多个处理器,配置为实现:
编码器图神经网络子系统,将代理数据处理为图数据以提供编码后的图数据,
其中,图数据包括(i)至少表示图的节点和边的数据以及(ii)图中至少一些节点的节点属性,
其中,节点表示环境中的代理和一个或更多个非代理实体,
其中,边连接图中的节点,
其中,节点属性表示代理的代理动作,以及
其中,编码后的图数据包括表示图数据的更新后的版本的节点属性和边属性;
循环图神经网络子系统,包括处理编码后的图数据并提供处理后的图数据的循环神经网络,该处理后的图数据包括编码后的图数据的节点属性和边属性的更新后的版本;
解码器图神经网络子系统,解码处理后的图数据并提供解码后的图数据,该解码后的图数据包括处理后的图数据的节点属性和边属性的更新后的版本;以及
系统输出,提供表示数据,该表示数据包括针对一个或更多个代理的、解码后的图数据的节点属性和边属性之一或两者的表示,其中该表示与一个或更多个代理的预测动作或解释动作有关。


2.根据权利要求1所述的神经网络系统,其中,表示代理动作的代理数据包括多个代理中的每个代理的代理位置和运动数据,以及其中,用于确定每个代理的动作的节点属性还包括每个代理的位置和运动的属性。


3.根据权利要求1或2所述的神经网络系统,其中,每个代理通过边连接到每个其它代理,以及其中,每个非代理实体通过边连接到每个代理。


4.根据权利要求1、2或3所述的神经网络系统,其中,系统输出包括组合解码后的图数据中的节点的节点属性以输出表示数据的一个或更多个输出神经网络层,以及其中,该表示包括该节点所表示的代理的预测动作。


5.根据权利要求4所述的神经网络系统,其中,表示数据定义从表示一个或更多个代理的一个或更多个节点的节点属性得出的数据的空间图,以及其中,在空间图中,在相应节点的位置处或邻近相应节点的位置表示从节点属性得出的数据。


6.根据权利要求1-5中任一项所述的神经网络系统,其中,表示数据包括针对连接到一个或更多个节点的边的、解码后的图数据的边属性的表示,以及其中,从边的边属性的组合中确定用于该边的边属性的表示。


7.根据权利要求6所述的神经网络系统,其中,表示数据定义空间图,以及其中,在空间图中,在边的起始节点位置处表示用于该边的边属性的表示。


8.根据权利要求1-7中任一项所述的神经网络系统,其中,编码器图神经网络子系统、处理图神经网络子系统和解码器图神经网络子系统中的一个或更多个配置为:
对于每个边,使用边神经网络来处理边特征以确定输出边特征,
对于每个节点,聚合连接到该节点的边的输出边特征以确定该节点的聚合边特征,以及
对于每个节点,使用节点神经网络来处理聚合边特征和节点特征以确定输出节点特征。


9.根据权利要求8所述的神经网络系统,其中,处理边特征包括:对于每个边,将边特征和由该边连接的节点的节点特征提供到边神经网络以确定输出边特征。


10.根据权利要求8或9所述的神经网络系统,其中,编码器图神经网络子系统、处理图神经网络子系统和解码器图神经网络子系统中的一个或更多个还配置为使用全局特征神经网络来确定全局特征向量,全局特征向量表示输出边特征和输出节点特征,以及其中,随后的图神经网络子系统配置为当确定输出边特征和输出节点特征时处理全局特征向量。


11.一种强化学习系统,其包括根据权利要求1-10...

【专利技术属性】
技术研发人员:H宋A塔切蒂PW巴塔格利亚V扎姆巴尔迪
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1