包括用于生成环境中的实体之间的数据编码关系的关系网络的强化学习系统技术方案

技术编号:27139658 阅读:35 留言:0更新日期:2021-01-27 20:59
提出了一种用于强化学习的神经网络系统,包括用于从状态数据中为环境中存在或至少潜在存在的多个实体中的每个实体提取相应实体数据的输入网络。实体数据描述实体。神经网络包含用于解析该数据的关系网络,该关系网络包括一个或多个注意力块,这些注意力块可以被堆叠以对实体数据执行连续的动作。每个注意力块包括用于实体中的每一个的相应变换网络。每个实体的变换网络能够基于多个其它实体的数据,将变换网络为该实体接收的数据变换为该实体的修改后实体数据。输出网络被布置成接收由关系网络输出的数据,并使用所接收的数据来选择相应动作(例如,来自可能动作的预定义空间中的动作)。的动作)。的动作)。

【技术实现步骤摘要】
【国外来华专利技术】包括用于生成环境中的实体之间的数据编码关系的关系网络的强化学习系统


[0001]本说明书涉及强化学习。具体地,本说明书涉及一种用于为智能体(agent)选择在可能包含多个实体的环境中要执行的动作的神经网络系统,并且涉及由神经网络系统执行的方法。

技术介绍

[0002]在强化学习系统中,智能体通过执行由强化学习系统响应于接收到表征环境的当前状态的观测(observation)而选择的动作来与环境交互。
[0003]一些强化学习系统根据神经网络的输出,响应于接收到给定的观测,选择智能体要执行的动作。
[0004]神经网络是机器学习模型,其采用一层或多层非线性单元来预测对于接收到的输入的输出。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作对网络中下一层(即下一隐藏层或输出层)的输入。网络的每个层根据相应的参数集的当前值从接收的输入生成输出。

技术实现思路

[0005]本说明书一般地描述了强化学习系统,其选择与环境交互的强化学习智能体要执行的动作。为了使智能体与环境交互,系统接收表征环境的当前状态的数据(“状态数据”),并响应于接收到的数据而选择智能体要执行的动作。在本说明书中,表征环境的状态的数据将被称为观测。
[0006]本说明书中描述的主题的一个创新方面可以被表示为一种用于强化学习的神经网络系统,包括用于从状态数据中为环境中存在或者至少潜在存在的多个实体中的每个实体提取相应实体数据的输入网络。实体数据描述实体。神经网络包含用于解析此数据的关系网络,该关系网络包括一个或多个“注意力块”,其可以被堆叠以对实体数据执行连续动作。每个注意力块包括用于实体中的每一个的相应变换网络。每个实体的变换网络能够基于多个实体的数据(即,不仅是与变换网络相对应的实体的实体数据,而且针对多个实体、或者甚至所有实体)将变换网络为该实体接收的数据变换为该实体的修改后实体数据。输出网络被布置成接收由关系网络输出的数据,并使用所接收的数据来选择相应动作(例如,来自可能动作的预定空间中的动作)。
[0007]因此,使用对应多个实体的实体数据,由变换网络为实体中的第一实体产生的修改后实体数据可以表示状态数据中与第一实体和多个实体交互有关的信息。当训练神经网络系统时,这引起体系结构偏差,这导致实体之间的关系网络学习关系。
[0008]每个变换网络可以包括一个或多个“头部(head section)”、以及用于使用(多个)头部的输出来生成修改后实体数据的自适应网络。每个注意力块可以将每个实体数据集转换成至少一个值向量。可选地,对于每个头部可以有相应值向量(即,如果每个变换网络的
头部的数量是h,则可以产生h个值向量)。每个变换网络的头部可以通过相应注意力权重来加权对应的值向量,并将它们求和。
[0009]如果每个变换网络有h个头部,则可以使用注意力块的h个值网络来产生值向量。每个值网络可以例如对它接收到的任何给定的实体数据集合应用线性投影(线性变换)。对于给定的值网络,无论实体数据与哪个实体相关,线性变换都可以相同,但是值网络产生不同的相应线性变换。
[0010]头部可以通过生成相应显着性值并且然后以非线性方式组合显着性值,来为每个实体数据集合生成相应注意力权重。这样,它可以相对于其它显着性值增加最高显着性值。使用给定的第二实体的实体数据,由与给定的第一实体相对应的头部产生的显着性值是状态数据中与第一和第二实体两者相关的信息的重要性的度量。注意力权重强调这些度量中的最高者,因此强调头部的输出中的对应值向量。
[0011]可以用来组合显着性值的一个函数是soft-max函数。这具有作为可微函数的优点,这在训练神经网络系统时会有帮助。然而,在训练之后,将可以用另一函数(例如,设置所有显着性值,但是最高设置为零的函数)替换可微函数。
[0012]对于每个实体,注意力块可以通过将相应实体数据输入到h个相应查询网络来生成h个查询向量。同样,对于每个实体,注意力块可以通过将相应实体数据输入到h个相应键网络来生成h个键向量。为了生成相应多个实体的显着性值,给定实体的头部可以将给定实体的查询向量与相应的键向量相乘。可以通过标准化因子对结果进行标准化,该标准化因子是查询向量和键向量(通常相同)中的分量的数量的函数。
[0013]每个查询网络和每个值网络可以对其接收到的实体数据应用相应线性变换。无论实体数据与哪个实体相关,每个查询网络执行的线性变换是相同的。类似地,无论实体数据与哪个实体相关,每个键网络执行的线性变换是相同的。
[0014]如上所述,给定实体的变换网络对多个实体的实体数据进行运算。多个实体可以包括实体本身。这被称为“自注意力(self attention)”,并且例如对于生成仅涉及实体中的单个实体的动作可以是有用的。
[0015]如上所述,每个变换网络可以包括自适应网络,诸如多层感知器,用于变换头部的输出以生成用于注意力块的输出数据(即,对应于转换网络的实体的修改后实体数据)。头部的输出可以被级联并且可选地添加到由变换网络接收到的对应实体的实体数据中。
[0016]本专利技术的某些实施例对于状态数据由像素阵列定义的环境中的任务特别有用。状态数据包括每个像素的一个或多个值。在这种情况下,神经网络系统的输入网络可以包括至少一个卷积层。在多个卷积层的情况下,它们可以被堆叠,以便以一定的层顺序在它们之间连续传递数据。
[0017]实体可以对应于环境的不同的相应子集(可能是重叠的子集),其可以相对于彼此在空间上移位。例如,卷积层之一(该顺序中的最后一个)可以被布置成针对单元阵列中的每个单元生成至少一个特征值。单元阵列通常具有与像素阵列相同数量的维度。单元可以对应于实体。因此,对于每个实体,相应实体数据可以是对应单元的至少一个特征值。注意,这意味着每个实体的头部都接收位于单元阵列内不同的相应位置的单元的实体数据(例如,该阵列的所有单元)。因此,头部可以进行“非局部”计算,其中它考虑了对于基本上整个像素阵列都依赖于状态数据的数据。对于许多任务,认为与仅采用更明确的局部计算(诸如
平移不变卷积)的智能体相比,基于非局部计算控制的智能体将更适合于实体之间的计算关系。单元的给定一个单元的实体数据可以包括指示对应的单元在单元阵列中的位置的数据。
[0018]在一种形式中,(多个)卷积层(并且如果存在多个卷积层,则具体是最后一个卷积层)为每个单元生成多个特征值。可选地,用于单元中的不同单元的对应特征值可以形成相应特征值集合(例如,第一特征值集合包括来自单元中的第一单元的第一特征值,并且第一特征值集合的其它特征值是来自其它单元的相应第一特征值),这些特征值集合可以连续地发送到关系网络。用于特征值集合的关系网络的相应输出可以可选地在输出层(例如,使用特征方面(feature-wise)的最大池化层)中组合。
[0019]对于某些任务,并且特别是其中奖励取决于采取动作之后许多时间步的系统状态的任务,神经网络系统可以受益于包括至少一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于强化学习的神经网络系统,其中,所述神经网络系统用于选择与环境交互的智能体要执行的动作以执行任务来试图实现指定结果,所述系统包括:输入,用于接收表征环境的状态数据;输入网络,用于从状态数据中为环境中潜在存在的多个实体中的每一个个实体提取指示所述实体在环境中的存在的相应实体数据;关系网络,包括至少一个注意力块,每个注意力块包括用于实体中的每一个实体的相应变换网络,每个变换网络被布置成生成用于对应实体的相应修改后实体数据,所述修改后实体数据基于用于对应的多个实体的实体数据;以及输出网络,被布置成接收由关系网络输出的数据,并使用所接收的数据来选择相应动作。2.根据权利要求1所述的神经网络系统,其中,所述变换网络中的每一个包括一个或多个头部、以及用于从所述头部的输出生成修改后实体数据的自适应网络。3.根据权利要求2所述的神经网络系统,其中,将每个变换网络中的头部的数量表示为h,每个注意力块可操作以使用对应实体的实体数据来生成每个实体的h个值向量,并且每个头部可操作以形成通过相应注意力权重加权的对应的多个实体的值向量的总和。4.根据权利要求3所述的神经网络系统,其中,所述注意力块包括h个值网络,每个值网络用于从实体数据生成值向量。5.根据权利要求4所述的神经网络系统,其中,每个值网络通过将线性变换应用于实体数据来产生值向量。6.根据权利要求3至5中的任一项所述的神经网络系统,其中,对于每个实体,每个相应头部被布置以通过为对应的多个实体中的每一个生成相应显着性值并通过使用非线性函数组合所述显着性值以形成注意力权重,来生成注意力权重。7.根据权利要求6所述的神经网络系统,其中,所述非线性函数是soft-max函数。8.根据权利要求6或7所述的神经网络系统,其中,将每个变换网络中的头部的数量表示为h,每个注意力块包括用于从对应的实体数据生成每个实体的查询向量的h个查询网络、以及用于从对应的实体数据生成每个实体的键向量的h个键网络,每个头部被布置以使用对应实体的查询向量来生成多个实体中的每个实体的显着性值,作为查询向量与相应键向量的点积。9.根据权利要求3至8中任一项所述的神经网络系统,其中,每个变换网络被布置成级联加权的值向量,并使用级联的加权值向量来生成修改后实体数据。10.根据权利要求9所述的神经网络系统,其中,每个变换网络被布置成将级联的加权值向量添加到对应实体的实体数据以形成经求和的向量,并且将经求和的向量发送到自适应网络。11.根据权利要求2至10中任一项所述的神经网络系统,其中,所述自适应网络包括多层感知器。12.根据任一在前权利要求所述的神经网络系统,其中,对于每个实体,所述对应的多个实体包括所述实体本身。13.根据任一在前权利要求所述的神经网络系统,其中,每个输入网络包括至少一个卷积层。
14.根据权利要求13所述的神经...

【专利技术属性】
技术研发人员:李宇佳VC巴普斯特V扎姆巴尔迪DN拉波索AA桑托罗
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1