以学习的视觉实体为基础的强化学习神经网络制造技术

技术编号:28388259 阅读:31 留言:0更新日期:2021-05-08 00:18
一种强化学习神经网络系统,在该强化学习神经网络系统中内部表示和策略以从图像像素得出的视觉实体为基础,该强化学习神经网络系统包括视觉实体标识神经网络子系统,该视觉实体标识神经网络子系统被配置成处理图像数据以确定表示相应离散视觉实体的空间图的集合。强化学习神经网络子系统处理来自空间图的集合的数据和环境奖励数据,以提供用于选择动作以执行任务的动作数据。

【技术实现步骤摘要】
【国外来华专利技术】以学习的视觉实体为基础的强化学习神经网络
技术介绍
本申请涉及强化学习。在强化学习系统中,代理通过执行动作来与环境交互,所述动作是由强化学习系统响应于接收到表征所述环境当前状态的观测而选择的。一些强化学习系统根据神经网络的输出响应于接收到给定的观测来选择将由所述代理执行的动作。神经网络是机器学习模型,其采用一个或多个层的非线性单元来预测针对接收到的输入的输出。一些神经网络是深度神经网络,其除了输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作所述网络中下一层——即,下一个隐藏层或输出层——的输入。所述网络的每一层根据相应的参数的集合的当前值从接收到的输入生成输出。
技术实现思路
强化学习神经网络系统能够学习执行复杂的任务,但是通常以人类难以理解的方式在系统内对选择动作所基于的基础进行编码。本说明书描述强化学习系统,其中内部表示和策略以从图像像素得出的视觉实体为基础。这些视觉实体能够被询问,例如显示,以使人类更容易理解系统选择动作所基于的基础。本说明书中描述的系统中的一些使用基于选项的强化学习技术。通常选项可以是指一系列单独或“原子”动作。在发起之后的一些实例中,例如基于发起条件,选项可以具有当选择动作时遵循的内部策略以及终止条件。可以采用强化学习方法来学习内部策略。然而,基于选项的方法不是实现本文描述的技术中的一些所必要的。在一个方面中,提供了一种强化学习神经网络系统。该系统可以作为计算机程序被实现为在一个或多个位置中的一个或多个计算机上。该系统可以包括用于接收定义环境的观测的观测数据的输入。观测可以包括例如单色或彩色图像、短图像序列,例如级联的;或视频。同一或另一输入可以从环境接收环境奖励数据,该环境奖励数据定义(由代理)响应于执行动作而接收的外在奖励。该系统可以具有输出以提供用于选择要由在环境中行动的代理所执行的动作的动作数据。该系统还可以包括诸如卷积神经网络(CNN)的视觉实体标识神经网络子系统,该视觉实体标识神经网络子系统被配置成处理观测数据以针对一个或多个图像确定(K个)空间图的集合。每个空间图可以表示可以由系统学习的(K个)离散视觉实体的集合中的一个离散视觉实体。每个空间图可以包括多个图像素,这些图像素通过潜在地以不同的例如较低的分辨率与图像像素相对应。因此每个图像素可以标识一个或多个图像的对应区域是否和与空间图相对应的离散视觉实体相关联,即表示与空间图相对应的离散视觉实体。该系统还可以包括强化学习神经网络子系统,该强化学习神经网络子系统被配置成处理来自空间图的集合的数据和环境奖励数据以提供动作数据。通常强化学习神经网络子系统还将接收并处理观测数据。在广义上每个空间图都可以表示,更特别地可以学习表示可用于强化学习但以观测,即以图像,为基础的概念。该概念可以包括诸如墙壁、对象等的视觉元素的特征、与环境内的代理和/或对象的运动相关的特征以及可能潜在地受环境中的动作影响的特征中的一个或多个的组合。因此视觉实体可以提供对观测的抽象或部分抽象的表示,但是由于其空间性质可以由人类容易地可视化,例如作为图。以这种方式,可以对增强学习系统的操作获得一些洞悉。这对监管和其他目的来说可以是有用的;例如如果能够鉴别自主系统的动作的动机,则更容易信任这样的系统。在一些实施方式中,可以将每个像素或像素组指派给K个视觉实体的集合中的一个视觉实体。空间图的集合然后可以定义图像分段掩码的集合,其中每个掩码对应于视觉实体中的一个的空间映射,从而指示在观测中哪里存在实体,从而有效地映射(部分抽象的)视觉实体。在一些实施方式中,为了执行指派实体编码神经网络被配置成将观测数据编码成每个图像素的激活。矢量量化器(VQ)然后可以将每个图像素的激活指派给表示离散视觉实体中的一个的嵌入矢量,以将图像素分类为K个离散视觉实体中的1个。例如可以标识与表示激活的激活矢量最接近的嵌入矢量,并且与此矢量相对应的矢量量化器输出(空间图像素)用1标记,此像素的其他输出(在其他空间图中)为0。可以使用无监督学习技术来学习实体编码神经网络和/或嵌入矢量的参数。在一些实施方式中,可以与强化学习(RL)神经网络子系统的参数分开地学习它们。然而视觉实体标识子系统能够为强化学习(RL)神经网络子系统提供相对丰富的训练梯度源,尤其在RL子系统处于早期、探索阶段中并且外在奖励相对稀少时。因此,如稍后更详细地描述的,该系统能够在相对早期阶段学习动作的集合或选项,并且这些中的一些此后可以由强化学习系统用作更高级的控制命令,其中结果是它们对接收外在奖励有用。如先前描述的,可以训练视觉实体标识神经网络/VQ子系统以表示空间图(掩码或图像分段),所述空间图表示图像/环境外观、对象运动和环境的动作可变方面的特征。因此该系统可以包括图像外观编码神经网络,该图像外观编码神经网络耦合到观测数据输入以提供与图像素空间上相对应的编码图像外观数据。这然后可以用于训练视觉实体标识神经网络/VQ子系统以生成表示图像外观的特征的空间图,例如通过对来自一个或多个颜色通道的数据进行编码的颜色。例如颜色能够帮助区分环境的元素,诸如墙壁、地面、对象等。视觉实体标识子系统训练器可以被配置成用取决于编码图像外观数据的分布与每个图像素的激活之间的差异的损失函数来训练视觉实体标识神经网络子系统。例如,能够从在空间图与编码图像外观之间空间上对准和不对准的图像补片生成正训练示例和负训练示例。可以采用交叉熵损失。该系统可以附加地或替换地包括帧编码神经网络,该帧编码神经网络被配置成将空间图的集合编码成当前帧的帧嵌入数据,其中帧可以表示一个或多个图像。视觉实体标识子系统训练器可以被配置成训练视觉实体标识神经网络子系统(和帧编码神经网络)以例如使用分类损失来区分在与当前帧相距稍后称为“展开”的时间窗帧数内部和外部的帧。这些帧之间的差异表示诸如运动的变化,因此子系统可以学习映射帧的可能移动的元素。该系统可以附加地或替换地包括动作编码神经网络,该动作编码神经网络被配置成对动作数据进行编码以用于训练视觉实体标识神经网络子系统。视觉实体标识子系统训练器可以被配置成取决于在时间窗内和外部的帧之间的差异并取决于所采取的动作,更具体地编码动作数据,而训练视觉实体标识神经网络子系统(和动作编码神经网络)。可以基于时间窗内采取/未采取的动作使用分类损失来训练系统;时间窗可以是单个帧,即可以处理连续的帧。这些帧之间的差异表示由于代理动作而导致的变化,并且因此子系统可以学习映射帧的代理可控元素和/或根据帧来预测可以通过代理动作改变什么元素。在一些实施方式中,可以训练视觉实体标识神经网络子系统或与强化学习神经网络系统一起使用的另一图像预处理子系统,以表示特定于诸如控制自主或半自主载具的特定任务的视觉实体。例如,视觉实体标识子系统训练器可以被配置成取决于一个或多个任务相关对象在图像中的存在与否而用分类或其他损失函数来训练视觉实体标识神经网络子系统。这些可能包括例如诸如路标的静态对象、诸如交通灯或门架安装式显示器的变化对象和/或诸如行人或骑自行车的人的移动对象。在本文档来自技高网...

【技术保护点】
1.一种强化学习神经网络系统,包括:/n用于接收定义环境的观测的观测数据的输入,其中,所述观测包括一个或多个图像;/n用于从所述环境接收环境奖励数据的输入,所述环境奖励数据定义响应于执行动作而接收到的外在奖励;/n提供动作数据以用于选择要由在所述环境中行动的代理执行的动作的输出;/n视觉实体标识神经网络子系统,所述视觉实体标识神经网络子系统被配置成处理所述观测数据以确定针对所述一个或多个图像的空间图的集合,每个空间图表示学习的离散视觉实体的集合中的一个学习的离散视觉实体,每个空间图包括图像素,其中,每个图像素标识所述一个或多个图像的对应区域是否与针对所述空间图的所述离散视觉实体相关联;以及/n强化学习神经网络子系统,所述强化学习神经网络子系统被配置成处理来自所述空间图的集合的数据和所述环境奖励数据以提供所述动作数据。/n

【技术特征摘要】
【国外来华专利技术】20180927 US 62/737,8501.一种强化学习神经网络系统,包括:
用于接收定义环境的观测的观测数据的输入,其中,所述观测包括一个或多个图像;
用于从所述环境接收环境奖励数据的输入,所述环境奖励数据定义响应于执行动作而接收到的外在奖励;
提供动作数据以用于选择要由在所述环境中行动的代理执行的动作的输出;
视觉实体标识神经网络子系统,所述视觉实体标识神经网络子系统被配置成处理所述观测数据以确定针对所述一个或多个图像的空间图的集合,每个空间图表示学习的离散视觉实体的集合中的一个学习的离散视觉实体,每个空间图包括图像素,其中,每个图像素标识所述一个或多个图像的对应区域是否与针对所述空间图的所述离散视觉实体相关联;以及
强化学习神经网络子系统,所述强化学习神经网络子系统被配置成处理来自所述空间图的集合的数据和所述环境奖励数据以提供所述动作数据。


2.根据权利要求1所述的强化学习神经网络系统,其中,所述视觉实体识别神经网络子系统包括实体编码神经网络以及矢量量化器,所述实体编码神经网络被配置成将所述观测数据编码为每个图像素的激活,所述矢量量化器被配置成将每个图像素的所述激活指派给表示所述离散视觉实体中的一个离散视觉实体的嵌入矢量以将该图像素分类为所述离散视觉实体的集合中的所述一个离散视觉实体。


3.根据权利要求2所述的强化学习神经网络系统,进一步包括图像外观编码神经网络以及视觉实体标识子系统训练器,所述图像外观编码神经网络被配置成将来自所述观测数据的图像外观数据编码为与所述图像素相对应的编码图像外观数据,所述视觉实体标识子系统训练器被配置成利用损失函数来训练所述视觉实体标识神经网络子系统,所述损失函数取决于所述编码图像外观数据的分布与每个图像素的所述激活之间的差异。


4.根据权利要求2或3所述的强化学习神经网络系统,进一步包括帧编码神经网络以及视觉实体标识子系统训练器,所述帧编码神经网络被配置成将所述空间图的集合编码为当前帧的帧嵌入数据,所述视觉实体标识子系统训练器被配置成训练所述视觉实体标识神经网络子系统以区分在与所述当前帧相距运动时间窗帧数内部和外部的帧。


5.根据权利要求2、3或4所述的强化学习神经网络系统,进一步包括帧编码神经网络,动作编码神经网络以及视觉实体标识子系统训练器,所述帧编码神经网络被配置成将所述空间图的集合编码为当前帧的帧嵌入数据,所述动作编码神经网络被配置成将所述动作数据编码为表示在动作时间窗内采取的一个或多个动作的编码动作数据,所述视觉实体标识子系统训练器被配置成利用取决于所述编码动作数据的损失函数来训练所述视觉实体标识神经网络子系统。


6.根据任一项前述权利要求所述的强化学习神经网络系统,进一步包括内在奖励生成子系统,所述内在奖励生成子系统被配置成处理来自所述空间图的集合的所述数据以生成一个或多个内在奖励的内部奖励数据,其中,所述一个或多个内在奖励取决于所述空间图的内容的一个或多个几何特性,并且其中,所述强化学习神经网络子系统被配置成处理所述内部奖励数据以提供所述动作数据。


7.根据权利...

【专利技术属性】
技术研发人员:卡他林杜米特鲁·约内斯库泰亚斯·达塔特拉亚·库尔卡尼
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1