【技术实现步骤摘要】
【国外来华专利技术】以学习的视觉实体为基础的强化学习神经网络
技术介绍
本申请涉及强化学习。在强化学习系统中,代理通过执行动作来与环境交互,所述动作是由强化学习系统响应于接收到表征所述环境当前状态的观测而选择的。一些强化学习系统根据神经网络的输出响应于接收到给定的观测来选择将由所述代理执行的动作。神经网络是机器学习模型,其采用一个或多个层的非线性单元来预测针对接收到的输入的输出。一些神经网络是深度神经网络,其除了输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作所述网络中下一层——即,下一个隐藏层或输出层——的输入。所述网络的每一层根据相应的参数的集合的当前值从接收到的输入生成输出。
技术实现思路
强化学习神经网络系统能够学习执行复杂的任务,但是通常以人类难以理解的方式在系统内对选择动作所基于的基础进行编码。本说明书描述强化学习系统,其中内部表示和策略以从图像像素得出的视觉实体为基础。这些视觉实体能够被询问,例如显示,以使人类更容易理解系统选择动作所基于的基础。本说明书中描述的系统中的一些使用基于选项的强化学习技术。通常选项可以是指一系列单独或“原子”动作。在发起之后的一些实例中,例如基于发起条件,选项可以具有当选择动作时遵循的内部策略以及终止条件。可以采用强化学习方法来学习内部策略。然而,基于选项的方法不是实现本文描述的技术中的一些所必要的。在一个方面中,提供了一种强化学习神经网络系统。该系统可以作为计算机程序被实现为在一个或多个位置中的一个或多个计算机上。该系统可以包括用于接收定义环境的观测的 ...
【技术保护点】
1.一种强化学习神经网络系统,包括:/n用于接收定义环境的观测的观测数据的输入,其中,所述观测包括一个或多个图像;/n用于从所述环境接收环境奖励数据的输入,所述环境奖励数据定义响应于执行动作而接收到的外在奖励;/n提供动作数据以用于选择要由在所述环境中行动的代理执行的动作的输出;/n视觉实体标识神经网络子系统,所述视觉实体标识神经网络子系统被配置成处理所述观测数据以确定针对所述一个或多个图像的空间图的集合,每个空间图表示学习的离散视觉实体的集合中的一个学习的离散视觉实体,每个空间图包括图像素,其中,每个图像素标识所述一个或多个图像的对应区域是否与针对所述空间图的所述离散视觉实体相关联;以及/n强化学习神经网络子系统,所述强化学习神经网络子系统被配置成处理来自所述空间图的集合的数据和所述环境奖励数据以提供所述动作数据。/n
【技术特征摘要】
【国外来华专利技术】20180927 US 62/737,8501.一种强化学习神经网络系统,包括:
用于接收定义环境的观测的观测数据的输入,其中,所述观测包括一个或多个图像;
用于从所述环境接收环境奖励数据的输入,所述环境奖励数据定义响应于执行动作而接收到的外在奖励;
提供动作数据以用于选择要由在所述环境中行动的代理执行的动作的输出;
视觉实体标识神经网络子系统,所述视觉实体标识神经网络子系统被配置成处理所述观测数据以确定针对所述一个或多个图像的空间图的集合,每个空间图表示学习的离散视觉实体的集合中的一个学习的离散视觉实体,每个空间图包括图像素,其中,每个图像素标识所述一个或多个图像的对应区域是否与针对所述空间图的所述离散视觉实体相关联;以及
强化学习神经网络子系统,所述强化学习神经网络子系统被配置成处理来自所述空间图的集合的数据和所述环境奖励数据以提供所述动作数据。
2.根据权利要求1所述的强化学习神经网络系统,其中,所述视觉实体识别神经网络子系统包括实体编码神经网络以及矢量量化器,所述实体编码神经网络被配置成将所述观测数据编码为每个图像素的激活,所述矢量量化器被配置成将每个图像素的所述激活指派给表示所述离散视觉实体中的一个离散视觉实体的嵌入矢量以将该图像素分类为所述离散视觉实体的集合中的所述一个离散视觉实体。
3.根据权利要求2所述的强化学习神经网络系统,进一步包括图像外观编码神经网络以及视觉实体标识子系统训练器,所述图像外观编码神经网络被配置成将来自所述观测数据的图像外观数据编码为与所述图像素相对应的编码图像外观数据,所述视觉实体标识子系统训练器被配置成利用损失函数来训练所述视觉实体标识神经网络子系统,所述损失函数取决于所述编码图像外观数据的分布与每个图像素的所述激活之间的差异。
4.根据权利要求2或3所述的强化学习神经网络系统,进一步包括帧编码神经网络以及视觉实体标识子系统训练器,所述帧编码神经网络被配置成将所述空间图的集合编码为当前帧的帧嵌入数据,所述视觉实体标识子系统训练器被配置成训练所述视觉实体标识神经网络子系统以区分在与所述当前帧相距运动时间窗帧数内部和外部的帧。
5.根据权利要求2、3或4所述的强化学习神经网络系统,进一步包括帧编码神经网络,动作编码神经网络以及视觉实体标识子系统训练器,所述帧编码神经网络被配置成将所述空间图的集合编码为当前帧的帧嵌入数据,所述动作编码神经网络被配置成将所述动作数据编码为表示在动作时间窗内采取的一个或多个动作的编码动作数据,所述视觉实体标识子系统训练器被配置成利用取决于所述编码动作数据的损失函数来训练所述视觉实体标识神经网络子系统。
6.根据任一项前述权利要求所述的强化学习神经网络系统,进一步包括内在奖励生成子系统,所述内在奖励生成子系统被配置成处理来自所述空间图的集合的所述数据以生成一个或多个内在奖励的内部奖励数据,其中,所述一个或多个内在奖励取决于所述空间图的内容的一个或多个几何特性,并且其中,所述强化学习神经网络子系统被配置成处理所述内部奖励数据以提供所述动作数据。
7.根据权利...
【专利技术属性】
技术研发人员:卡他林杜米特鲁·约内斯库,泰亚斯·达塔特拉亚·库尔卡尼,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:英国;GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。