中间强化学习目标的无监督的检测制造技术

技术编号：21959012 阅读：20 留言：0更新日期：2019-08-24 22:19

用于检测中间强化学习目标的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。方法之一包括：获得多个演示序列，每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列；对于每个演示序列，通过图像处理神经网络处理演示序列中的每个图像，以确定图像的相应的特征集合的特征值；根据演示序列确定将强化学习任务分区为多个子任务，其中，每个演示序列中的每个图像被分配给多个子任务中的相应子任务；并且，根据演示序列中的图像的特征值，确定多个子任务中的每一个的相应的区别特征集合。

Unsupervised Detection of Intermediate Reinforcement Learning Objectives

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】中间强化学习目标的无监督的检测
本说明书涉及强化学习。
技术介绍
在强化学习系统中，代理通过执行由强化学习系统响应于接收表征环境的当前状态的观察而选择的动作来与环境交互。一些强化学习系统响应于根据神经网络的输出接收给定观察而选择由代理执行的动作。神经网络是机器学习模型，其采用一个或多个非线性单元层来对于接收的输入预测输出。一些神经网络是深度神经网络，其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层的输入，即，下一个隐藏层或输出层的输入。网络的每个层根据相应的参数集合的当前值从接收的输入生成输出。
技术实现思路
本说明书一般性地描述了被实现为在一个或多个位置中的一个或多个计算机的系统如何处理演示序列以确定对于强化学习任务的多个子任务中的每一个进行区别的特征，所述强化学习任务将由与环境交互的代理执行。然后，系统可以使用区别特征来生成奖励以训练代理执行强化学习任务。可以实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。所描述的系统可以将强化学习任务分区为子任务，并且从而以无监督的方式检测中间目标，即，没有任何明确的子目标指定而直接从执行任务的演示者的视频或其他图像序列中检测中间目标。更具体地，系统可以从非常少量的任务演示中确定分区，例如，从少于20个的演示序列确定分区。然后，系统可以使用所生成的分区来生成奖励函数，以用于训练强化学习代理执行任务。因此，使用所描述的技术，可以以无监督的方式生成密集且平滑的奖励函数，并且可以将其用于有效地训练强化学习代理以仅从少量未标记的演示图像执行复杂任务。或者，奖励函数可用于增加现有的奖励...

【技术保护点】
1.一种方法，包括：由计算系统获得多个演示序列，所述演示序列中的每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列；对于每个演示序列，由所述计算系统通过包括多个隐藏层的图像处理神经网络处理该演示序列中的每个图像，以从由所述隐藏层中的一个或多个隐藏层生成的激活确定所述图像的相应的特征集合的特征值；由所述计算系统根据所述演示序列确定将所述强化学习任务分区为多个子任务，其中，每个演示序列中的每个图像被分配给所述多个子任务中的相应子任务；以及由所述计算系统根据所述演示序列中的所述图像的所述特征值确定所述多个子任务中的每个子任务的相应的区别特征集合。

【技术特征摘要】
【国外来华专利技术】2016.11.04 US 62/418,1221.一种方法，包括：由计算系统获得多个演示序列，所述演示序列中的每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列；对于每个演示序列，由所述计算系统通过包括多个隐藏层的图像处理神经网络处理该演示序列中的每个图像，以从由所述隐藏层中的一个或多个隐藏层生成的激活确定所述图像的相应的特征集合的特征值；由所述计算系统根据所述演示序列确定将所述强化学习任务分区为多个子任务，其中，每个演示序列中的每个图像被分配给所述多个子任务中的相应子任务；以及由所述计算系统根据所述演示序列中的所述图像的所述特征值确定所述多个子任务中的每个子任务的相应的区别特征集合。2.根据权利要求1所述的方法，还包括，在训练代理执行所述强化学习任务期间：接收表征所述环境的当前状态的当前图像；通过所述图像处理神经网络处理所述当前图像，以确定所述当前图像的所述相应的特征集合的特征值；对于所述子任务中的一个或多个中的每个子任务，从该子任务的所述区别特征的所述当前图像的所述特征值生成相应的基于感知的奖励；以及提供一个或多个所述基于感知的奖励，以用于训练所述代理执行所述强化学习任务。3.根据权利要求1或2中任一项所述的方法，其中，根据所述演示序列中的所述图像的所述特征值确定相应的区别特征集合包括，对于每个子任务：使用经训练的分类器处理在该子任务中的所述演示序列中的所述图像的所述特征值，以确定所述任务的所述区别特征。4.根据权利要求1或2中任一项所述的方法，其中，根据所述演示序列中的所述图像...

【专利技术属性】
技术研发人员：皮埃尔·塞马内，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人