中间强化学习目标的无监督的检测制造技术

技术编号:21959012 阅读:20 留言:0更新日期:2019-08-24 22:19
用于检测中间强化学习目标的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括:获得多个演示序列,每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列;对于每个演示序列,通过图像处理神经网络处理演示序列中的每个图像,以确定图像的相应的特征集合的特征值;根据演示序列确定将强化学习任务分区为多个子任务,其中,每个演示序列中的每个图像被分配给多个子任务中的相应子任务;并且,根据演示序列中的图像的特征值,确定多个子任务中的每一个的相应的区别特征集合。

Unsupervised Detection of Intermediate Reinforcement Learning Objectives

【技术实现步骤摘要】
【国外来华专利技术】中间强化学习目标的无监督的检测
本说明书涉及强化学习。
技术介绍
在强化学习系统中,代理通过执行由强化学习系统响应于接收表征环境的当前状态的观察而选择的动作来与环境交互。一些强化学习系统响应于根据神经网络的输出接收给定观察而选择由代理执行的动作。神经网络是机器学习模型,其采用一个或多个非线性单元层来对于接收的输入预测输出。一些神经网络是深度神经网络,其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层的输入,即,下一个隐藏层或输出层的输入。网络的每个层根据相应的参数集合的当前值从接收的输入生成输出。
技术实现思路
本说明书一般性地描述了被实现为在一个或多个位置中的一个或多个计算机的系统如何处理演示序列以确定对于强化学习任务的多个子任务中的每一个进行区别的特征,所述强化学习任务将由与环境交互的代理执行。然后,系统可以使用区别特征来生成奖励以训练代理执行强化学习任务。可以实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。所描述的系统可以将强化学习任务分区为子任务,并且从而以无监督的方式检测中间目标,即,没有任何明确的子目标指定而直接从执行任务的演示者的视频或其他图像序列中检测中间目标。更具体地,系统可以从非常少量的任务演示中确定分区,例如,从少于20个的演示序列确定分区。然后,系统可以使用所生成的分区来生成奖励函数,以用于训练强化学习代理执行任务。因此,使用所描述的技术,可以以无监督的方式生成密集且平滑的奖励函数,并且可以将其用于有效地训练强化学习代理以仅从少量未标记的演示图像执行复杂任务。或者,奖励函数可用于增加现有的奖励信号,例如手动设计的信号,从而加速强化学习代理的训练,改进训练的强化学习代理的表现,或两者。因为给定的强化学习任务可能具有隐含的子目标和包含更复杂行为的步骤,所以提取本说明书中描述的这些子目标可以允许代理在训练期间最大限度地使用演示中包含的信息,而不需要演示数据的昂贵的和通常不可行的标记。在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。附图说明图1示出了示例强化学习系统。图2是用于将强化学习任务分区为子任务的示例过程的流程图。图3是用于生成奖励的示例过程的流程图。各附图中相同的附图标记和名称指示相同的元件。具体实施方式本说明书通常描述了被实现为在一个或多个位置中的一个或多个计算机的系统如何使用演示序列将代理执行的强化学习任务分区为子任务,确定对每个子任务进行区别的特征,并且然后在代理的训练期间使用那些区别特征以生成奖励。图1示出了示例强化学习系统100。强化学习系统100是被实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,在一个或多个计算机中可以实现下面描述的系统、组件和技术。强化学习系统100是使用由演示者执行的任务的演示数据130来训练强化学习代理102与环境106交互以执行强化学习任务的系统。通常,环境106是真实世界环境,并且强化学习代理102是与环境102交互的机械代理。例如,代理102可以是与环境交互以执行强化学习任务的机器人102。代理102可以执行的任务的示例包括将指定对象从环境中的一个位置移动到另一个位置,在环境中定位指定对象,或者在环境中从一个位置导航到另一个位置。强化学习系统100通过下述方式来训练强化学习代理102:训练用于控制代理102的策略,即,定义在代理102尝试执行强化学习任务时要由代理102执行的动作的策略。例如,策略可以是神经网络,其接收表征环境状态的观察,例如,由代理102捕获的环境的图像,并且生成定义要由代理102响应于观察执行的动作的策略输出,例如,生成用于代理102的关节的可能关节扭矩的分布的参数的策略输出。作为另一示例,策略可以是更简单的控制器,例如策略的线性高斯参数化,其将例如,代理102的关节角度和角速度的较低维状态表示作为输入,并输出用于代理102的可能的关节扭矩的分布的参数。特别地,由系统100使用以训练代理102的演示数据130包括多个演示序列。演示序列是在演示者(例如,另一个机械代理或人类演示者)执行强化学习任务的实例时捕获的环境的图像序列。为了使用演示序列来训练代理102,系统100通过图像处理神经网络140处理演示序列中的每个图像,以确定用于图像的相应的特征集合的特征值142。通常,图像处理神经网络140是已经在例如对象检测或图像分类任务的图像处理任务上预训练的神经网络,而无需图像处理神经网络140的参数的值的进一步修改。例如,图像处理神经网络140可以是已经在图像分类数据集合上预训练的Inception图像分类神经网络。在下文中更详细地描述了这样的神经网络:ChristianSzegedy、VincentVanhoucke、SergeyIoffe、JonathonShlens和ZbigniewWojna,Rethinkingtheinceptionarchitectureforcomputervision,CVPR,2016年。对于每个图像,系统100根据在处理图像期间由网络140的一个或多个隐藏层生成的激活来确定图像的特征值。例如,特征值可以是神经网络140的隐藏层中预定的一个隐藏层的输出。作为另一个示例,特征值可以包括神经网络140的多个隐藏层(例如,在网络中的预定层之后的每个层)的输出。任务分区引擎150根据演示序列中的图像的特征值142确定将强化学习任务分区为子任务,使得每个演示序列中的每个图像被分配给相应的子任务。因此,完成强化学习任务可以被分解为实现多个中间目标,即,完成分区中的每个子任务。任务分区引擎150可以基于演示序列中的图像进行该确定,而无需子任务的任何外部标记,即以无监督的方式。下面参考图2更详细地描述使用演示图像将强化学习任务分区为子任务。然后,任务分区引擎150根据演示序列中的图像的特征值,为每个子任务确定相应的区别特征集合。给定子任务的区别特征是在该子任务中要实现的特定目标的高度区别特征(即,相对于分区中的其他子任务),同时对不相关的变化(例如,光照、颜色和视点)保持不变的特征。下面参考图2更详细地描述确定每个子任务的区别特征。一旦任务分区引擎150确定了每个子任务的区别特征,奖励引擎160就可以使用该信息基于用于在代理102的训练期间生成的环境160的图像的区别特征的特征值来为代理102生成奖励,即反映代理在完成一个或多个子任务中的进度。然后,该奖励可用于改进代理的训练,即,加速训练,在训练后改进代理对于任务的执行,或两者。特别地,训练引擎170使用强化学习技术训练代理102,即训练策略。在强化学习中,学习一种策略,其当用于选择要由代理执行的动作时,最大化作为与环境交互的结果的由代理接收的累积奖励的度量。例如,度量可以是在任务的执行期间接收的奖励的时间折扣总和。通常,奖励是表示代理执行给定任务的程度的数值,并且在强化学习技术中用于调整策略以改进代理对于任务的执行。训练引擎170可以使用任何适当的基于奖励的强化学习技术来训练代理102。例如,当策略是深度神经网络时,引擎可以使用深度确定性策略梯度(DDPG)技术。在Lillicrap本文档来自技高网...

【技术保护点】
1.一种方法,包括:由计算系统获得多个演示序列,所述演示序列中的每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列;对于每个演示序列,由所述计算系统通过包括多个隐藏层的图像处理神经网络处理该演示序列中的每个图像,以从由所述隐藏层中的一个或多个隐藏层生成的激活确定所述图像的相应的特征集合的特征值;由所述计算系统根据所述演示序列确定将所述强化学习任务分区为多个子任务,其中,每个演示序列中的每个图像被分配给所述多个子任务中的相应子任务;以及由所述计算系统根据所述演示序列中的所述图像的所述特征值确定所述多个子任务中的每个子任务的相应的区别特征集合。

【技术特征摘要】
【国外来华专利技术】2016.11.04 US 62/418,1221.一种方法,包括:由计算系统获得多个演示序列,所述演示序列中的每个演示序列是在正在执行强化学习任务的相应实例的时的环境的图像序列;对于每个演示序列,由所述计算系统通过包括多个隐藏层的图像处理神经网络处理该演示序列中的每个图像,以从由所述隐藏层中的一个或多个隐藏层生成的激活确定所述图像的相应的特征集合的特征值;由所述计算系统根据所述演示序列确定将所述强化学习任务分区为多个子任务,其中,每个演示序列中的每个图像被分配给所述多个子任务中的相应子任务;以及由所述计算系统根据所述演示序列中的所述图像的所述特征值确定所述多个子任务中的每个子任务的相应的区别特征集合。2.根据权利要求1所述的方法,还包括,在训练代理执行所述强化学习任务期间:接收表征所述环境的当前状态的当前图像;通过所述图像处理神经网络处理所述当前图像,以确定所述当前图像的所述相应的特征集合的特征值;对于所述子任务中的一个或多个中的每个子任务,从该子任务的所述区别特征的所述当前图像的所述特征值生成相应的基于感知的奖励;以及提供一个或多个所述基于感知的奖励,以用于训练所述代理执行所述强化学习任务。3.根据权利要求1或2中任一项所述的方法,其中,根据所述演示序列中的所述图像的所述特征值确定相应的区别特征集合包括,对于每个子任务:使用经训练的分类器处理在该子任务中的所述演示序列中的所述图像的所述特征值,以确定所述任务的所述区别特征。4.根据权利要求1或2中任一项所述的方法,其中,根据所述演示序列中的所述图像...

【专利技术属性】
技术研发人员:皮埃尔·塞马内
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1