使用生成式前导神经网络的模仿学习制造技术

技术编号:27261614 阅读:19 留言:0更新日期:2021-02-06 11:20
用于训练动作选择策略神经网络的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,一种方法包括:获得专家观察;使用生成式神经网络系统处理专家观察以生成给定观察

【技术实现步骤摘要】
【国外来华专利技术】使用生成式前导神经网络的模仿学习

技术介绍

[0001]本说明书涉及使用机器学习模型来处理数据,并且特别地涉及生成用于基于表征环境的状态的数据(“观察”)控制与环境交互的智能体的控制系统。
[0002]机器学习模型接收输入,并基于接收的输入生成输出,例如,预测输出。一些机器学习模型是参数模型,并基于接收的输入和模型的参数的值生成输出。
[0003]一些机器学习模型是深度模型,其使用模型的多个层来针对接收的输入生成输出。例如,深度神经网络是深度机器学习模型,包括输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于接收的输入以生成输出。

技术实现思路

[0004]本说明书描述了训练动作选择神经网络的系统,该系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序。动作选择网络通过选择要由智能体执行的使智能体能够完成任务的动作来控制与环境交互的智能体。
[0005]根据第一方面,提供了一种用于训练动作选择策略神经网络的方法。该动作选择策略神经网络具有动作选择策略神经网络参数集合。该动作选择策略神经网络被配置为根据动作选择策略神经网络参数的值来处理表征环境的状态的观察,以生成动作选择策略输出。该动作选择策略输出包括针对可能动作的预定集合中的每个动作的相应动作得分。动作选择策略输出用于选择要由与环境交互的智能体执行的动作。
[0006]该方法包括获得专家观察,该专家观察表征环境的被分类为与完成特定任务相关的状态。使用生成式神经网络系统处理专家观察,以生成给定观察-给定动作对。给定观察-给定动作对包括:(i)表征环境的状态的给定观察,和(ii)来自可能动作的预定集合的给定动作。生成式神经网络系统被配置为处理目标观察,以生成观察-动作对,其中,生成式神经网络系统已被训练成如果响应于特定观察执行特定动作更有可能导致环境稍后到达目标观察表征的状态,则更有可能生成特定观察-特定动作对。根据动作选择策略神经网络参数的当前值,使用动作选择策略神经网络处理给定观察,以生成针对给定动作的给定动作得分。调整动作选择策略神经网络参数的当前值,以增加针对给定动作由动作选择策略神经网络通过处理给定观察而生成的给定动作得分。
[0007]在一些实施方式中,生成式神经网络系统包括生成式自回归神经网络。
[0008]在一些实施方式中,生成式自回归神经网络是掩蔽自回归流。
[0009]在一些实施方式中,使用生成式神经网络系统处理专家观察以生成给定观察-给定动作对包括:使用第一生成式神经网络处理专家观察以生成给定观察;和使用第二生成式神经网络处理专家观察和给定观察,以生成给定动作。
[0010]在一些实施方式中,该方法进一步包括从包括轨迹集合的回放缓冲区中获得轨迹,其中,该轨迹包括表征在智能体通过执行根据动作选择神经网络参数的值选择的动作而与环境交互时环境的相应状态的一系列观察-动作对。从轨迹选择特定观察-特定动作对和将来观察,其中,将来观察被包括在轨迹中在特定观察-特定动作对之后的观察-动作对
中。根据生成式神经网络系统参数的当前值,使用生成式神经网络系统处理将来观察,以生成预测观察-预测动作对。基于以下两者之间的差确定损失:(i)特定观察-特定动作对,和(ii)预测观察-预测动作对。基于损失调整生成式神经网络系统参数的当前值。
[0011]在一些实施方式中,根据动作选择神经网络参数的当前值来选择轨迹的动作。
[0012]在一些实施方式中,从轨迹选择:(i)特定观察-特定动作对和(ii)将来观察包括:选择特定观察-特定动作对;从概率分布采样非负整数值n;和从轨迹中在轨迹中的特定观察-特定动作对之后并与特定观察-特定动作对分离轨迹中n个中间观察-动作对的观察-动作对中选择将来观察。
[0013]在一些实施方式中,概率分布是几何分布。
[0014]在一些实施方式中,专家观察包括在专家轨迹中,其中,该专家轨迹是表征在给定智能体通过执行完成特定任务的一系列专家动作而与环境交互时环境的相应状态的一系列专家观察。
[0015]在一些实施方式中,专家轨迹包括与每个专家观察对应的专家动作,该方法还包括:获得与所获得的专家观察对应的专家动作;和调整动作选择策略神经网络参数的当前值,以增加针对专家动作由动作选择策略神经网络通过处理专家观察而生成的特定动作得分。
[0016]在一些实施方式中,调整动作选择策略神经网络参数的当前值,以增加针对专家动作由动作选择策略神经网络通过处理专家观察而生成的特定动作得分包括:确定针对专家动作的特定动作得分关于动作选择策略神经网络参数的对数的梯度;和使用梯度调整动作选择策略神经网络参数的当前值。
[0017]在一些实施方式中,调整动作选择策略神经网络参数的当前值,以增加针对专家动作由动作选择策略神经网络通过处理专家观察而生成的特定动作得分包括:确定针对给定动作的给定动作得分关于动作选择策略神经网络参数的对数的梯度;和使用梯度调整动作选择策略神经网络参数的当前值。
[0018]在一些实施方式中,专家观察表征在控制智能体与环境交互以完成特定任务之时环境的状态。
[0019]根据另一方面,提供了一种控制与环境交互的智能体的方法,其中,该方法包括通过第一方面的方法来训练动作选择策略神经网络,并且在多个相继时间中的每个时间:获得表征环境在该时间的状态的观察,将观察输入动作选择策略神经网络以从动作选择策略神经网络获得控制数据,以及将控制数据发送到智能体以使智能体执行动作。
[0020]在一些实施方式中,环境是现实世界环境,并且观察作为被配置为感测现实世界环境的一个或多个传感器设备的输出而获得。
[0021]根据另一方面,提供了一种系统,包括一个或多个计算机和一个或多个存储设备,所述一个或多个存储设备存储指令,指令当由一个或多个计算机执行时,使一个或多个计算机执行第一方面的方法的操作。
[0022]根据另一方面,提供了一种或多种计算机存储介质,所述一种或多种计算机存储介质存储指令,指令当由一个或多个计算机执行时,使一个或多个计算机执行第一方面的方法的操作。
[0023]可以实施本说明书中描述的主题的特定实施例,以实现以下优点中的一个或多
个。
[0024]本说明书中描述的系统通过模仿“专家”(即,通过使用任务的专家演示集合来训练动作选择网络以匹配专家的行为)训练动作选择网络以选择使智能体能够执行任务的动作。当动作选择网络控制智能体时,在小差错将智能体引导到观察空间的专家尚未探索的一些部分(即,未包括在专家演示集合中的一些部分)时,容易发生错误和与演示的专家行为的偏差。因此,在本说明书中描述的系统训练动作选择网络以选择可能使环境转变回到专家演示的状态的动作,从而减少错误的累积并使智能体能够从差错恢复。与例如不训练动作选择网络以从差错恢复的一些常规训练系统相比,该系统可以通过较少的训练迭代并使用较少的专家观察来训练动作选择网络以达到可接受的性能水平。这是一个显著的优势,因为对于许多现实世界中的控制问题来说,生成专本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练动作选择策略神经网络的方法,其中,所述动作选择策略神经网络具有多个动作选择策略神经网络参数,其中,所述动作选择策略神经网络被配置为根据所述动作选择策略神经网络参数的值处理表征环境的状态的观察以生成动作选择策略输出,其中,所述动作选择策略输出包括针对可能动作的预定集合中的每个动作的相应的动作得分,其中,所述动作选择策略输出用于选择要由与环境交互的智能体执行的动作,所述方法包括:获得专家观察,所述专家观察表征所述环境的已被分类为与完成特定任务相关的状态;使用生成式神经网络系统处理所述专家观察,以生成给定观察-给定动作对,其中,所述给定观察-给定动作对包括:(i)表征所述环境的状态的给定观察,以及(ii)来自所述可能动作的预定集合的给定动作,其中,所述生成式神经网络系统被配置为处理目标观察以生成观察-动作对,其中,所述生成式神经网络系统已被训练成如果响应于特定观察执行特定动作更有可能导致所述环境稍后到达所述目标观察表征的状态,则更有可能生成特定观察-特定动作对;根据所述动作选择策略神经网络参数的当前值,使用所述动作选择策略神经网络处理所述给定观察,以生成针对所述给定动作的给定动作得分;和调整所述动作选择策略神经网络参数的所述当前值,以增加针对所述给定动作由所述动作选择策略神经网络通过处理所述给定观察而生成的所述给定动作得分。2.根据权利要求1中的任一项所述的方法,其中,所述生成式神经网络系统包括生成式自回归神经网络。3.根据权利要求2所述的方法,其中,所述生成式自回归神经网络是掩蔽自回归流。4.根据权利要求1-3中任一项所述的方法,其中,使用所述生成式神经网络系统处理所述专家观察以生成所述给定观察-给定动作对包括:使用第一生成式神经网络处理所述专家观察以生成所述给定观察;以及使用第二生成式神经网络处理所述专家观察和所述给定观察,以生成所述给定动作。5.根据权利要求1-4中任一项所述的方法,还包括:从包括多个轨迹的回放缓冲区中获得轨迹,其中,所述轨迹包括表征在所述智能体通过执行根据所述动作选择神经网络参数的值选择的动作而与所述环境交互时所述环境的相应状态的一系列观察-动作对;从所述轨迹选择:(i)特定观察-特定动作对和(ii)将来观察,其中,所述将来观察被包括在所述轨迹中所述特定观察-特定动作对之后的观察-动作对中;根据生成式神经网络系统参数的当前值,使用所述生成式神经网络系统处理所述将来观察,以生成预测观察-预测动作对;基于以下两者之间的差确定损失:(i)所述特定观察-特定动作对,和(ii)所述预测观察-预测动作对;以及基于所述损失调整生成式神经网络系统参数的当前值。6.根据权利要求5所述的方法,其中,根据所述动作选择神经网络参数的所述当前值来选择所述轨迹的动作。7.根据权利要求5-6中任一项所述的方法,其中,从所述轨迹选择:(i)特定观察-特定
动作对和(ii)将来观察,其中,所述将来观察被包括在所述...

【专利技术属性】
技术研发人员:M维塞里克Y施罗克KJ肖尔兹
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1