【技术实现步骤摘要】
【国外来华专利技术】使用生成式前导神经网络的模仿学习
技术介绍
[0001]本说明书涉及使用机器学习模型来处理数据,并且特别地涉及生成用于基于表征环境的状态的数据(“观察”)控制与环境交互的智能体的控制系统。
[0002]机器学习模型接收输入,并基于接收的输入生成输出,例如,预测输出。一些机器学习模型是参数模型,并基于接收的输入和模型的参数的值生成输出。
[0003]一些机器学习模型是深度模型,其使用模型的多个层来针对接收的输入生成输出。例如,深度神经网络是深度机器学习模型,包括输出层和一个或多个隐藏层,每个隐藏层将非线性变换应用于接收的输入以生成输出。
技术实现思路
[0004]本说明书描述了训练动作选择神经网络的系统,该系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序。动作选择网络通过选择要由智能体执行的使智能体能够完成任务的动作来控制与环境交互的智能体。
[0005]根据第一方面,提供了一种用于训练动作选择策略神经网络的方法。该动作选择策略神经网络具有动作选择策略神经网络参数集合。该动作选择策略神经网络被配置为根据动作选择策略神经网络参数的值来处理表征环境的状态的观察,以生成动作选择策略输出。该动作选择策略输出包括针对可能动作的预定集合中的每个动作的相应动作得分。动作选择策略输出用于选择要由与环境交互的智能体执行的动作。
[0006]该方法包括获得专家观察,该专家观察表征环境的被分类为与完成特定任务相关的状态。使用生成式神经网络系统处理专家观察,以生成给定观察-给定动作对。给定观察-给定动作对包括 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于训练动作选择策略神经网络的方法,其中,所述动作选择策略神经网络具有多个动作选择策略神经网络参数,其中,所述动作选择策略神经网络被配置为根据所述动作选择策略神经网络参数的值处理表征环境的状态的观察以生成动作选择策略输出,其中,所述动作选择策略输出包括针对可能动作的预定集合中的每个动作的相应的动作得分,其中,所述动作选择策略输出用于选择要由与环境交互的智能体执行的动作,所述方法包括:获得专家观察,所述专家观察表征所述环境的已被分类为与完成特定任务相关的状态;使用生成式神经网络系统处理所述专家观察,以生成给定观察-给定动作对,其中,所述给定观察-给定动作对包括:(i)表征所述环境的状态的给定观察,以及(ii)来自所述可能动作的预定集合的给定动作,其中,所述生成式神经网络系统被配置为处理目标观察以生成观察-动作对,其中,所述生成式神经网络系统已被训练成如果响应于特定观察执行特定动作更有可能导致所述环境稍后到达所述目标观察表征的状态,则更有可能生成特定观察-特定动作对;根据所述动作选择策略神经网络参数的当前值,使用所述动作选择策略神经网络处理所述给定观察,以生成针对所述给定动作的给定动作得分;和调整所述动作选择策略神经网络参数的所述当前值,以增加针对所述给定动作由所述动作选择策略神经网络通过处理所述给定观察而生成的所述给定动作得分。2.根据权利要求1中的任一项所述的方法,其中,所述生成式神经网络系统包括生成式自回归神经网络。3.根据权利要求2所述的方法,其中,所述生成式自回归神经网络是掩蔽自回归流。4.根据权利要求1-3中任一项所述的方法,其中,使用所述生成式神经网络系统处理所述专家观察以生成所述给定观察-给定动作对包括:使用第一生成式神经网络处理所述专家观察以生成所述给定观察;以及使用第二生成式神经网络处理所述专家观察和所述给定观察,以生成所述给定动作。5.根据权利要求1-4中任一项所述的方法,还包括:从包括多个轨迹的回放缓冲区中获得轨迹,其中,所述轨迹包括表征在所述智能体通过执行根据所述动作选择神经网络参数的值选择的动作而与所述环境交互时所述环境的相应状态的一系列观察-动作对;从所述轨迹选择:(i)特定观察-特定动作对和(ii)将来观察,其中,所述将来观察被包括在所述轨迹中所述特定观察-特定动作对之后的观察-动作对中;根据生成式神经网络系统参数的当前值,使用所述生成式神经网络系统处理所述将来观察,以生成预测观察-预测动作对;基于以下两者之间的差确定损失:(i)所述特定观察-特定动作对,和(ii)所述预测观察-预测动作对;以及基于所述损失调整生成式神经网络系统参数的当前值。6.根据权利要求5所述的方法,其中,根据所述动作选择神经网络参数的所述当前值来选择所述轨迹的动作。7.根据权利要求5-6中任一项所述的方法,其中,从所述轨迹选择:(i)特定观察-特定
动作对和(ii)将来观察,其中,所述将来观察被包括在所述...
【专利技术属性】
技术研发人员:M维塞里克,Y施罗克,KJ肖尔兹,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。