使用控制观测嵌入的辅助任务训练动作选择神经网络制造技术

技术编号:37608203 阅读:15 留言:0更新日期:2023-05-18 12:00
方法、系统和装置,包括被编码在计算机存储介质上的计算机程序,用于选择要由与环境交互的智能体执行以实现目标的动作。在一个方面,方法包括:获得表征环境状态的观测,使用嵌入模型处理观测以生成观测的较低维嵌入,基于嵌入的特定维度的值确定辅助任务奖励,至少部分地基于辅助任务奖励确定总体奖励,以及使用强化学习技术基于总体奖励确定对动作选择神经网络的多个参数的值的更新。经网络的多个参数的值的更新。经网络的多个参数的值的更新。

【技术实现步骤摘要】
【国外来华专利技术】使用控制观测嵌入的辅助任务训练动作选择神经网络
[0001]相关申请的交叉引用
[0002]本申请要求于2020年7月28日提交的美国临时专利申请序列号63/057,795“使用控制观测嵌入的辅助任务训练动作选择神经网络”的申请日的权益,并在此通过引用整体并入。

技术介绍

[0003]本说明书涉及使用机器学习模型处理数据。
[0004]机器学习模型接收输入并基于接收到的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并基于接收到的输入和模型参数的值生成输出。
[0005]一些机器学习模型是深度模型,其采用多层模型为接收到的输入生成输出。例如,深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型,每个隐藏层对接收到的输入应用非线性变换以生成输出。

技术实现思路

[0006]本说明书总体上描述了一种系统,该系统在一个或多个位置的一个或多个计算机上实现为计算机程序,用于训练具有多个参数的动作选择神经网络,该神经网络用于控制与环境交互的智能体。动作选择神经网络可以被配置为处理输入,该输入包括表征环境状态的观测的嵌入,以生成动作选择输出,该动作选择输出包括可以由智能体执行的一组可能动作中每个动作的相应动作分数。
[0007]贯穿本说明书,实体的“嵌入”(例如,环境的观测)可以是指实体作为数值的有序集合的表示,例如数值的向量或矩阵。可以生成实体的嵌入,例如,作为处理表征实体的数据的神经网络的输出。
[0008]根据第一方面,提供了一种用于训练具有多个参数的动作选择神经网络的方法,该方法用于选择要由与环境交互的智能体执行的动作,其中动作选择神经网络被配置为处理包括表征环境状态的观测的输入以生成动作选择输出,该动作选择输出包括可以由智能体执行的一组可能动作中每个动作的相应动作分数,并基于动作分数从一组可能动作中选择要由智能体执行的动作。该方法包括获得表征在一时间步处的环境状态的观测,使用嵌入模型处理观测以生成观测的较低维嵌入,其中观测的较低维嵌入具有多个维度,基于嵌入的特定维度的值确定时间步的辅助任务奖励,其中辅助任务奖励与控制嵌入的特定维度的值的辅助任务相对应,至少部分地基于时间步的辅助任务奖励确定时间步的总体奖励,以及使用强化学习技术,基于时间步的总体奖励,确定对动作选择神经网络的多个参数的值的更新。
[0009]在一些实施方式中,控制嵌入的特定维度的值的辅助任务包括最大化或最小化嵌入的特定维度的值。
[0010]在一些实施方式中,确定时间步的辅助任务奖励包括确定表征多个时间步中的每个时间步处的环境状态的相应观测的嵌入的特定维度的最大值,确定表征所述多个时间步
中的每个时间步处的环境状态的相应观测的嵌入的特定维度的最小值,以及基于以下因素确定时间步的辅助任务奖励:(i)在该时间步处的嵌入的特定维度的值,(ii)与嵌入的特定维度相对应的最大值,以及(iii)与嵌入的特定维度相对应的最小值。
[0011]在一些实施方式中,确定时间步的辅助任务奖励包括确定以下的比率:(i)与嵌入的特定维度相对应的最大值和在该时间步处的嵌入的特定维度的值之间的差,以及(ii)与嵌入的特定维度相对应的最大值和最小值之间的差。
[0012]在一些实施方式中,确定时间步的辅助任务奖励包括确定以下的比率:(i)在该时间步处的嵌入的特定维度的值和与嵌入的特定维度相对应的最小值之间的差,以及(ii)与嵌入的特定维度相对应的最大值和最小值之间的差。
[0013]在一些实施方式中,方法进一步包括根据任务选择策略从一组可能的辅助任务中选择控制嵌入的特定维度的值的辅助任务,其中每个可能的辅助任务与控制嵌入的相应维度的值相对应。
[0014]在一些实施方式中,强化学习技术是离策略强化学习技术。
[0015]在一些实施方式中,嵌入模型包括随机矩阵,并且使用嵌入模型处理观测包括:将随机矩阵应用于观测的向量表示以生成观测的投影,以及将非线性激活函数应用于观测的投影。
[0016]在一些实施方式中,该方法进一步包括通过将观测展平成向量来生成观测的向量表示。
[0017]在一些实施方式中,嵌入模型包括嵌入神经网络。
[0018]在一些实施方式中,嵌入神经网络包括自动编码器神经网络的编码器神经网络。
[0019]在一些实施方式中,自动编码器神经网络是变分自动编码器(VAE)神经网络。
[0020]在一些实施方式中,变分自动编码器神经网络是β变分自动编码器(β

VAE)神经网络。
[0021]在一些实施方式中,使用嵌入模型处理观测以生成观测的较低维嵌入包括:使用编码器神经网络处理观测以生成定义潜在空间上的概率分布的参数,以及基于潜在空间上的概率分布的均值确定观测的较低维嵌入。
[0022]在一些实施方式中,观测包括图像并且观测的较低维嵌入包括图像中的多个关键点中的每一个的相应坐标。
[0023]在一些实施方式中,观测包括图像并且观测的较低维嵌入包括表征图像中的空间颜色分布的一组统计。
[0024]在一些实施方式中,该方法进一步包括确定与环境中的智能体正在执行的主要任务相对应的时间步的主要任务奖励,以及基于时间步的辅助任务奖励和时间步的主要任务奖励确定时间步的总体奖励。
[0025]在一些实施方式中,智能体是与真实世界环境交互的机械智能体,并且由智能体执行的主要任务包括物理地操纵环境中的对象。
[0026]在一些实施方式中,观测包括图像,并且其中使用嵌入模型处理观测以生成观测的较低维嵌入包括:处理图像以生成一组多个注意力掩码,其中每个注意力掩码定义了图像的相应区域,并且注意力掩码共同定义了图像的分区:通过处理(i)注意力掩码和(ii)图像,使用自动编码器神经网络的编码器神经网络为每个注意力掩码生成相应的嵌入,以及
基于每个注意力掩码的相应嵌入的组合确定观测的较低维嵌入。
[0027]根据第二方面,提供了一种系统,包括:一个或多个计算机;以及被通信耦合到所述一个或多个计算机的一个或多个存储设备,其中所述一个或多个存储设备存储指令,所述指令在由所述一个或多个计算机执行时,使所述一个或多个计算机执行任何前述的方面的相应方法的操作。
[0028]根据第三方面,提供了存储指令的一个或多个非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时,使所述一个或多个计算机执行任一前述方面的相应方法的操作。
[0029]可以实施本说明书中描述的主题的特定实施例以实现以下优点中的一个或多个。
[0030]本说明书中描述的系统可以训练动作选择神经网络,该神经网络用于使用来自一个或多个辅助任务的辅助任务奖励来控制与环境交互的智能体。每个辅助任务可以与控制(例如,最大化或最小化)使用嵌入模型生成的环境观测的嵌入的相应维度的值相对应。使用辅助任务奖励训练动作选择神经网络可以鼓励智能体有效地探索环境,并且从而可以加速智能体执行“主要”(例如,主)任务的训练,例如,在环境中物理操纵对象。特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练具有多个参数的动作选择神经网络的方法,所述方法用于选择要由与环境交互的智能体执行的动作,其中,所述动作选择神经网络被配置为处理包括表征所述环境状态的观测的输入以生成动作选择输出,所述动作选择输出包括能够由智能体执行的一组可能动作中每个动作的相应动作分数,并且基于所述动作分数从所述一组可能动作中选择要由所述智能体执行的动作,所述方法包括:获得表征在一时间步处的所述环境状态的观测;使用嵌入模型处理所述观测以生成所述观测的较低维嵌入,其中,所述观测的较低维嵌入具有多个维度;基于所述嵌入的特定维度的值确定所述时间步的辅助任务奖励,其中,所述辅助任务奖励与控制所述嵌入的所述特定维度的值的辅助任务相对应;至少部分地基于所述时间步的所述辅助任务奖励来确定所述时间步的总体奖励;以及使用强化学习技术,基于所述时间步的所述总体奖励,确定对所述动作选择神经网络的所述多个参数的值的更新。2.根据权利要求1所述的方法,其中,控制所述嵌入的所述特定维度的值的所述辅助任务包括使所述嵌入的所述特定维度的值最大化或最小化。3.根据权利要求2所述的方法,其中,确定所述时间步的所述辅助任务奖励包括:确定表征在多个时间步中的每个时间步处的环境状态的相应观测的嵌入的特定维度的最大值;确定表征在所述多个时间步中的每个时间步处的环境状态的相应观测的嵌入的特定维度的最小值;以及基于以下确定所述时间步的所述辅助任务奖励:(i)在所述时间步处的所述嵌入的所述特定维度的值,(ii)与所述嵌入的所述特定维度相对应的最大值,以及(iii)与所述嵌入的所述特定维度相对应的最小值。4.根据权利要求3所述的方法,其中,确定所述时间步的所述辅助任务奖励包括:确定以下的比率:(i)与所述嵌入的所述特定维度相对应的所述最大值和在所述时间步处的所述嵌入的所述特定维度的值之间的差,以及(ii)与所述嵌入的所述特定维度相对应的所述最大值和所述最小值之间的差。5.根据权利要求3所述的方法,其中,确定所述时间步的所述辅助任务奖励包括:确定以下的比率:(i)在所述时间步处的所述嵌入的所述特定维度的值和与所述嵌入的所述特定维度相对应的所述最小值之间的差,以及(ii)与所述嵌入的所述特定维度相对应的所述最大值和所述最小值之间的差。6.根据任一前述权利要求所述的方法,进一步包括:根据任务选择策略从一组可能的辅助任务中选择控制所述嵌入的所述特定维度的值的辅助任务,其中每个可能的辅助任务与控制所述嵌入的相应维度的值相对应。7.根据任一前述权利要求所述的方法,其中,所述强化学习技术是离策略强化学习技术。8.根据任一前述权利要求所述的方法,其中,所述嵌入模型包括随机矩阵,并且使用所述嵌入模型处理所述观测包括:将所述随机矩阵应用于所述观测的向量表示以生成所述观测的投影;以及
将非线性激活函...

【专利技术属性】
技术研发人员:马库斯
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1