使用控制观测嵌入的辅助任务训练动作选择神经网络制造技术

技术编号：37608203 阅读：15 留言：0更新日期：2023-05-18 12:00

方法、系统和装置，包括被编码在计算机存储介质上的计算机程序，用于选择要由与环境交互的智能体执行以实现目标的动作。在一个方面，方法包括：获得表征环境状态的观测，使用嵌入模型处理观测以生成观测的较低维嵌入，基于嵌入的特定维度的值确定辅助任务奖励，至少部分地基于辅助任务奖励确定总体奖励，以及使用强化学习技术基于总体奖励确定对动作选择神经网络的多个参数的值的更新。经网络的多个参数的值的更新。经网络的多个参数的值的更新。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用控制观测嵌入的辅助任务训练动作选择神经网络
[0001]相关申请的交叉引用
[0002]本申请要求于2020年7月28日提交的美国临时专利申请序列号63/057,795“使用控制观测嵌入的辅助任务训练动作选择神经网络”的申请日的权益，并在此通过引用整体并入。

技术介绍

[0003]本说明书涉及使用机器学习模型处理数据。
[0004]机器学习模型接收输入并基于接收到的输入生成输出，例如预测输出。一些机器学习模型是参数模型，并基于接收到的输入和模型参数的值生成输出。
[0005]一些机器学习模型是深度模型，其采用多层模型为接收到的输入生成输出。例如，深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型，每个隐藏层对接收到的输入应用非线性变换以生成输出。

技术实现思路

[0006]本说明书总体上描述了一种系统，该系统在一个或多个位置的一个或多个计算机上实现为计算机程序，用于训练具有多个参数的动作选择神经网络，该神经网络用于控制与环境交互的智能体。动作选择神经网络可以被配置为处理输入，该输入包括表征环境状态的观测的嵌入，以生成动作选择输出，该动作选择输出包括可以由智能体执行的一组可能动作中每个动作的相应动作分数。
[0007]贯穿本说明书，实体的“嵌入”(例如，环境的观测)可以是指实体作为数值的有序集合的表示，例如数值的向量或矩阵。可以生成实体的嵌入，例如，作为处理表征实体的数据的神经网络的输出。
[0008]根据第一方面，提供了一种用于训练具有多个参数的动作选择神经网络的方...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练具有多个参数的动作选择神经网络的方法，所述方法用于选择要由与环境交互的智能体执行的动作，其中，所述动作选择神经网络被配置为处理包括表征所述环境状态的观测的输入以生成动作选择输出，所述动作选择输出包括能够由智能体执行的一组可能动作中每个动作的相应动作分数，并且基于所述动作分数从所述一组可能动作中选择要由所述智能体执行的动作，所述方法包括：获得表征在一时间步处的所述环境状态的观测；使用嵌入模型处理所述观测以生成所述观测的较低维嵌入，其中，所述观测的较低维嵌入具有多个维度；基于所述嵌入的特定维度的值确定所述时间步的辅助任务奖励，其中，所述辅助任务奖励与控制所述嵌入的所述特定维度的值的辅助任务相对应；至少部分地基于所述时间步的所述辅助任务奖励来确定所述时间步的总体奖励；以及使用强化学习技术，基于所述时间步的所述总体奖励，确定对所述动作选择神经网络的所述多个参数的值的更新。2.根据权利要求1所述的方法，其中，控制所述嵌入的所述特定维度的值的所述辅助任务包括使所述嵌入的所述特定维度的值最大化或最小化。3.根据权利要求2所述的方法，其中，确定所述时间步的所述辅助任务奖励包括：确定表征在多个时间步中的每个时间步处的环境状态的相应观测的嵌入的特定维度的最大值；确定表征在所述多个时间步中的每个时间步处的环境状态的相应观测的嵌入的特定维度的最小值；以及基于以下确定所述时间步的所述辅助任务奖励：(i)在所述时间步处的所述嵌入的所述特定维度的值，(ii)与所述嵌入的所述特定维度相对应的最大值，以及(iii)与所述嵌入的所述特定维度相对应的最小值。4.根据权利要求3所述的方法，其中，确定所述时间步的所述辅助任务奖励包括：确定以下的比率：(i)与所述嵌入的所述特定维度相对应的所述最大值和在所述时间步处的所述嵌入的所述特定维度的值之间的差，以及(ii)与所述嵌入的所述特定维度相对应的所述最大值和所述最小值之间的差。5.根据权利要求3所述的方法，其中，确定所述时间步的所述辅助任务奖励包括：确定以下的比率：(i)在所述时间步处的所述嵌入的所述特定维度的值和与所述嵌入的所述特定维度相对应的所述最小值之间的差，以及(ii)与所述嵌入的所述特定维度相对应的所述最大值和所述最小值之间的差。6.根据任一前述权利要求所述的方法，进一步包括：根据任务选择策略从一组可能的辅助任务中选择控制所述嵌入的所述特定维度的值的辅助任务，其中每个可能的辅助任务与控制所述嵌入的相应维度的值相对应。7.根据任一前述权利要求所述的方法，其中，所述强化学习技术是离策略强化学习技术。8.根据任一前述权利要求所述的方法，其中，所述嵌入模型包括随机矩阵，并且使用所述嵌入模型处理所述观测包括：将所述随机矩阵应用于所述观测的向量表示以生成所述观测的投影；以及
将非线性激活函...

【专利技术属性】
技术研发人员：马库斯，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人