【技术实现步骤摘要】
【国外来华专利技术】使用相对熵Q学习训练动作选择系统
[0001]相关申请的交叉引用
[0002]本申请要求于2020年7月28日提交的序列号为63/057,826的美国临时专利申请的申请日的权益,其通过引用而整体并入本文。
技术介绍
[0003]本说明书涉及使用机器学习模型处理数据。
[0004]机器学习模型接收输入,并且基于所接收的输入来生成输出,例如预测输出(predicted output)。一些机器学习模型是参数模型,并且基于所接收的输入和模型的参数值来生成输出。
[0005]一些机器学习模型是采用模型的多个层来生成所接收的输入的输出的深度模型。例如,深度神经网络是深度机器学习模型,其包括输出层和一个或多个隐藏层,每个隐藏层对所接收的输入应用非线性变换以生成输出。
技术实现思路
[0006]本说明书总体上描述了一种实施为用于使用强化学习技术训练用于控制与环境交互的智能体(agent)执行任务的动作选择系统的位于一个或多个位置的一个或多个计算机上的计算机程序的系统。本文描述的强化学习技术可以被称为相对熵Q学习。动作 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个数据处理装置执行的用于训练用于选择要由与环境交互的智能体执行以执行任务的动作的动作选择系统的方法,其中所述动作选择系统包括Q神经网络和策略神经网络,所述方法包括,在多个迭代中的每一个处:从重放缓冲区获得表征智能体与环境的先前交互的批量经验元组,其中每个经验元组包括:(i)表征环境的状态的第一观察,(ii)由智能体响应于第一观察而执行的动作,(iii)表征智能体响应于第一观察而执行动作之后的环境的状态的第二观察,以及(iv)作为智能体响应于第一观察而执行动作的结果而接收的奖励;对于每个经验元组,确定经验元组中的第二观察的状态值,包括:使用策略神经网络来处理经验元组中的第一观察,以生成能够由智能体执行的可能动作集合中的每个动作的相应动作分数;根据动作分数从所述可能动作集合中采样多个动作;使用Q神经网络来处理第二观察,以生成每个采样动作的相应Q值;以及使用采样动作的Q值来确定第二观察的状态值;以及使用经验元组中的第二观察的状态值来确定对Q神经网络的Q神经网络参数集合的当前值的更新。2.根据权利要求1所述的方法,其中,对于每个经验元组,使用采样动作的Q值来确定第二观察的状态值包括:将第二观察的状态值确定为采样动作的Q值的线性组合。3.根据权利要求2所述的方法,其中,将第二观察的状态值确定为采样动作的Q值的线性组合包括:基于采样动作的Q值来确定温度因子;将每个采样动作的相应修改的Q值确定为(i)采样动作的Q值和(ii)温度因子的比值;将softmax函数应用于修改的Q值,以确定每个采样动作的权重因子;以及将第二观察的状态值确定为采样动作的Q值的线性组合,其中每个采样动作的Q值通过采样动作的权重因子进行缩放。4.根据权利要求3所述的方法,其中,所述第二观察的状态值被计算为:其中V
π
(s)是第二观察的状态值,j对采样动作进行索引,M是采样动作的数量,w
j
是采样动作a
j
的权重因子,Q
φ
′
(a
j
,s)是采样动作a
j
的Q值,并且每个权重因子w
j
被计算为:其中k对采样动作进行索引,并且η
s
是温度因子。5.根据权利要求3
‑
4中任一项所述的方法,其中,基于采样动作的Q值来确定温度因子包括,在一个或多个优化迭代中的每一个处:
确定对偶函数关于所述温度因子的梯度,其中所述对偶函数取决于:(i)所述温度因子,以及(ii)采样动作的Q值;使用所述对偶函数关于温度因子的梯度来调整温度因子的当前值。6.根据权利要求5所述的方法,其中,所述对偶函数被计算为:其中g(η
s
)是针对温度因子η
s
评估的对偶函数,表示批量经验元组中的经验元组的数量,∈是正则化参数,j对采样动作进行索引,M是采样动作的数量,并且Q
φ
′
(a
j
,s)是采样动作a
j
的Q值。7.根据任一前述权利要求所述的方法,其中,使用经验元组中的第二观察的状态值来确定对Q神经网络的Q神经网络参数集合的当前值的更新包括:对于每个经验元组:使用Q神经网络来处理经验元组中的第一观察,以生成经验元组中的动作的Q值;以及使用经验元组中的第二观察的状态值来确定经验元组中的动作的目标Q值;确定Q目标函数的梯度,其中对于每个经验元组,所述Q目标函数度量(i)经验元组中的动作的Q值和(ii)经验元组中的动作的目标Q值之间的误差;以及使用所述梯度来确定对Q神经网络参数集合的当前值的更新。8.根据权利要求7所述的方法,其中,使用经验元组中的第二观察的状态值来确定经验元组中的动作的目标Q值包括:将目标Q值确定为以下两项之和:(i)经验元组中的奖励和(ii)折扣因子和经验元组中的第二观察的状态值的乘积。9.根据权利要求7
‑
8中任一项所述的方法,其中:(i)经验元组中的动作的Q值和(ii)经验元组中的动作的目标Q值之间的误差包括(i)经验元组中的动作的Q值和(ii)经验元组中的动作的目标Q值之间的平方误差。10.根据权利要求9所述的方法,其中,所述Q目标函数被计算为...
【专利技术属性】
技术研发人员:RC郑,JT斯普林伯格,JOC凯,DHH郑,A加拉绍夫,NMO希斯,F诺力,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。