【技术实现步骤摘要】
【国外来华专利技术】通过使用时间值传递在长时间尺度上控制代理
本说明书涉及强化学习。
技术介绍
在强化学习系统中,代理通过执行由强化学习系统响应于接收到用于表征环境的当前状态的观察而选择的动作来与所述环境的交互。一些强化学习系统响应于接收到给定观察,根据神经网络的输出来选择待由代理执行的动作。神经网络是一些机器学习模型,其采用一层或多层非线性单元来预测针对所接收输入的输出。一些神经网络是深度神经网络,其除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。
技术实现思路
本说明书总体上描述一种强化学习系统,其训练神经网络系统以控制代理与环境的交互。因此,在一方面,一种训练用于控制与环境交互的代理执行指定任务的神经网络系统的方法包括:使代理执行任务情节,在其中代理尝试执行指定任务。在任务情节期间的时间步序列中的每个时间步处,该方法可以包括:获得用于表征环境的当前状态的观察;根据观察并通过使用神经网络系统,选择待由代理响应于观察而执行的动作;通过使用神经网络系统,生成值预测,该值预测表示环境处于当前状态以成功执行指定任务的值;使代理执行所选择的动作;以及作为响应,接收实际奖励,该实际奖励表征由于代理执行所选择的动作而在环境中取得的进展。针对序列中的一个或多个特定时间步中的每个时间步,该方法还可以包括:根据(i)该时间步处的实际奖励、和(ii)在序列中在特定时间步之后多于时间步阈值数目的一 ...
【技术保护点】
1.一种训练神经网络系统的方法,所述神经网络系统用于控制与环境的交互的代理以执行指定任务,所述方法包括:/n使所述代理执行任务情节,在所述任务情节中所述代理尝试执行所述指定任务,包括在所述任务情节期间的时间步序列中的每个时间步处:/n获得表征所述环境的当前状态的观察;/n根据所述观察并通过使用所述神经网络系统,选择待由所述代理响应于所述观察而执行的动作;/n通过使用所述神经网络系统,生成值预测,所述值预测表示所述环境处于所述当前状态以成功执行所述指定任务的值;/n使所述代理执行所选择的动作;以及/n作为响应,接收实际奖励,所述实际奖励表征由于所述代理执行所选择的动作而在所述环境中取得的进展;/n针对所述序列中的一个或多个特定时间步中的每个时间步:/n根据(i)所述时间步处的实际奖励,和(ii)在所述序列中在所述特定时间步之后多于时间步阈值数目的一个或多个时间步处的值预测,生成针对所述特定时间步的修改奖励;以及/n通过强化学习,通过使用至少针对所述特定时间步的所述修改奖励来训练所述神经网络系统。/n
【技术特征摘要】
【国外来华专利技术】20181012 US 62/745,2021.一种训练神经网络系统的方法,所述神经网络系统用于控制与环境的交互的代理以执行指定任务,所述方法包括:
使所述代理执行任务情节,在所述任务情节中所述代理尝试执行所述指定任务,包括在所述任务情节期间的时间步序列中的每个时间步处:
获得表征所述环境的当前状态的观察;
根据所述观察并通过使用所述神经网络系统,选择待由所述代理响应于所述观察而执行的动作;
通过使用所述神经网络系统,生成值预测,所述值预测表示所述环境处于所述当前状态以成功执行所述指定任务的值;
使所述代理执行所选择的动作;以及
作为响应,接收实际奖励,所述实际奖励表征由于所述代理执行所选择的动作而在所述环境中取得的进展;
针对所述序列中的一个或多个特定时间步中的每个时间步:
根据(i)所述时间步处的实际奖励,和(ii)在所述序列中在所述特定时间步之后多于时间步阈值数目的一个或多个时间步处的值预测,生成针对所述特定时间步的修改奖励;以及
通过强化学习,通过使用至少针对所述特定时间步的所述修改奖励来训练所述神经网络系统。
2.根据前述权利要求中的任一项所述的方法,
其中,所述神经网络系统增设有外部存储器,
其中,使所述代理执行所述任务情节还包括在所述序列中的每个时间步处:
针对一个或多个读取头中的每一个,从所述外部存储器读取数据,以及
将数据写入所述外部存储器,以及
其中,在每个时间步处选择所述待执行的动作包括:通过使用至少(i)在先前时间步处从所述外部存储器读取的数据或者(ii)在所述时间步处从所述外部存储器读取的数据,来选择所述动作;
其中,在每个时间步处生成所述值预测包括:通过使用至少(i)在先前时间步处从所述外部存储器读取的数据或者(ii)在所述时间步处从所述外部存储器读取的数据,来生成所述值预测。
3.根据权利要求2所述的方法,其中,生成针对一个或多个特定时间步中的每个时间步的修改奖励包括:
针对所述一个或多个读取头中的每一个:
基于在所述时间步处针对所述读取头从所述外部存储器读取数据的强度,将所述时间步序列中的一个或多个时间步标识为拼接时间步;
针对每个拼接时间步:
标识在所述序列中在所述拼接时间步之前多于所述时间步阈值数目的一个或多个特定时间步;以及
根据在所述拼接时间步处通过使用从所述外部存储器读取的数据所生成的值预测,针对每个所标识的时间步生成所述奖励的修改;以及
将所述修改应用于针对对应时间步的实际奖励。
4.根据权利要求3所述的方法,
其中,从所述外部存储器读取数据包括:
针对每个读取头,生成读取强度参数,所述读取强度参数定义在所述时间步处以怎样的强度从所述外部存储器进行读取,以及
其中,基于在所述时间步处针对所述读取头从所述外部存储器读取数据的强度,将所述时间步序列中的一个或多个时间步标识为拼接时间步包括:
将其中针对所述读取...
【专利技术属性】
技术研发人员:格雷戈里·邓肯·韦恩,蒂莫西·保罗·利利克拉普,洪嘉君,乔舒亚·西蒙·阿布拉姆松,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:英国;GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。