包括持续学习世界模型的自主系统及相关方法技术方案

技术编号:28991012 阅读:37 留言:0更新日期:2021-06-23 09:44
一种自主或半自主系统包括:时间预测网络,其被配置为在第一任务的执行期间处理来自系统的环境的第一组样本;控制器,其被配置为处理来自所述环境的第一组样本和由所述时间预测网络输出的隐藏状态;所述时间预测网络的保留副本;以及所述控制器的保留副本。所述时间预测网络的保留副本和所述控制器的保留副本被配置为生成模拟转出,并且所述系统被配置为在第二任务的执行期间将所述模拟转出与来自所述环境的第二组样本交织,以保留用于执行第一任务的所述时间预测网络的知识。

【技术实现步骤摘要】
【国外来华专利技术】包括持续学习世界模型的自主系统及相关方法相关申请的交叉引用本申请要求2018年10月24日提交的美国临时申请号62/749,819的优先权和益处,其全部内容通过引用并入本文。关于联邦资助研究或开发的声明本专利技术是在AFRL/DARPA颁发的政府合同号FA8750-18-C-0103下,在美国政府支持下完成的。美国政府对本专利技术享有一定权利。
技术介绍
1.领域本公开一般涉及用于自主或半自主系统的人工神经网络,以及训练这些人工神经网络的方法。2.相关技术的描述诸如图像识别、计算机视觉、语音识别和医疗诊断的复杂任务越来越多地由人工神经网络执行。人工神经网络通常通过呈现已经被手动标识为正训练示例(例如,人工神经网络旨在识别或标识的图像或声音的类型的示例)或负训练示例(例如,人工神经网络旨在不识别或标识的图像或声音的类型的示例)的一组示例来训练。人工神经网络包括经由突触彼此连接的节点的集合,称为人工神经元。神经元之间的连接具有随着人工神经网络学习而调整的权重,这取决于那些神经元之间的连接是否产生网络的期望行本文档来自技高网...

【技术保护点】
1.一种自主或半自主系统,包括:/n时间预测网络,其被配置为在第一任务的执行期间处理来自所述系统的环境的第一组样本;/n控制器,其被配置为处理来自所述环境的所述第一组样本和由所述时间预测网络输出的隐藏状态;/n所述时间预测网络的保留副本;以及/n所述控制器的保留副本,/n其中所述时间预测网络的保留副本和所述控制器的保留副本被配置为生成模拟转出,以及/n其中所述系统被配置为在第二任务的执行期间将所述模拟转出与来自所述环境的第二组样本交织,以保留用于执行所述第一任务的所述时间预测网络的知识。/n

【技术特征摘要】
【国外来华专利技术】20181024 US 62/749,8191.一种自主或半自主系统,包括:
时间预测网络,其被配置为在第一任务的执行期间处理来自所述系统的环境的第一组样本;
控制器,其被配置为处理来自所述环境的所述第一组样本和由所述时间预测网络输出的隐藏状态;
所述时间预测网络的保留副本;以及
所述控制器的保留副本,
其中所述时间预测网络的保留副本和所述控制器的保留副本被配置为生成模拟转出,以及
其中所述系统被配置为在第二任务的执行期间将所述模拟转出与来自所述环境的第二组样本交织,以保留用于执行所述第一任务的所述时间预测网络的知识。


2.根据权利要求1所述的系统,还包括自动编码器,其中所述自动编码器被配置为将来自所述系统的环境的所述第一组样本嵌入到潜在空间中。


3.根据权利要求2所述的系统,其中所述自动编码器是卷积变分自动编码器。


4.根据权利要求1所述的系统,其中所述控制器是基于随机梯度下降的强化学习控制器。


5.根据权利要求4所述的系统,其中所述控制器包括A2C算法。


6.根据权利要求1所述的系统,其中所述时间预测网络包括:
长短时记忆(LSTM)层;以及
混合密度网络。


7.根据权利要求1所述的系统,其中所述控制器被配置为输出动作分布,并且其中来自所述动作分布的采样动作使所述第一任务上的预期奖励最大化。


8.一种非暂时性计算机可读存储介质,具有存储于其中的软件指令,所述软件指令在由处理器执行时使所述处理器:
在第一任务执行期间,在来自自主或半自主系统的环境的第一组样本上训练时间预测网络;
在来自环境的所述第一组样本和由所述时间预测网络输出的隐藏状态上训练控制器;
存储所述时间预测网络的保留副本;
存储所述控制器的保留副本,
从所述时间预测网络的保留副本和所述控制器的保留副本生成模拟转出;以及
在第二任务的执行期间将所述模拟转出与来自所述环境的第二组样本进行交织,以保留用于执行所述第一任务的所述时间预测网络的知识。


9.根据权利要求8所述的非暂时性计算机可读存储介质,其中所述软件指令在由所述处理器执行时进一步使所述处理器使用自动编码器将所述第一组样本嵌入到潜在空间中。


10....

【专利技术属性】
技术研发人员:尼可拉斯·A·凯兹帕文·K·皮利索黑尔·柯劳里查尔斯·E·马汀麦可·D·霍华德
申请(专利权)人:HRL实验室有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1