针对基于深度神经网络的Q学习修剪经验存储器的方法和装置制造方法及图纸

技术编号:20370766 阅读:41 留言:0更新日期:2019-02-16 20:59
本技术涉及由代理收集新经验、将新经验与存储在代理的存储器中的经验进行比较,以及基于比较或者丢弃新经验或者用新经验覆盖存储器中的经验。例如,代理或相关联的处理器可以确定新经验与存储的经验的相似程度。如果新经验太相似,则代理丢弃它;否则,代理将它存储在存储器中并丢弃先前存储的经验。基于经验与先前存储的经验的相似性来收集和选择性地存储经验解决了技术问题并产生了许多技术改进。例如,减轻了存储器大小约束、减少或消除了神经网络发生灾难性遗忘的可能性,并提高了神经网络性能。

A Method and Device for Q Learning Pruning Experience Memory Based on Deep Neural Network

This technology involves collecting new experiences by agents, comparing new experiences with those stored in agents'memory, and overlaying experiences in memory based on comparison or discarding new experiences or using new experiences. For example, proxies or associated processors can determine how similar the new experience is to the stored experience. If the new experience is too similar, the agent discards it; otherwise, the agent stores it in memory and discards the previously stored experience. Collecting and selectively storing experience based on the similarity between experience and previously stored experience solves technical problems and generates many technological improvements. For example, memory size constraints are reduced, the possibility of catastrophic forgetting is reduced or eliminated, and the performance of the neural network is improved.

【技术实现步骤摘要】
【国外来华专利技术】针对基于深度神经网络的Q学习修剪经验存储器的方法和装置相关申请的交叉引用本申请依据35U.S.C.§119(e)要求于2016年4月27日提交的标题为“MethodsandApparatusforPruningExperienceMemoriesforDeepNeuralNetwork-BasedQ-Learning”的美国申请No.62/328,344的优先权。该申请通过引用整体并入本文。
技术介绍
在强化学习中,代理与环境交互。在其与环境交互的过程中,代理收集经验。与代理相关联的神经网络可以使用这些经验来学习行为策略。即,与代理相关联或控制代理的神经网络可以使用代理的经验收集来学习代理应该如何在环境中行动。为了能够从过去的经验中学习,代理将收集到的经验或者本地或者经由网络连接存储在存储器中。存储所有经验以训练与代理相关联的神经网络在理论上可以证明是有用的。但是,随着经验数量的增加,硬件约束使得存储所有经验变得不切实际或甚至不可能。修剪存储在代理的存储器中的经验可以减轻对收集和存储经验的约束。但朴素的修剪,诸如以先入先出的方式清除旧经验,可能导致“灾难性遗忘”。灾难性遗忘意味着新的学习可本文档来自技高网...

【技术保护点】
1.一种用于为机器人生成动作的计算机实现的方法,所述方法包括:收集机器人的第一经验,所述第一经验表示:机器人在第一时间的第一状态,由机器人在所述第一时间采取的第一动作,由机器人响应于所述第一动作而接收的第一奖励,以及在所述第一时间之后的第二时间机器人响应于所述第一动作的第二状态;确定所述第一经验与存储在机器人的存储器中的多个经验之间的相似程度;基于所述第一经验与所述多个经验之间的相似程度来修剪所述存储器中的所述多个经验,以形成存储在所述存储器中的经修剪的多个经验;用所述经修剪的多个经验训练与机器人相关联的神经网络;以及使用神经网络为机器人生成第二动作。

【技术特征摘要】
【国外来华专利技术】2016.04.27 US 62/328,3441.一种用于为机器人生成动作的计算机实现的方法,所述方法包括:收集机器人的第一经验,所述第一经验表示:机器人在第一时间的第一状态,由机器人在所述第一时间采取的第一动作,由机器人响应于所述第一动作而接收的第一奖励,以及在所述第一时间之后的第二时间机器人响应于所述第一动作的第二状态;确定所述第一经验与存储在机器人的存储器中的多个经验之间的相似程度;基于所述第一经验与所述多个经验之间的相似程度来修剪所述存储器中的所述多个经验,以形成存储在所述存储器中的经修剪的多个经验;用所述经修剪的多个经验训练与机器人相关联的神经网络;以及使用神经网络为机器人生成第二动作。2.如权利要求1所述的计算机实现的方法,其中所述修剪还包括:对于所述多个经验中的每个经验:计算与所述第一经验的距离;以及将该距离与那个经验与所述多个经验中的每个其它经验的另一距离进行比较;以及基于所述比较从所述存储器中移除第二经验,所述第二经验是所述第一经验和来自所述多个经验的经验中的至少一个。3.如权利要求2所述的计算机实现的方法,还包括:基于所述第二经验与所述第一经验和所述多个经验中的每个经验的距离小于用户定义的阈值的概率,从所述存储器中移除所述第二经验。4.如权利要求1所述的计算机实现的方法,其中所述修剪还包括对所述第一经验和所述多个经验中的每个经验进行排名。5.如权利要求4所述的计算机实现的方法,其中所述排名包括至少部分地基于突触权重来创建多个聚类,并且在确定所述第一经验符合所述多个聚类中的一个聚类时自动丢弃所述第一经验。6.如权利要求5所述的计算机实现的方法,其中所述排名包括对所述多个经验中的每个经验进行编码、对所述第一经验进行编码,以及将所述经编码的经验与所述多个聚类进行比较。7.如权利要求1所述的计算机实现的方法,其中在第一输入状态下,所述神经网络至少部分地基于所述经修剪的多个经验来生成输出。8.如权利要求1所述的计算机实现的方法,其中所述经修剪的多个经验包括机器人的多样的状态集合。9.如权利要求1所述的计算机实现的方法,其中为机器人生成所述第二动作包括确定机器人处于所述第一状态并且选择与所述第一动作不同的所述第二动作。10.如权利要求9所述的计算机实现的方法,还包括:由机器人响应于所述第二动作而接收第二奖励。11.如权利要求1所述的计算机实现的方法,还包括:为机器人收集第二经验,所述第二经验表示:机器人的第二状态,由机器人响应于所述第二状态所采取的第二动作,由机器人响应于所述第二动作而接收到的第二奖励,以及机器人响应于所述第二动作的第三状态;确定所述第二经验与所述经修剪的多个经验之间的相似程度;以及基于所述第二经验与...

【专利技术属性】
技术研发人员:M·卢西维
申请(专利权)人:纽拉拉股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1