基于好奇心和对经验数据的优先化进行探索的方法技术

技术编号:34250258 阅读:60 留言:0更新日期:2022-07-24 11:22
提供了一种用于在多代理强化学习中基于好奇心和对经验数据的优先化进行探索的方法,该方法包括步骤:计算第一代理的策略和第二代理的策略之间的相似性,并且使用该相似性来计算最终奖励;以及使用计算第一代理的策略和第二代理的策略之间的相似性的结果在回放缓冲器上执行聚类,并且对簇中的数据执行采样。并且对簇中的数据执行采样。并且对簇中的数据执行采样。

Methods of exploring based on curiosity and prioritization of empirical data

【技术实现步骤摘要】
基于好奇心和对经验数据的优先化进行探索的方法
[0001]相关申请的交叉引用
[0002]本申请要求于2021年1月6日提交的、申请号为10

2021

0001498的韩国专利申请以及于2021年12月28日提交的、申请号为10

2021

0190049的韩国专利申请的优先权和权益,其公开通过引用整体被合并于此。


[0003]本专利技术涉及用于在多代理强化学习中基于好奇心和对经验数据的优先化进行探索的方法。

技术介绍

[0004]根据相关技术的多代理(multi

agent)强化学习仅仅依赖神经网络计算其他代理的动作的影响,并且不能在学习中根据其他代理的动作来反映最优策略。
[0005]此外,随着回放缓冲器(存储器)的尺寸增加,因为根据相关技术的多代理强化学习仅仅选择少量样本,所以当解决复杂问题时,代理可能无法进行各种尝试而且可能仅找出有限的方法。

技术实现思路

[0006]提出了本专利技术以解决以上描述的问题,并且本专利技术涉及提供一种方法,其中:第一代理考虑第二代理(即,包括多个代理的另外的代理)的策略来学习其(第一代理的)策略,并且基于多代理强化学习中的利用稀疏奖励的学习在回放缓冲器(存储器)中提取经验数据。
[0007]本专利技术的技术目标不局限于以上,并且基于以下描述,其他目标可以对本领域技术人员而言变得明显。
[0008]根据本专利技术的方面,提供一种用于在多代理强化学习中基于好奇心(curiosity)和对经验数据的优先化(prioritization)进行探索的方法,该方法包括步骤:(a)计算第一代理的策略和第二代理的策略之间的相似性并且使用该相似性计算最终奖励;以及(b)使用计算第一代理的策略和第二代理的策略之间的相似性的结果在回放缓冲器上执行聚类,并且对簇中的数据执行采样。
[0009]步骤(a)可以包括使用条件互信息来计算策略之间的相似性。
[0010]步骤(a)可以包括:对根据另一代理的影响的奖励与由神经网络习得的参数的乘积和从环境共同给予的奖励进行求和,以计算最终奖励。
[0011]步骤(a)可以包括另外使用内在奖励来计算最终奖励。
[0012]步骤(b)可以包括:执行根据第一代理的策略的动作以及监视第二代理的历史当中的预设数量的最近历史,以计算策略的相似性。
[0013]步骤(b)可以包括使用库尔贝克

莱布勒(KL;Kullback

Leibler)散度来计算策略的相似性。
[0014]步骤(b)可以包括:将计算出的KL散度的值存储在回放缓冲器中,以及使用层次聚合聚类(hierarchical agglomerative clustering)执行聚类,使得簇的总数量变得小于预设数量。
[0015]步骤(b)可以包括:根据以下准则中的至少一个来执行所述采样:使用所有数据项的数量和簇中的数据项的数量的准则;以及使用回放缓冲器的KL散度值和簇中的KL散度值之和的准则。
[0016]根据本专利技术的方面,提供一种用于在多代理强化学习中进行基于好奇心的探索和对经验数据的优先化的装置,该装置包括:输入单元,其接收第一代理的策略和第二代理的策略;存储器,其中存储有用于比较策略的相似性以计算最终奖励以及确定经验数据的优先级的程序;以及处理器,其执行程序,其中,上述处理器计算最终奖励,该最终奖励是通过基于策略之间的相似性对根据第二代理的影响的奖励和从环境共同给予的奖励进行求和而获得的。
[0017]处理器可以通过条件互信息计算策略之间的相似性,并且计算最终奖励。
[0018]处理器可以使用根据第一代理的策略的动作和监视第二代理的历史的结果来计算策略之间的相似性。
[0019]处理器可以使用计算策略之间的相似性的结果在回放缓冲器上执行聚类,并且对簇中的数据执行采样以确定经验数据的优先级。
[0020]处理器可以使用层次聚合聚类执行聚类,使得簇的总数量变得小于预设数量。
[0021]处理器可以根据以下准则中的至少一个来执行采样:使用所有数据项的数量和簇中的数据项的数量的准则;以及使用回放缓冲器的KL散度值和簇中的KL散度值之和的准则。
附图说明
[0022]通过参考附图详细地描述本专利技术的示例性实施例,本专利技术的以上和其他目的、特征和优点将对本领域技术人员变得更明显,在附图中:
[0023]图1和图2示出根据本专利技术实施例的、用于在多代理强化学习中基于好奇心和对经验数据的优先化进行探索的方法;
[0024]图3A至图3C示出根据相关技术的测试结果以及根据本专利技术实施例的测试结果;以及图4示出根据本专利技术实施例的、用于在多代理强化学习中进行基于好奇心的探索和对经验数据的优先化的装置。
具体实施方式
[0025]在下文,参考结合附图对以下详细实施例的描述,本专利技术的以上和其他目标、优势和特征以及实现它们的方式将变得很明显。
[0026]然而,本专利技术不局限于将在以下描述的实施例并且可以以各种形式来体现。提供将在以下描述的实施例仅用来帮助本领域的技术人员完全地理解本专利技术的目标、配置和效果,并且本专利技术的范围仅仅由所附权利要求限定。
[0027]同时,在本文使用的术语用于帮助解释和理解实施例,并且并不意图限制本专利技术的范围和精神。应当理解的是,单数形式“一”也包括复数形式,除非上下文清楚地另外指
示。当术语“包括”、“包括有”、“包含”和/或“包含有”在本文被使用时,指定所陈述的特征、整数、步骤、操作、要素、部件和/或其组合的存在,但是不排除一个或多个其他特征、整数、步骤、操作、要素、部件和/或其组合的存在或添加。
[0028]在描述本专利技术的实施例之前,为了本领域的技术人员的理解,将首先描述提出本专利技术的背景。
[0029]强化学习(RL;Reinforcement Learning)是在人工智能
中进行学习以允许通过连续奖励执行某任务的方法。自深度学习出现以来,已经对操作为使得一个代理在给定环境中学习最大化其奖励的动作或动作序列的RL作出各种研究。
[0030]根据代理的数量,RL可以被划分为单一代理RL和多代理RL。考虑到RL在实际中被应用到的诸如机器人、车辆和战场之类的各个领域的特性,考虑多个代理是较为重要的。在单一代理RL中,代理仅通过与环境交互来进行操作。另一方面,在多代理RL中,一个代理需要与多个其他代理和环境进行交互。
[0031]根据相关技术的RL技术聚焦于计算联合动作的概率以及执行高效探索。然而,根据相关技术,每个代理都被给予来自环境的相同奖励,不管该代理实际上是否对结果作出了贡献。因此,不存在根据对结果的贡献度来向每个代理提供奖励的方法。在多代理RL中,奖励在学习中发挥关键作用,但是由于每个代理的学习区域广泛且动作多,所以每个状态/动作极少被给予奖励。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于好奇心和对经验数据的优先化进行探索的方法,所述方法包括以下步骤:(a)计算第一代理的策略和第二代理的策略之间的相似性并且使用所述相似性来计算最终奖励;以及(b)使用计算所述第一代理的策略和所述第二代理的策略之间的所述相似性的结果在回放缓冲器上执行聚类,并且对簇中的数据执行采样。2.根据权利要求1所述的方法,其中,所述步骤(a)包括使用条件互信息来计算所述策略之间的相似性。3.根据权利要求1所述的方法,其中,所述步骤(a)包括:对根据另一代理的影响的奖励与由神经网络习得的参数的乘积和从环境共同给予的奖励进行求和,以计算所述最终奖励。4.根据权利要求3所述的方法,其中,所述步骤(a)包括另外使用内在奖励来计算所述最终奖励。5.根据权利要求1所述的方法,其中,所述步骤(b)包括:执行根据所述第一代理的策略的动作以及监视所述第二代理的历史当中的预设数量的最近历史,以计算所述策略的相似性。6.根据权利要求5所述的方法,其中,所述步骤(b)包括使用库尔贝克

莱布勒KL散度来计算所述策略的相似性。7.根据权利要求6所述的方法,其中,所述步骤(b)包括:将计算出的KL散度的值存储在所述回放缓冲器中,以及使用层次聚合聚类执行所述聚类,使得所述簇的总数量变得小于预设数量。8.根据权利要求7所述的方法,其中,所述步骤(b)包括:根据以下准则中的至少一个来执行所述采样:使用所有数据项的数量和所述簇中的数据项...

【专利技术属性】
技术研发人员:宁巴姆
申请(专利权)人:韩国电子通信研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1