基于好奇心和对经验数据的优先化进行探索的方法技术

技术编号：34250258 阅读：60 留言：0更新日期：2022-07-24 11:22

提供了一种用于在多代理强化学习中基于好奇心和对经验数据的优先化进行探索的方法，该方法包括步骤：计算第一代理的策略和第二代理的策略之间的相似性，并且使用该相似性来计算最终奖励；以及使用计算第一代理的策略和第二代理的策略之间的相似性的结果在回放缓冲器上执行聚类，并且对簇中的数据执行采样。并且对簇中的数据执行采样。并且对簇中的数据执行采样。

Methods of exploring based on curiosity and prioritization of empirical data

全部详细技术资料下载

【技术实现步骤摘要】
基于好奇心和对经验数据的优先化进行探索的方法
[0001]相关申请的交叉引用
[0002]本申请要求于2021年1月6日提交的、申请号为10
‑
2021
‑
0001498的韩国专利申请以及于2021年12月28日提交的、申请号为10
‑
2021
‑
0190049的韩国专利申请的优先权和权益，其公开通过引用整体被合并于此。

[0003]本专利技术涉及用于在多代理强化学习中基于好奇心和对经验数据的优先化进行探索的方法。

技术介绍

[0004]根据相关技术的多代理(multi
‑
agent)强化学习仅仅依赖神经网络计算其他代理的动作的影响，并且不能在学习中根据其他代理的动作来反映最优策略。
[0005]此外，随着回放缓冲器(存储器)的尺寸增加，因为根据相关技术的多代理强化学习仅仅选择少量样本，所以当解决复杂问题时，代理可能无法进行各种尝试而且可能仅找出有限的方法。

技术实现思路

[0006]提出了本专利技术以解决以上描述的问题，并且本专利技术涉及提供一种方法，其中：第一代理考虑第二代理(即，包括多个代理的另外的代理)的策略来学习其(第一代理的)策略，并且基于多代理强化学习中的利用稀疏奖励的学习在回放缓冲器(存储器)中提取经验数据。
[0007]本专利技术的技术目标不局限于以上，并且基于以下描述，其他目标可以对本领域技术人员而言变得明显。
[0008]根据本专利技术的方面，提供一种...

【技术保护点】

【技术特征摘要】
1.一种基于好奇心和对经验数据的优先化进行探索的方法，所述方法包括以下步骤：(a)计算第一代理的策略和第二代理的策略之间的相似性并且使用所述相似性来计算最终奖励；以及(b)使用计算所述第一代理的策略和所述第二代理的策略之间的所述相似性的结果在回放缓冲器上执行聚类，并且对簇中的数据执行采样。2.根据权利要求1所述的方法，其中，所述步骤(a)包括使用条件互信息来计算所述策略之间的相似性。3.根据权利要求1所述的方法，其中，所述步骤(a)包括：对根据另一代理的影响的奖励与由神经网络习得的参数的乘积和从环境共同给予的奖励进行求和，以计算所述最终奖励。4.根据权利要求3所述的方法，其中，所述步骤(a)包括另外使用内在奖励来计算所述最终奖励。5.根据权利要求1所述的方法，其中，所述步骤(b)包括：执行根据所述第一代理的策略的动作以及监视所述第二代理的历史当中的预设数量的最近历史，以计算所述策略的相似性。6.根据权利要求5所述的方法，其中，所述步骤(b)包括使用库尔贝克
–
莱布勒KL散度来计算所述策略的相似性。7.根据权利要求6所述的方法，其中，所述步骤(b)包括：将计算出的KL散度的值存储在所述回放缓冲器中，以及使用层次聚合聚类执行所述聚类，使得所述簇的总数量变得小于预设数量。8.根据权利要求7所述的方法，其中，所述步骤(b)包括：根据以下准则中的至少一个来执行所述采样：使用所有数据项的数量和所述簇中的数据项...

【专利技术属性】
技术研发人员：宁巴姆，
申请(专利权)人：韩国电子通信研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人