稀疏奖励环境下的强化学习方法、电子设备及存储介质技术

技术编号：40654724 阅读：4 留言：0更新日期：2024-03-13 21:31

本申请提供一种稀疏奖励环境下的强化学习方法、电子设备及计算机可读存储介质，方法包括：获取指定应用场景中的第一智能体；确定多个智能体中的每一智能体与第一智能体的影响程度，得到多个影响程度，根据多个影响程度生成第一智能体的影响矩阵；根据多个智能体中的每一智能体的位置与第一智能体的位置之间的位置关系生成第一智能体的距离矩阵；根据影响矩阵和距离矩阵确定第一智能体的奖励系数矩阵；根据奖励系数矩阵和参考奖励矩阵确定目标奖励矩阵；将目标奖励矩阵添加到第一智能体的目标函数中，得到最终目标函数。采用本申请实施例在稀疏奖励的情况下，考虑团队整体利益的前提下，解决智能体之间奖励冲突的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于人工智能或者计算机，具体涉及一种稀疏奖励环境下的强化学习方法、电子设备及存储介质。

技术介绍

1、目前，多智能体强化学习(multi-agent reinforcement learning，marl)已经在许多领域和应用中展现出显著的影响和潜力，尤其是在涉及复杂决策和协作的挑战性任务中，智能体可以通过marl算法进行训练，协作完成复杂的任务。然而，在多智能体协作环境中，由于团队奖励的稀疏性，智能体通常表现出同质性，导致智能体产生奖励冲突，致使学习高质量的团队策略变得困难。这种奖励冲突可能会导致智能体采取自私的策略，以最大化其个体奖励，而忽略了团队整体的利益。具体的，当智能体面临奖励稀缺的情况时，个体会陷入恶性竞争以破产性行为获取自身奖励，从而，阻碍智能体形成有效的团队策略，另外，也容易导致智能体的策略网络陷入局部最优解。因此，如何在稀疏奖励的情况下，考虑团队整体利益的前提下，解决智能体之间奖励冲突的问题亟待解决。

技术实现思路

1、本申请提供了一种稀疏奖励环境下的强化学习方法、电子设备及存储介质，能够在稀疏奖励的情况下，考虑团队整体利益的前提下，解决智能体之间奖励冲突的问题。

2、第一方面，本申请提供了一种稀疏奖励环境下的强化学习方法，所述方法包括：

3、获取指定应用场景中的第一智能体，所述指定应用场景包括多个智能体，每一智能体对应所述指定应用场景中的一个位置，所述第一智能体为所述多个智能体中的任一智能体，所述指定应用场景包括以下任一种：交通信号

4、确定所述多个智能体中的每一智能体与所述第一智能体的影响程度，得到多个影响程度，根据所述多个影响程度生成所述第一智能体的影响矩阵；所述影响矩阵用于表征所述多个智能体中的每一智能体对所述第一智能体的影响程度以及所述第一智能体对所述多个智能体中的每一智能体的影响程度；

5、根据所述多个智能体中的每一智能体的位置与所述第一智能体的位置之间的位置关系生成所述第一智能体的距离矩阵，所述距离矩阵用于表征所述多个智能体中的每一智能体对所述第一智能体的影响的权重值以及所述第一智能体对所述多个智能体中的每一智能体的影响的权重值；

6、根据所述影响矩阵和所述距离矩阵确定所述第一智能体的奖励系数矩阵；

7、获取所述第一智能体的参考奖励矩阵；

8、根据所述奖励系数矩阵和所述参考奖励矩阵确定目标奖励矩阵；

9、将所述目标奖励矩阵添加到所述第一智能体的目标函数中，得到最终目标函数，以通过所述最终目标函数处理奖励信号并将价值判断转化为最佳策略。

10、第二方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面中的步骤的指令。

11、第三方面，本申请提供了一种计算机存储介质，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如本申请第一方面至第三方面中任一方面所描述的部分或全部步骤。

12、本申请实施例具有以下有益效果：

13、本申请实施例所描述的稀疏奖励环境下的强化学习方法、电子设备及存储介质，获取指定应用场景中的第一智能体，指定应用场景包括多个智能体，每一智能体对应指定应用场景中的一个位置，第一智能体为多个智能体中的任一智能体，指定应用场景包括以下任一种：交通信号控制场景、机器人控制场景、电子游戏场景，确定多个智能体中的每一智能体与第一智能体的影响程度，得到多个影响程度，根据多个影响程度生成第一智能体的影响矩阵；影响矩阵用于表征多个智能体中的每一智能体对第一智能体的影响程度以及第一智能体对多个智能体中的每一智能体的影响程度，根据多个智能体中的每一智能体的位置与第一智能体的位置之间的位置关系生成第一智能体的距离矩阵，距离矩阵用于表征多个智能体中的每一智能体对第一智能体的影响的权重值以及第一智能体对多个智能体中的每一智能体的影响的权重值，根据影响矩阵和距离矩阵确定第一智能体的奖励系数矩阵，获取第一智能体的参考奖励矩阵，根据奖励系数矩阵和参考奖励矩阵确定目标奖励矩阵，将目标奖励矩阵添加到第一智能体的目标函数中，得到最终目标函数，以通过最终目标函数处理奖励信号并将价值判断转化为最佳策略，其一，考虑每个个体的行为如何影响其他人的目标，当团队成员在制定策略时互相考虑其他成员的变化时，合作的机会会增加，这有助于实现团队的共同目标，同时，团队成员之间的合作也能够增进彼此的关系，从而促进团队更快地实现其目标，其二，能够保证智能体间影响与距离深度相关，其三，将影响矩阵和奖励矩阵的共同结果引入到目标函数中，通过最大化目标函数，借助其他智能体的奖励来提高智能体协作，如此，能够在稀疏奖励的情况下，考虑团队整体利益的前提下，解决智能体之间奖励冲突的问题。

本文档来自技高网...

【技术保护点】

1.一种稀疏奖励环境下的强化学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述多个智能体中的每一智能体与所述第一智能体的影响程度，得到多个影响程度，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一KL散度和所述第二KL散度确定所述第一智能体与所述第二智能体之间的影响程度，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述多个智能体中的每一智能体的位置与所述第一智能体的位置之间的位置关系生成所述第一智能体的距离矩阵，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定所述多个智能体中的每一智能体的位置与所述第一智能体的位置对应的度量结果，得到多个度量结果，包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述影响矩阵和所述距离矩阵确定所述第一智能体的奖励系数矩阵，包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述奖励系数矩阵和所述参考奖励矩阵确定目标奖励矩阵，包括：

8.根

9.一种电子设备，其特征在于，包括：处理器，存储器，以及一个或多个程序；所述一个或多个程序被存储在所述存储器中，并且被配置成由所述处理器执行，所述程序包括用于执行如权利要求1-8任一项所述的方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-8任一项所述的方法中的步骤的指令。

...

【技术特征摘要】

1.一种稀疏奖励环境下的强化学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述多个智能体中的每一智能体与所述第一智能体的影响程度，得到多个影响程度，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一kl散度和所述第二kl散度确定所述第一智能体与所述第二智能体之间的影响程度，包括：

6.根据权利要求1-3任一项所述的方法，其...

【专利技术属性】
技术研发人员：杨海辉，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人