一种面向异构多智能体的多任务策略博弈方法技术

技术编号：40433146 阅读：8 留言：0更新日期：2024-02-22 22:58

本发明专利技术涉及一种面向异构多智能体的多任务策略博弈方法，包括：步骤S1：确定智能体系统中的所有任务集合；步骤S2：针对异构多智能体构建动力学模型；步骤S3：针对全局地图、其他单位的影响程度进行环境建模；步骤S4：针对异构多智能体的通讯结构，设计事件触发机制，在满足触发条件时进行通信；步骤S5：进行基于MADDPG的强化学习模型训练以得到所需策略。与现有技术相比，本发明专利技术能够充分考虑多个智能体的异构性，使得每个智能体都能够根据自身的特点选择最优策略；本方法能够在任务合作与竞争场景中实现高效的任务分配和决策，提高整个智能体系统的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体领域，尤其涉及一种面向异构多智能体的多任务策略博弈方法。

技术介绍

1、近年来，多智能体由于其广泛的应用领域而受到广泛的关注,包括工业、交通、农业、天文学等。相比于单独的系统，多智能体可以应用于更加复杂的场景。

2、在现实世界中，多个智能体之间的任务合作与竞争已经成为一个重要的研究领域。然而，由于智能体间具有不同的特点、能力和目标，如何在这种异构多智能体环境下实现高效的任务分配和决策仍然是一个挑战。

3、与此同时，在当今的复杂环境中，多智能体系统通常需要同时处理多种任务。然而，由于多个智能体之间的异构性，以及任务目标的差异，设计适应各种任务要求的策略成为一个挑战。传统的协同策略存在困难，无法有效地解决多个任务之间的冲突和竞争关系。

技术实现思路

1、为了克服上述现有技术存在的缺陷，本专利技术提供一种面向异构多智能体的多任务策略博弈方法，能够在任务合作与竞争场景中实现高效的任务分配和决策，提高整个智能体系统的性能。

2、实现本专利技术目的的技术解决方案为：

3、一种面向异构多智能体的多任务策略博弈方法，包括如下步骤：

4、步骤s1：确定智能体系统中的所有任务集合；

5、步骤s2：针对异构多智能体构建动力学模型；

6、步骤s3：针对全局地图、其他单位的影响程度进行环境建模；

7、步骤s4：构建异构多智能体的通信拓扑结构，设计事件触发条件，在满足触发条件时进行通信；>

8、步骤s5：基于任务集合确定强化学习过程的任务空间，将动力学模型和事件触发条件作为强化学习的约束条件，基于建立的环境模型，进行maddpg的强化学习模型训练以得到所需策略，在训练过程中，基于设计的事件触发条件进行智能体之间的信息通信。

9、进一步地，所述智能体包括但不限于机器人、无人机、无人车和/或无人船；所属任务集合适用场景为只知道目标的位置，具体任务包含但不限于集结、编队前进、返回、集结、协同搜索和协同定位。

10、进一步地，所述步骤s4中进行通信具体为：在领导者满足事件触发条件的瞬间领航智能体将其当前的状态信息发送给关注领航智能体信息的跟随智能体；当跟随智能体的事件触发条件满足时，对应的跟随智能体更新自己的控制器，并向其外邻居发送状态信息。

11、进一步地，所述maddpg的强化学习模型采用集中式训练、分布式执行的框架，包括策略网络和价值网络，策略网络采用演员-评论家机制，其输入为智能体的状态，输出策略动作，智能体与建立的环境进行交互，价值网络根据环境变化计算回报，并将回报以及智能体的状态更新重新输入到策略网络中进行参数迭代；价值网络通过状态-动作值函数估计当前状态下执行某个动作的价值，并将其反馈给策略网络。

12、所述策略网络包括两个隐藏层和一个输出层，价值网络包括三层隐藏层和一层输出层，所有隐藏层均采用relu函数作为激活函数；

13、所述maddpg的强化学习模型的状态包括自身的状态、其他智能体的状态以及环境状态，动作空间为一个三维的连续空间，策略动作是每一时刻智能体的瞬时速度，根据当前时刻的状态输入，输出一个经过选择的确定速度之后进行位置的更新。

14、与现有技术相比，本专利技术具有如下优点：

15、1.本专利技术的方法通过博弈模型引入智能体之间的博弈机制，在冲突处理方面提供了更多的选择和灵活性；博弈能够推动智能体之间的协作，并促使其通过信息交流和共享来达到更好的整体效果；

16、2.本专利技术提出了一种分布式自适应事件触发机制，能够在通信带宽受限和非确定干扰环境使用，提高了多智能体系统的鲁棒性，拓宽了应用范围；

17、3.本专利技术从网络结构、状态空间、动作空间和奖励函数设计了maddpg算法的模型结构，解决了多智能体任务决策方法研究中传统决策算法难以在短时间内得到期望结果的问题，另外克服了利用专家库的方法所需要的先验知识、专家策略过多的问题，可以更好地适应不同的应用场景。

本文档来自技高网...

【技术保护点】

1.一种面向异构多智能体的多任务策略博弈方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述智能体包括但不限于机器人、无人机、无人车和/或无人船；所属任务集合适用场景为只知道目标的位置，具体任务包含但不限于集结、编队前进、返回、集结、协同搜索和协同定位。

3.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述步骤S2中动力学方程为：

4.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述步骤S3中进行环境建模时，将环境因素理想化，忽略来自环境对智能体的影响，考虑其他单位的影响和探测器搜索的影响。

5.根据权利要求4所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，对于探测器搜索的影响，建立模型为：

6.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述步骤S4中的通信拓扑结构为：将N个智能体之间的拓扑通信用有向图G＝(V，E)表示，其中V＝{1，...，N}为节点的

7.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述步骤S4中的事件触发条件为：

8.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述步骤S4中进行通信具体为：在领导者满足事件触发条件的瞬间领航智能体将其当前的状态信息发送给关注领航智能体信息的跟随智能体；当跟随智能体的事件触发条件满足时，对应的跟随智能体更新自己的控制器，并向其外邻居发送状态信息。

9.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述MADDPG的强化学习模型采用集中式训练、分布式执行的框架，包括策略网络和价值网络，策略网络采用演员-评论家机制，其输入为智能体的状态，输出策略动作，智能体与建立的环境进行交互，价值网络根据环境变化计算回报，并将回报以及智能体的状态更新重新输入到策略网络中进行参数迭代；价值网络通过状态-动作值函数估计当前状态下执行某个动作的价值，并将其反馈给策略网络。

10.根据权利要求9所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述所述状态-动作值函数为：

...

【技术特征摘要】

1.一种面向异构多智能体的多任务策略博弈方法，其特征在于，包括如下步骤：

3.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述步骤s2中动力学方程为：

4.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述步骤s3中进行环境建模时，将环境因素理想化，忽略来自环境对智能体的影响，考虑其他单位的影响和探测器搜索的影响。

5.根据权利要求4所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，对于探测器搜索的影响，建立模型为：

6.根据权利要求1所述的一种面向异构多智能体的多任务策略博弈方法，其特征在于，所述步骤s4中的通信拓扑结构为：将n个智能体之间的拓扑通信用有向图g＝(v，e)表示，其中v＝{1，...，n}为节点的集合，其中1，...，n表示智能体的编号，i＝1为领航智能体，i＝2，...，n为跟随智能体；为边的集合，边用有序的互异节点对表示，如果(i，j)∈e，节点i称为节点j的邻居，节点j称为节点i的外邻居，对于有...

【专利技术属性】
技术研发人员：刘珂，钱剑勇，朱开元，牛春阳，黄聪聪，祁凌云，黄泽宇，
申请(专利权)人：杭州智元研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人