基于去中心化优先级的通信协作多智能体路径规划方法技术

技术编号：39032262 阅读：16 留言：0更新日期：2023-10-10 11:45

一种基于去中心化优先级的通信协作多智能体路径规划方法，在离线阶段构建并随机初始化所有智能体共享的多智能体决策网络，利用自组织路由协议算法对所有智能体进行通信分组，形成局部通信群组并训练多智能体决策网络；在在线阶段，基于训练后的多智能体决策网络，自动引导车集群将在完成路径规划任务中动态地进行分组通信，将系统总体的路径规划任务分解为若干局部路径规划任务的加总，实现避让决策和路径规划。本发明专利技术通过从专家策略中学习优先级信息，学习整体最优的优先级分配，并以此优先级信息为指导构建动态的去中心化拓扑通信架构，获得更具协作能力的去中心化路径规划策略，能够将多智能体强化学习技术扩展到大规模多智能体路径规划任务的、提高规划性能、减少碰撞率。碰撞率。碰撞率。

全部详细技术资料下载

【技术实现步骤摘要】
基于去中心化优先级的通信协作多智能体路径规划方法

[0001]本专利技术涉及的是一种多智能体路径规划领域的技术，具体是一种基于去中心化优先级的通信协作多智能体路径规划方法。

技术介绍

[0002]现有智能体路径规划技术根据给定的优先级从高到低顺序进行路径规划，优先级高的智能体规划路径时不用考虑与其他低优先级智能体的碰撞问题，而优先级低的智能体要避免与高优先级的智能体发生碰撞。具体而言地，优先级可以人为设置或随机分配，但目前去中心化的框架下的启发式优先级计算方式难以兼顾优先级设置的全局最优性和优先级的动态变化。现有基于蚁群算法的多智能体强化学习路径规划方法虽然结合了多智能体深度强化学习方法和蚁群算法的思想以解决多智能体的路径规划问题，但这类技术在面临智能体数量动态变化的场景时难以保证规划结果稳定，要求每个智能体都需要观测到全局的地图也限制了该类技术在问题规模扩大的场景下的应用。

技术实现思路

[0003]本专利技术针对现有技术在去中心化设置下优先级计算方式的不足，提出一种基于去中心化优先级的通信协作多智能体路径规划方法，通过从专家策略中学习优先级信息，学习整体最优的优先级分配，并以此优先级信息为指导构建动态的去中心化拓扑通信架构，获得更具协作能力的去中心化路径规划策略，以适应不同智能体数量的多智能体环境，能够将多智能体强化学习技术扩展到大规模多智能体路径规划任务的、提高规划性能、减少碰撞率。
[0004]本专利技术是通过以下技术方案实现的：
[0005]本专利技术涉及一种基于优先级通信的

【技术保护点】

【技术特征摘要】
1.一种基于优先级通信的多智能体路径规划方法，其特征在于，在离线阶段构建并随机初始化所有智能体共享的多智能体决策网络，利用自组织路由协议算法对所有智能体进行通信分组，形成局部通信群组并训练多智能体决策网络；在在线阶段，基于训练后的多智能体决策网络，自动引导车集群将在完成路径规划任务中动态地进行分组通信，将系统总体的路径规划任务分解为若干局部路径规划任务的加总，实现避让决策和路径规划。2.根据权利要求1所述的基于优先级通信的多智能体路径规划方法，其特征是，具体包括：步骤一：构建所有智能体共享的路径规划决策网络，并进行神经网络参数初始化，包括：每个智能体的决策网络参数、智能体数量N，全局共享的决策网络参数θ、经验回放池、隐式优先级学习概率p
im
∈(0，1)以及通信半径d＞0；步骤二：每个环境周期，采样隐式优先级学习概率p～U(0，1)，并初始化通信拓扑结构中的低层次和高层次智能体集合，其中低层次智能体集合初始化为而高层次智能体集合初始化为步骤三：当采样的隐式优先级学习概率p＜p
im
时进入步骤四，否则进入步骤七；步骤四：采用专家规划器作为专家策略所有智能体输出专家规划结果；所述的专家规划结果是指：专家规划器输出的所有智能体的规划路径，即一次性输出所有智能体各自的最优路径且智能体沿该最优路径移动时不发生碰撞；步骤五：根据贪心策略构造隐式优先级学习的批量样本和模仿学习的批量样本，具体操作包括：步骤六：以二分类交叉熵损失和多分类交叉熵损失的加权求和为优化目标更新全局共享的决策网络参数θ，跳到步骤十七；步骤七：重置多智能体环境每个智能体得到的初始观测o
i
；步骤八：根据当前观测作为隐式优先级学习模块的输入，输出为每个智能体的隐式优先级；步骤九：根据每个智能体的隐式优先级以及当前的通信低层次智能体集合和高层次智能体集合通过自组织路由协议算法更新通信拓扑结构；步骤十：基于更新后的通信拓扑结构进行通信；步骤十一：通信拓扑结构中的高层次智能体将通信群组内接受到的消息进行整合并广播给所有其他群组内智能体；步骤十二：每一个智能体根据当前观察以及通信消息，执行策略输出的动作从而得到环境反馈的即时回报，并得到下一个观察o
′
i
；步骤十三：将步骤七到步骤十二收集到的多元组数据<当前观测o
i
、接收到的通信消息、策略输出的动作、执行动作后得到的回报、更新状态后的下一个观察o
′
i
>存入经验回放缓存中；步骤十四：每一个智能体从经验回放缓存中采样上述的多元组数据作为训练数据；步骤十五：根据最小化预测值和折扣回报之间的贝尔曼误差为优化目标更新决策网络参数，并将梯度信息同步给全局共享的决策网络参数θ；
步骤十六：重复步骤八到步骤十五直到所有智能体均达到目的地或到达最大时间步数；步骤十七：重复步骤二到步骤十六直到训练经历的环境周期数量超过预设次数；所述的经验回放缓存用于在整个多智能体强化学习算法的训练过程中，为了训练强化神经网络，将每个智能体在环境中收集到的数据保存下来作为训练数据来进行监督学习。3.根据权利要求1或2所述的基于优先级通信的多智能体路径规划方法，其特征是，所述的多智能体决策网络包括：用于接收空间特征输入的多层卷积神经网络、用于接收非空间...

【专利技术属性】
技术研发人员：王祥丰，李文浩，陈宏俊，刘大猷，金博，朱骏，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人