基于去中心化优先级的通信协作多智能体路径规划方法技术

技术编号:39032262 阅读:16 留言:0更新日期:2023-10-10 11:45
一种基于去中心化优先级的通信协作多智能体路径规划方法,在离线阶段构建并随机初始化所有智能体共享的多智能体决策网络,利用自组织路由协议算法对所有智能体进行通信分组,形成局部通信群组并训练多智能体决策网络;在在线阶段,基于训练后的多智能体决策网络,自动引导车集群将在完成路径规划任务中动态地进行分组通信,将系统总体的路径规划任务分解为若干局部路径规划任务的加总,实现避让决策和路径规划。本发明专利技术通过从专家策略中学习优先级信息,学习整体最优的优先级分配,并以此优先级信息为指导构建动态的去中心化拓扑通信架构,获得更具协作能力的去中心化路径规划策略,能够将多智能体强化学习技术扩展到大规模多智能体路径规划任务的、提高规划性能、减少碰撞率。碰撞率。碰撞率。

【技术实现步骤摘要】
基于去中心化优先级的通信协作多智能体路径规划方法


[0001]本专利技术涉及的是一种多智能体路径规划领域的技术,具体是一种基于去中心化优先级的通信协作多智能体路径规划方法。

技术介绍

[0002]现有智能体路径规划技术根据给定的优先级从高到低顺序进行路径规划,优先级高的智能体规划路径时不用考虑与其他低优先级智能体的碰撞问题,而优先级低的智能体要避免与高优先级的智能体发生碰撞。具体而言地,优先级可以人为设置或随机分配,但目前去中心化的框架下的启发式优先级计算方式难以兼顾优先级设置的全局最优性和优先级的动态变化。现有基于蚁群算法的多智能体强化学习路径规划方法虽然结合了多智能体深度强化学习方法和蚁群算法的思想以解决多智能体的路径规划问题,但这类技术在面临智能体数量动态变化的场景时难以保证规划结果稳定,要求每个智能体都需要观测到全局的地图也限制了该类技术在问题规模扩大的场景下的应用。

技术实现思路

[0003]本专利技术针对现有技术在去中心化设置下优先级计算方式的不足,提出一种基于去中心化优先级的通信协作多智能体路径规划方法,通过从专家策略中学习优先级信息,学习整体最优的优先级分配,并以此优先级信息为指导构建动态的去中心化拓扑通信架构,获得更具协作能力的去中心化路径规划策略,以适应不同智能体数量的多智能体环境,能够将多智能体强化学习技术扩展到大规模多智能体路径规划任务的、提高规划性能、减少碰撞率。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种基于优先级通信的多智能体路径规划方法,在离线阶段构建并随机初始化所有智能体共享的多智能体决策网络,利用自组织路由协议算法对所有智能体进行通信分组,形成局部通信群组并训练多智能体决策网络;在在线阶段,基于训练后的多智能体决策网络,自动引导车集群将在完成路径规划任务中动态地进行分组通信,将系统总体的路径规划任务分解为若干局部路径规划任务的加总,实现避让决策和路径规划。
[0006]所述的多智能体决策网络包括:用于接收空间特征输入的多层卷积神经网络、用于接收非空间特征输入的全连接神经网络以及用于融合多层卷积神经网络和全连接神经网络输出的由多层全连接神经网络层和LSTM组成的基于通信消息辅助决策的深度神经网络。技术效果
[0007]本专利技术根据全局最优规划结果,通过模仿学习和自组织路由协议,构建去中心化视角下的动态优先级拓扑结构,并在通信过程中引入上述学习得到的优先级信息。相比现有技术,能够在去中心化的多智能体路径规划框架下,通过学习得到的优先级信息提升通信协作的能力,从而显著降低不同智能体之间的碰撞率并提升总体的规划性能。
附图说明
[0008]图1为本专利技术系统结构示意图;
[0009]图2为本专利技术的路径规划决策网络整体架构图;
[0010]图3为本专利技术实施方式中的局部观测示意图;
[0011]图4为本专利技术实施方式中的动作空间示意图;
[0012]图5为本专利技术实施方式中的最优动作集合选择策略示意图。
具体实施方式
[0013]如图1所示,为本实施例涉及的一种多智能体路径规划系统,包括:隐式优先级学习模块以及优先级通信模块,其中:隐式优先级学习模块根据当前智能体的局部观测信息作为输入,经过神经网络推理输出关联当前局部观测信息的隐式优先级得到去中心化视野下具有协作避让指导意义的结果;优先级通信模块根据智能体输出的隐式优先级,动态更新通信拓扑结构,经过决策单元根据当前观测以及接收到的通信消息计算得到下一时刻的移动决策结果。
[0014]所述的隐式优先级学习模块包括:局部观测编码单元和隐式优先级输出单元,其中:局部观测编码单元根据当前智能体的局部观测信息,进行编码处理得到对当前周边信息的编码;隐式优先级输出单元根据当前周边信息的编码,经过神经网络推理得到隐式优先级的输出。
[0015]所述的优先级通信模块包括:局部观测编码单元、通信单元以及决策单元,其中:局部观测编码单元根据当前智能体的局部观测信息,进行编码处理得到对当前周边信息的编码;通信单元根据局部观测范围内的通信群组信息,进行聚集处理得到融合所有周边通信信息的消息编码;决策单元根据局部观测编码信息和消息编码,进行融合处理并经过神经网络推理得到当前智能体的下一时刻的移动决策结果。
[0016]本实施例涉及一种基于上述系统的基于优先级通信的多智能体路径规划方法,结合隐式优先级学习与优先级通信学习,通过对多智能体强化学习进行优化,实现无人仓储系统中自动导引车集群的多智能体优化路径规划,具体包括:
[0017]步骤一:构建如图2所示的所有智能体共享的路径规划决策网络,并进行神经网络参数初始化,包括:每个智能体的决策网络参数、智能体数量N,全局共享的决策网络参数θ、经验回放池、隐式优先级学习概率p
im
∈(0,1)以及通信半径d>0。
[0018]步骤二:每个环境周期,采样隐式优先级学习概率p~U(0,1),并初始化通信拓扑结构中的低层次和高层次智能体集合,其中低层次智能体集合初始化为而高层次智能体集合初始化为
[0019]步骤三:当采样的隐式优先级学习概率p<p
im
时进入步骤四,否则进入步骤七。
[0020]步骤四:采用专家规划器作为专家策略所有智能体输出专家规划结果。
[0021]所述的专家规划器是指:基于全局信息的路径规划工具,其采用但不限于ODrM*。
[0022]所述的专家规划结果是指:专家规划器输出的所有智能体的规划路径,即一次性输出所有智能体各自的最优路径且智能体沿该最优路径移动时不发生碰撞。
[0023]步骤五:根据贪心策略构造隐式优先级学习的批量样本和模仿学习的批量样本,
具体操作包括:
[0024]5.1对于每个智能体,获取其每次移动前的局部观测信息,具体为多元组<视野内静态障碍物位置、视野内其他智能体位置、视野内其他智能体的目标点位置或其投影到视野边界上的位置、当前智能体视野范围内的目标点位置、当前智能体目的地的方向和距离表征>作为其隐式优先级学习和模仿学习的输入。
[0025]5.2对于每个智能体,根据专家规划器输出的专家规划结果获取其每次移动的专家策略输出动作{上、下、左、右、静止}作为模仿的标签信息。
[0026]5.3对于每个智能体,根据其目的地位置确定其如图5所示的最优动作集合,并通过判断专家策略输出动作是否存在于最优动作集合之中的方式提取智能体的隐式优先级信息p
m
,并将其作为监督学习所用的数据D
imp

[0027]步骤六:以二分类交叉熵损失和多分类交叉熵损失的加权求和为优化目标更新全局共享的决策网络参数θ,跳到步骤十七。
[0028]所述的更新是指:通过采用随机梯度下降算法最小化如下损失函数来更新全局共享的决策网络参数θ:其中:为隐式优先级学习中隐式优先级的交叉熵损失,α
imp...

【技术保护点】

【技术特征摘要】
1.一种基于优先级通信的多智能体路径规划方法,其特征在于,在离线阶段构建并随机初始化所有智能体共享的多智能体决策网络,利用自组织路由协议算法对所有智能体进行通信分组,形成局部通信群组并训练多智能体决策网络;在在线阶段,基于训练后的多智能体决策网络,自动引导车集群将在完成路径规划任务中动态地进行分组通信,将系统总体的路径规划任务分解为若干局部路径规划任务的加总,实现避让决策和路径规划。2.根据权利要求1所述的基于优先级通信的多智能体路径规划方法,其特征是,具体包括:步骤一:构建所有智能体共享的路径规划决策网络,并进行神经网络参数初始化,包括:每个智能体的决策网络参数、智能体数量N,全局共享的决策网络参数θ、经验回放池、隐式优先级学习概率p
im
∈(0,1)以及通信半径d>0;步骤二:每个环境周期,采样隐式优先级学习概率p~U(0,1),并初始化通信拓扑结构中的低层次和高层次智能体集合,其中低层次智能体集合初始化为而高层次智能体集合初始化为步骤三:当采样的隐式优先级学习概率p<p
im
时进入步骤四,否则进入步骤七;步骤四:采用专家规划器作为专家策略所有智能体输出专家规划结果;所述的专家规划结果是指:专家规划器输出的所有智能体的规划路径,即一次性输出所有智能体各自的最优路径且智能体沿该最优路径移动时不发生碰撞;步骤五:根据贪心策略构造隐式优先级学习的批量样本和模仿学习的批量样本,具体操作包括:步骤六:以二分类交叉熵损失和多分类交叉熵损失的加权求和为优化目标更新全局共享的决策网络参数θ,跳到步骤十七;步骤七:重置多智能体环境每个智能体得到的初始观测o
i
;步骤八:根据当前观测作为隐式优先级学习模块的输入,输出为每个智能体的隐式优先级;步骤九:根据每个智能体的隐式优先级以及当前的通信低层次智能体集合和高层次智能体集合通过自组织路由协议算法更新通信拓扑结构;步骤十:基于更新后的通信拓扑结构进行通信;步骤十一:通信拓扑结构中的高层次智能体将通信群组内接受到的消息进行整合并广播给所有其他群组内智能体;步骤十二:每一个智能体根据当前观察以及通信消息,执行策略输出的动作从而得到环境反馈的即时回报,并得到下一个观察o

i
;步骤十三:将步骤七到步骤十二收集到的多元组数据<当前观测o
i
、接收到的通信消息、策略输出的动作、执行动作后得到的回报、更新状态后的下一个观察o

i
>存入经验回放缓存中;步骤十四:每一个智能体从经验回放缓存中采样上述的多元组数据作为训练数据;步骤十五:根据最小化预测值和折扣回报之间的贝尔曼误差为优化目标更新决策网络参数,并将梯度信息同步给全局共享的决策网络参数θ;
步骤十六:重复步骤八到步骤十五直到所有智能体均达到目的地或到达最大时间步数;步骤十七:重复步骤二到步骤十六直到训练经历的环境周期数量超过预设次数;所述的经验回放缓存用于在整个多智能体强化学习算法的训练过程中,为了训练强化神经网络,将每个智能体在环境中收集到的数据保存下来作为训练数据来进行监督学习。3.根据权利要求1或2所述的基于优先级通信的多智能体路径规划方法,其特征是,所述的多智能体决策网络包括:用于接收空间特征输入的多层卷积神经网络、用于接收非空间...

【专利技术属性】
技术研发人员:王祥丰李文浩陈宏俊刘大猷金博朱骏
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1