当前位置: 首页 > 专利查询>河南大学专利>正文

一种基于多智能体协同优化的无人机资源调度方法技术

技术编号:33144266 阅读:38 留言:0更新日期:2022-04-22 13:55
本发明专利技术的目的是提供一种基于多智能体协同优化的无人机资源调度方法,优化多无人机系统的协同调度能力,首先以任务环境中智能体状态s

【技术实现步骤摘要】
一种基于多智能体协同优化的无人机资源调度方法


[0001]本专利技术属于无人机调度
,具体涉及一种基于多智能体协同优化的无 人机资源调度方法。

技术介绍

[0002]随着智能交通系统的迅速发展,道路固定式监测设备将逐渐跟不上交通监测 的需求,不仅存在监测盲区的问题,而且大量布置监测设备也会导致冗余问题。 由于无人机具有灵活和便携等优点,可装配监测设备在道路中进行大范围覆盖监 测,以辅助固定监测设备,然而在部署过程中,需满足连续覆盖和持续性服务, 由于机载能源的局限性,应考虑合理的充电调度。因此无人机资源调度问题便成 了重要的研究点,特别是针对道路交通环境下,考虑连续覆盖任务和资源调度问 题亟待解决。
[0003]目前针对覆盖任务下无人机持续服务的方法很多,从部署方式和任务区域两 方面出发,有不同的覆盖方式。根据部署方式可分为随机覆盖和确定性覆盖, 根据任务区域不同需求,分为点覆盖和区域覆盖。确定性覆盖和区域覆盖结合 的方式在考虑持续性服务的部署中应用较广,主要利用k

means算法,得到无 人机二维坐标和覆盖半本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体协同优化的无人机资源调度方法,其特征在于,包括以下步骤:S1:收集任务环境中智能体所获得的观测信息ob
t
,将其集合作为智能体状态信息s
t
;S2:由s
t
通过当前策略层Actor得到当前动作a
t
;S3:智能体执行a
t
得到奖励值r
t
同时获得下步状态信息s
t+1
,并通过目标策略层Actor

获得目标动作a
t+1
;S4:将S1到S3智能体与环境的交互中获得的当前状态s
t
,当前动作a
t
,执行a
t
所得到的奖励r
t
,下一步状态s
t+1
,和目标动作a
t+1
组成Transition{s
t
,a
t
,r
t
,s
t+1
,a
t+1
};S4.1:将Transition存入经验回放池Experience replay;S4.2:从Experience replay中分批采样,并通过当前评价层Critic和目标评价层Critic

分别得到对a
t
的评估值Q和a
t+1
的评估值Q';S5:根据Q和Q'的误差形成损失函数Loss functionL(θ
Q
)以更新Critic,从而训练Actor输出高评估值动作;S6:Transition不断向前更新,输入Actor和Critic中的参数、Q以及L(θ
Q
)随之更新,智能体获得训练过程中的最优策略;S7:以训练获得高评估值策略为前提,开始系统的执行部分,在同一任务环境不同初始状态下,利用此策略调度任务无人机。2.根据权利要求1所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S1中,ob
t
由任务无人机通过传感器采集的实时数据组成,ob
t
包括充电站位置S
e
、充电站状态Φ、目标区域位置T
p
、无人机剩余能量以及无人机位置其集合其中S
e
=(x
e
,y
e
),T
p
=(x
o
,y
o
),N为任务无人机数量。3.根据权利要求2所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S2中,s
t
通过Actor输出a
t
并执行,使调度过程满足任务交接时的连续覆盖和最小能耗E
λ
;基本动作空间a
t
由a组成,表示第a
i
架无人机在第t个时间间隙的飞行角度和距离,T表示时间间隔数量,其中M为N架无人机的集合,为无人机的初始能量。4.根据权利要求3所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S3中,智能体执行动作a
t
所得到的奖励值5.根据权利要求4所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S4.2中,Q=Q(s
t
,a
t
)=Ε[R
t
|s
t
,a
t
],由Critic中神经网络DNN获得,其中γ∈(0,1)表示折扣...

【专利技术属性】
技术研发人员:周毅程翔刘志祥李思石华光宁念文张西镚
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1