一种基于深度强化学习的多无人机任务规划方法技术

技术编号:29792287 阅读:26 留言:0更新日期:2021-08-24 18:11
本发明专利技术公开了一种基于深度强化学习的多无人机任务规划方法。首先,根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型;然后,在建立的任务模型基础上,设计基于QMIX的任务规划算法。本发明专利技术设计了多智能体强化学习算法与协作任务奖赏函数,使得多无人机在集中训练后,执行任务时可以在分布式框架下根据不同的环境状态与自身观测做出协作完成任务的动作,使任务完成时间减少,最大化任务收益。

【技术实现步骤摘要】
一种基于深度强化学习的多无人机任务规划方法
本专利技术属于无人机
,特别涉及了一种多无人机任务规划方法。
技术介绍
由于大规模电网的空间距离较远,人工巡检效率低下,因此很多电力企业开始使用无人机对电力系统进行巡检。无人机凭借其成本低,灵活性高,操控性强等特点,在电力巡检任务中发挥了重要的作用。在应对大范围电力系统巡检任务时,由于电塔与电力设施数量较多,结构复杂,设施之间距离较远,会采用多无人机同时进行巡检。多架无人机协作可以为重要电力设施带来多角度、全方位的观测信息,也可以分别对不同的电力设施进行巡视,提高巡检任务的效率。因而针对多无人机、多目标的任务场景,无人机的任务规划是研究的重点。目前,多无人机任务规划的方法可分为传统方法和人工智能方法。传统方法是在已有的任务模型基础上,将任务规划转化为一个多目标优化问题,进而利用智能优化算法或随机优化算法,如蚁群算法,遗传算法,启发式算法等对其进行在线的求解计算。在面对多无人机多目标的优化问题时,往往需要耗费较大的算力与时间,满足不了对任务动态实时分配的要求。随着深度学习的发展,神经网络为本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的多无人机任务规划方法,其特征在于,包括以下步骤:/n(1)根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型;任务场景为多个无人机从起点出发,在最短的时间内对多个电力设施进行抵近侦察;所述分布式部分马尔科夫决策过程模型包含元组G=<S,U,P,r,O>,其中S表示环境状态,O表示观测状态,U表示无人机动作,P表示状态转移函数,r表示即时奖励,具体如下:/n环境状态S:设定每一时刻的环境总体状态为s

【技术特征摘要】
1.一种基于深度强化学习的多无人机任务规划方法,其特征在于,包括以下步骤:
(1)根据任务需求,建立多无人机多目标场景下的分布式部分马尔科夫决策过程模型;任务场景为多个无人机从起点出发,在最短的时间内对多个电力设施进行抵近侦察;所述分布式部分马尔科夫决策过程模型包含元组G=<S,U,P,r,O>,其中S表示环境状态,O表示观测状态,U表示无人机动作,P表示状态转移函数,r表示即时奖励,具体如下:
环境状态S:设定每一时刻的环境总体状态为st=(ynt,loct),其中ynt为任务区域中全部电力设施的巡检情况,ynt=(ynt,1,ynt,2,...,ynt,N),ynt,i∈{0,1},0表示未巡检或正在巡检,1表示巡检完毕,loct表示多无人机自身位置信息,loct=(loct,1,loct,2,...,loct,M),其中N表示目标电力设施个数,M表示无人机个数;
观测状态O:设定每个无人机的观测量为ot,j=(dynt,j,loct,j),其中dynt,j表示某无人机在t时刻自身距离X范围内的所有电力设施的当前巡检状态,loct,j为每个无人机自身当前时刻的位置状态;
无人机动作U:将单个无人机巡检的动作过程集合成一个抽象动作,将向电力设施飞行,对设施进行抵近巡视、信息采集集合为动作ut,TG,将多个无人机的动作集合为一个联合动作ut,作用于环境并引起状态转移,每一个动作的结束条件为完成抵近巡视、目标信息采集两个步骤,完成当前动作后进行下一步动作决策;
状态转移函数P:将多无人机看作多智能体,在任务过程中,每个无人机将从当前环境总体状态st中获取自身的状态观测ot,j,按照自身内部策略πt,j得到输出动作ut,j,多个智能体的动作结合形成联合动作ut,环境将根据状态转换函数P(st+1|st,ut)做出对应的环境状态转移,得到下一时刻状态st+1,并且以此循环往复,直至任务结束;
即时奖励r:t时刻的即时奖励rt包括探索奖惩、协作奖惩和路程奖惩,即时奖励为三种奖励之和;
(2)在步骤(1)建立的任务模型基础上,设计基于QMIX的任务规划算法;为每个智能体建立一个DRQN网络,该DRQN网络包括输入全连接层、门控循环网络层和输出全连接层构成;DRQN网络的输出是该智能体每个动作的概率,然后通过ε-greedy算法来选择动作,以ε的概率进行随机选择,以1-ε的概率使用贪心算法选择最大Q值的动作,将多无人机组成的联合动作ut与环境进行交互,并将经验存于经验池D=<st,ut,rt,st+1>中;将每个智能体的DRQN网络输出的送入Mixing网络,该Mixing网络将部分动作值函数混合为联合动作值函数,它代表每个智能体的独立值函数之和,根据联合动作值函数建立损失函数,通过最小化损失函数对DRQN网络进行训练。


2.根据权利要求1所述基于深度强化学习的多无人机任务规划方法,其特征在于,用TG={TG1,TG2,…TGN}表示目标电力设施,无人机群表示为Drone={Drone1,Drone2,…DroneM},N表示目标电力设施个数,M表示无人机个数...

【专利技术属性】
技术研发人员:马瑞欧阳权吴兆香
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1