基于多智能体强化学习的无人机协同控制训练方法及系统技术方案

技术编号:31802626 阅读:78 留言:0更新日期:2022-01-08 11:03
本发明专利技术公开了一种基于多智能体强化学习的无人机协同控制训练方法和系统。所述方法包括:建立大规模无人机集群任务模型;根据任务模型建立马尔科夫博弈模型;构建MADDPG算法神经网络;调整神经网络的超参数,在通过MADDPG算法训练时,以一定的概率分别从探索环境经验和高质量经验中采集样本,以每个无人机的自身状态信息和环境信息作为神经网络的输入,以多无人机的速度作为输出,完成运动规划策略的训练,实现多无人机在复杂环境下自主避障并安全快速地到达目标位置。本发明专利技术的方法可提高策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略,在多无人机协同运动规划的场景中有很好的应用前景。好的应用前景。好的应用前景。

【技术实现步骤摘要】
基于多智能体强化学习的无人机协同控制训练方法及系统


[0001]本专利技术属于人工智能、无人机
,尤其涉及一种基于多智能体强化学习的无人机协同控制训练方法及系统。

技术介绍

[0002]近年来,自主集群无人作战成为智能化军事应用的探索趋势,每个无人平台可视为一个智能体,无人作战过程中存在多种不稳定因素,战场态势不断变化,使得对作战态势的动态响应各不相同。由于需要大量训练样本的监督学习训练模型的泛化性能较弱,而深度强化学习方法仅需对当前系统运行效果评价信息做出反应,因此,深度强化学习技术具有更高的实时性和鲁棒性,更适用于智能体博弈对抗行为建模。
[0003]无人集群系统的协同控制包含协调和合作两个方面。协调的目的是确保多无人平台在执行任务过程中不发生冲突,研究的是多无人平台之间的动作控制问题。合作的目的是组织多个无人平台共同完成任务,研究的是高层的组织和决策机制问题。无人集群协同控制涉及无人集群系统体系结构设计和无人集群分布式控制等内容。引入强化学习技术可让无人平台的自主分布式控制具有更强的适应性和灵活性,提高单个无人平台完成作战任务的能力,同时也可增强无人集群的协调协作,提高集群系统的整体性能。无人集群系统中,单个无人平台感知的环境信息是局部的,因此通过传统单智能体强化学习算法得到的策略不具有普适性。为了解决该问题,多智能体强化学习在单智能体强化学习的基础上增加了智能体数量,并通过引入分布式协同策略机制使每个智能体具有自主性、目的性和协调性,且具备学习、推理和自组织能力。

技术实现思路

[0004]本专利技术的目的是提供一种基于多智能体强化学习的无人机协同控制训练方法及系统,以解决大规模无人机在执行各种复杂任务和环境时协同决策,充分地学习到大规模无人机中各无人机在训练学习自身动作策略的同时,也学习到了其他智能体的策略,并提高了策略的鲁棒性,训练出适应性更强和灵活性更高的优秀策略,在多无人机协同控制的场景中有很好的应用前景。
[0005]为实现上述目的,本专利技术第一方面提出一种基于多智能体强化学习的无人机协同控制训练方法,包括:
[0006]步骤S1:建立大规模无人机集群的任务模型;
[0007]步骤S2:根据任务模型建立马尔科夫博弈模型;
[0008]步骤S3:构建MADDPG算法神经网络;
[0009]步骤S4:训练MADDPG算法神经网络;
[0010]步骤S5:将MADDPG算法神经网络加载到无人机群中,执行无人机集群协同控制,将所述神经网络输出的动作映射为对应的无人机的控制指令。
[0011]进一步的,所述步骤S1具体包括:
[0012](1)任务描述:描述无人机集群在场景中的协同任务,所述协同任务为无人机集群需要在一定时间内全部到达指定目的地,其中在一定范围内存在建筑群和障碍物;所述无人机集群中的所有无人机都是同构的,拥有相同的性能参数;
[0013](2)环境约束:
[0014]初始坐标约束:场景中无人机i在初始区域内随机产生,目标位置与障碍物位置在目标区域一定距离内随机出现;其无人机i在初始时刻到目标区域g的距离d
ig
满足:
[0015]d
i,g
≥d
init
[0016]其中,d
init
为成功完成任务的有效距离;
[0017]高度与边界约束:其飞行高度满足如下约束:
[0018]h
min
≤h≤h
max
[0019]其中,h
min
为最低飞行高度,h
max
为最大飞行高度;
[0020]速度与加速度约束:在三维空间中,无人机的速度和加速度需满足最大值约束:
[0021][0022][0023]最大偏航角约束:假设无人机航迹点i的坐标为(x
i
,y
i
,z
i
),则从点i

1到点i的航迹段的水平投影为α
i
=(x
i

x
i
‑1,y
i

y
i
‑1)
T
,那么最大偏航角φ约束为:
[0024][0025]障碍物约束:无人机与障碍物的距离l满足:
[0026]l≥R
saft
+l
min
+R
UAV

[0027]式中,R
saft
为规定的安全距离;l
min
为障碍物在无人机方向上的长度;R
UAV
为无人机半径。
[0028]进一步的,所述步骤S2具体包括:
[0029](1)采用五元组<N,S,A,P,R>表示马尔科夫博弈模型,其中:N={1,2,

,n},表示n个无人机的集合;S为联合状态,S=s1×
s2×…×
s
n
,表示所有无人机的状态的笛卡尔积,其中的S
i
代表着无人机i的状态;A为联合动作,A=a1×
a2×…×
a
n
,表示所有无人机的动作的笛卡尔积,其中的a
i
表示无人机i的动作;P:S
×
A
×
S

[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×
R2×…×
R
n
,其中的R
i
表示无人机i与环境交互获得的奖励值;
[0030](2)设定无人机的状态空间,在极坐标系下设置每个无人机的状态空间;将无人机i中心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:s
i
=(s,s
U
,s
E
),其中,s=(P
ix
,P
iy
,P
igx
,P
igy
)为无人机i和目标的位置信息,P
ix
,P
iy
为无人机i的位置信息,P
igx
,P
igy
为无人机i的目标的位置信息;S
U
=(P
jx
,P
jy
)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则S
E
=(0,0);
[0031](3)设定无人机的动作空间,对于无人机i,动作空间为a
i
=(ω
it
),ω
it
为t时刻无人机i的角速度值;
[0032](4)设定无人机的奖励函数;无人机i的奖本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的无人机协同控制训练方法,其特征在于,包括:步骤S1:建立大规模无人机集群的任务模型;步骤S2:根据任务模型建立马尔科夫博弈模型;步骤S3:构建MADDPG算法神经网络;步骤S4:训练MADDPG算法神经网络;步骤S5:将MADDPG算法神经网络加载到无人机群中,执行无人机集群协同控制,将所述神经网络输出的动作映射为对应的无人机的控制指令。2.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤S1具体包括:(1)任务描述:描述无人机集群在场景中的协同任务,所述协同任务为无人机集群需要在一定时间内全部到达指定目的地,其中在一定范围内存在建筑群和障碍物;所述无人机集群中的所有无人机都是同构的,拥有相同的性能参数;(2)环境约束:初始坐标约束:场景中无人机i在初始区域内随机产生,目标位置与障碍物位置在目标区域一定距离内随机出现;其无人机i在初始时刻到目标区域g的距离d
ig
满足:d
i,g
≥d
init
其中,d
init
为成功完成任务的有效距离;高度与边界约束:其飞行高度满足如下约束:h
min
≤h≤h
max
其中,h
min
为最低飞行高度,h
max
为最大飞行高度;速度与加速度约束:在三维空间中,无人机的速度和加速度需满足最大值约束:|v
x,y,z
|≤v
maxx,y,z
,|a
x,y,z
|≤a
maxx,y,z
;最大偏航角约束:假设无人机航迹点i的坐标为(x
i
,y
i
,z
i
),则从点i

1到点i的航迹段的水平投影为α
i
=(x
i

x
i
‑1,y
i

y
i
‑1)
T
,那么最大偏航角φ约束为:障碍物约束:无人机与障碍物的距离l满足:l≥R
saft
+l
min
+R
UAV
式中,R
saft
为规定的安全距离;l
min
为障碍物在无人机方向上的长度;R
UAV
为无人机半径。3.如权利要求1所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤S2具体包括:(1)采用五元组<N,S,A,P,R>表示马尔科夫博弈模型,其中:N={1,2,...,n},表示n个无人机的集合;S为联合状态,S=s1×
s2×
...
×
s
n
,表示所有无人机的状态的笛卡尔积,其中的S
i
代表着无人机i的状态;A为联合动作,A=a1×
a2×
...
×
a
n
,表示所有无人机的动作的笛卡尔积,其中的a
i
表示无人机i的动作;P:S
×
A
×
S

[0,1]为状态转移模型,表示所有的无人机在当前状态采取联合动作到达下一状态的概率值;R为联合奖励,即所有无人机奖励函数的笛卡尔积,R=R1×
R2×
...
×
R
n
,其中的R
i
表示无人机i与环境交互获得的奖励值;(2)设定无人机的状态空间,在极坐标系下设置每个无人机的状态空间;将无人机i中
心作为原点,无人机i到自身目标的方向看作正方向建立极坐标系,则无人机i的状态表示为:s
i
=(s,s
U
,s
E
),其中,s=(P
ix
,P
iy
,P
igx
,P
igy
)为无人机i和目标的位置信息,P
ix
,P
iy
为无人机i的位置信息,P
igx
,P
igy
为无人机i的目标的位置信息;S
U
=(P
jx
,P
jy
)表示在无人机i的通讯范围内距离无人机i最近的障碍物的位置信息,如果通讯范围内无其他障碍物,则S
E
=(0,0);(3)设定无人机的动作空间,对于无人机i,动作空间为a
i
=(ω
it
),ω
it
为t时刻无人机i的角速度值;(4)设定无人机的奖励函数。4.如权利要求3所述的基于多智能体强化学习的无人机协同控制训练方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:洪万福王旺
申请(专利权)人:厦门渊亭信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1