当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于深度强化学习的多无人机协同追踪方法技术

技术编号:37603352 阅读:6 留言:0更新日期:2023-05-18 11:54
本发明专利技术公开了一种基于深度强化学习的多无人机协同追踪方法,属于多智能体控制领域。该方法首先在无人机对战仿真平台上对多无人机作战系统进行建模;随后,设置多无人机协同作战的固定规则动作以及多无人机的初始位置和追踪条件;接着,设置无人机智能体强化学习的状态、动作和奖励函数;最后,在面对不同对手的情况下,使用QMIX算法对无人机智能体进行训练,并根据训练效果调整超参数,实现无人机协同追踪的目的。同追踪的目的。同追踪的目的。

【技术实现步骤摘要】
一种基于深度强化学习的多无人机协同追踪方法


[0001]本专利技术涉及一种基于深度强化学习的多无人机协同追踪方法,该方法通过控制方法和强化学习的结合,实现多无人机的协同追踪,属于多智能体控制领域。

技术介绍

[0002]无人机由于具有重量轻、尺寸小、机动性高、隐蔽性好、适应能力强、可操作性好等特点,在民用和军用领域受到广泛关注。近几年,无人机在情报侦察、目标搜索和跟踪以及目标攻击等各种任务中占据关键位置,取得了相当好的战果。
[0003]但是,随着无人机所面临的战场环境变得越来越复杂,在复杂多变的信息化战场环境下,单个无人机执行侦察或攻击等任务时面临侦察角度和范围、杀伤半径和摧毁能力等诸多方面的限制,制约了作战效能的发挥,单个无人机完成任务的难度也变得越来越大。
[0004]而由于多无人机系统既能形成协调有序的集体运动模式,又能快速、一致地应对外界刺激,具有自组织性强、协调性高、稳定性强等优点,且对环境具有较强的适应能力。因此,越来越多的人们开始了对多无人机的协同作战的研究。
[0005]然而多无人机的协同作战问题较为复杂,仅仅依靠设计者的经验和知识,很难获得多无人机在复杂环境下的良好适应性。因此,强化学习算法作为实现多无人机复杂环境下良好适应性的一条可行技术路线,已经成为当前多无人机协同作战领域的一个研究热点。
[0006]在多智能体深度强化学习领域中完全合作环境MARL中常见的方法有COMA算法、VDN算法、QMIX算法等等。在QMIX算法的基础上,通过设置合适的规则并根据规则设置恰当的奖励,实现多无人机协同追踪的策略,具有一定的应用前景与意义。

技术实现思路

[0007]技术问题:
[0008]基于深度强化学习的多无人机协同作战策略主要研究多无人机在复杂环境下通过强化学习的训练不断完善自身与系统的策略,并通过一定的策略进行协同作战的问题。本专利技术专利实现了多无人机系统在一定条件下的协同作战,主要使用深度强化学习中的QMIX算法,通过对动作空间、状态空间和奖励函数的设置,实现了多无人机的协同追踪。
[0009]技术方案:
[0010]一种基于深度强化学习的多无人机协同追踪方法,其特征在于,包括以下步骤:
[0011]步骤1:在无人机对战仿真平台上建立多无人机作战的模型;
[0012]步骤2:设置多无人机协同作战的固定规则动作;
[0013]步骤3:设置多无人机的初始位置和追踪条件;
[0014]步骤4:设置无人机智能体强化学习的状态、动作和奖励函数;
[0015]步骤5:使用QMIX算法对无人机智能体进行训练,并根据训练结果调整超参数;
[0016]步骤6:在面对不同对手的情况下,重复步骤5,实现多无人机协同追踪的目标。
[0017]进一步地,步骤1所述在无人机对战仿真平台上建立的多无人机作战的模型具体如下:
[0018]步骤1.1建立二维绝对坐标系
[0019]以当前选择的作战地图的左下角为坐标系原点,水平方向为坐标系x轴,垂直方向为坐标系y轴,建立二维绝对坐标系。
[0020]步骤1.2建立多无人机作战系统
[0021]建立含有n架无人机的多无人机作战系统,设每架无人机智能体(agent)用A表示,则该多无人机作战系统可以用集合D={A1,A2,...,A
n
}表示。
[0022]步骤1.3建立无人机智能体模型
[0023]对于多无人机系统D中的每架无人机A,其在时间步t时选择的动作(action)由移动、探测、干扰和攻击四个模块组成:
[0024]对于移动模块,无人机选择二维平面坐标系内0

359
°
中的一个方向,并按此方向在单位时间里移动单位步长,无人机在时间步t时选择的方向可记为F
1t
(A
i
);
[0025]对于探测模块,设雷达频点总数为m,无人机选择雷达频点表中的任意一个雷达频点后,固定向以其朝向为轴、左右各60
°
、距离为d1的扇形范围内探测是否有敌方无人机,并将探测到的敌方无人机记录到探测列表L
i
中,无人机在时间步t时选择的雷达频点可记为F
2t
(A
i
);
[0026]对于干扰模块,无人机选择雷达频点表中的任意一个频点后,固定向以其朝向为轴、左右各15
°
、距离为d1的扇形范围内干扰敌方无人机选择对应频点的雷达,使其失去探测能力;无人机也可以选择开启阻塞干扰,固定向以其朝向为轴、左右各1
°
、距离为d1的扇形范围内干扰敌方无人机所有频点的雷达,设无人机在时间步t时选择的干扰频点为F
3t
(A
i
),则有:
[0027][0028]对于攻击模块,无人机向敌方无人机探测列表中的一架敌方无人机发射短距离导弹(距离为d2)或长距离导弹(距离为d3),设该无人机选择攻击的敌方无人机为探测列表中的L
i
(1≤i≤n),该无人机选择发射的导弹种类为p,(当p=0时,无人机不发射导弹,当p=1时,无人机发射短距离导弹;当p=2时,无人机发射长距离导弹),该无人机是否还有该种类的导弹为w(p),(当w(p)=0时,无人机没有该类型的导弹;当w(p)=1时,无人机有该类型的导弹;默认w(0)=0),设无人机在时间步t时选择的攻击动作为F
4t
(A
i
),则有:
[0029]F
4t
(A
i
)=w(p)
×
((p

1)
×
n+Li)
[0030]由此,无人机智能体在时间步t时的动作空间可由集合{F1(A
i
),F2(A
i
),F3(A
i
),F4(A
i
)}表示。
[0031]对于多无人机系统D中的每架无人机A,其在时间步t时的状态(state)表示如下:
[0032]无人机A
i
在当前时间步t时的位置信息(x
it
,y
it
);无人机A
i
在当前时间步t时探测到的敌方无人机探测列表L
it
,多无人机系统汇总每架无人机的探测列表得到的敌方无人机探测列表L
Dt
(L
Dt
=L
1t
∪L
2t
∪...∪L
nt
);无人机A
i
在当前时间步t时剩余的短距离导弹w
it1
和长距离导弹数量w
it2

[0033]由此,无人机智能体在时间步t时的状态空间可由集合{x
it
,y
it
,L
it...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的多无人机协同追踪方法,其特征在于,包括以下步骤:步骤1:在无人机对战仿真平台上建立多无人机作战的模型;步骤2:设置多无人机协同作战的固定规则动作;步骤3:设置多无人机的初始位置和追踪条件;步骤4:设置无人机智能体强化学习的状态、动作和奖励函数;步骤5:使用QMIX算法对无人机智能体进行训练,并根据训练结果调整超参数;步骤6:在面对不同对手的情况下,重复步骤5,实现多无人机协同追踪的目标。2.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法,其特征在于,步骤1所述在无人机对战仿真平台上建立的多无人机作战的模型具体如下:步骤1.1建立二维绝对坐标系以当前选择的作战地图的左下角为坐标系原点,水平方向为坐标系x轴,垂直方向为坐标系y轴,建立二维绝对坐标系;步骤1.2建立多无人机作战系统建立含有n架无人机的多无人机作战系统,设每架无人机智能体用A表示,则该多无人机作战系统可以用集合D={A1,A2,...,A
n
}表示;步骤1.3建立无人机智能体模型对于多无人机系统D中的每架无人机A,其在时间步t时选择的动作由移动、探测、干扰和攻击四个模块组成:对于移动模块,无人机选择二维平面坐标系内0

359
°
中的一个方向,并按此方向在单位时间里移动单位步长,无人机在时间步t时选择的方向可记为F
1t
(A
i
);对于探测模块,设雷达频点总数为m,无人机选择雷达频点表中的任意一个雷达频点后,固定向以其朝向为轴、左右各60
°
、距离为d1的扇形范围内探测是否有敌方无人机,并将探测到的敌方无人机记录到探测列表L
i
中,无人机在时间步t时选择的雷达频点可记为F
2t
(A
i
);对于干扰模块,无人机选择雷达频点表中的任意一个频点后,固定向以其朝向为轴、左右各15
°
、距离为d1的扇形范围内干扰敌方无人机选择对应频点的雷达,使其失去探测能力;无人机也可以选择开启阻塞干扰,固定向以其朝向为轴、左右各1
°
、距离为d1的扇形范围内干扰敌方无人机所有频点的雷达,设无人机在时间步t时选择的干扰频点为F
3t
(A
i
),则有:对于攻击模块,无人机向敌方无人机探测列表中的一架敌方无人机发射短距离导弹,距离为d2或长距离导弹,距离为d3,设该无人机选择攻击的敌方无人机为探测列表中的L
i
(1≤i≤n),该无人机选择发射的导弹种类为p,当p=0时,无人机不发射导弹,当p=1时,无人机发射短距离导弹;当p=2时,无人机发射长距离导弹,该无人机是否还有该种类的导弹为w(p),当w(p)=0时,无人机没有该类型的导弹;当w(p)=1时,无人机有该类型的导弹;默认w(0)=0,设无人机在时间步t时选择的攻击动作为F
4t
(A
i
),则有:F
4t
(A
i
)=w(p)
×
((p

1)
×
n+Li)
由此,无人机智能体在时间步t时的动作空间可由集合{F1(A
i
),F2(A
i
),F3(A
i
),F4(A
i
)}表示;对于多无人机系统D中的每架无人机A,其在时间步t时的状态表示如下:无人机A
i
在当前时间步t时的位置信息(x
it
,y
it
);无人机A
i
在当前时间步t时探测到的敌方无人机探测列表L
it
,多无人机系统汇总每架无人机的探测列表得到的敌方无人机探测列表L
Dt
(L
Dt
=L
1t
∪L
2t
∪...∪L
nt
);无人机A
i
在当前时间步t时剩余的短距离导弹w
it1
和长距离导弹数量w
it2
;由此,无人机智能体在时间步t时的状态空间可由集合{x
it
,y
it
,L
it
,w
it1
,w
it2
}表示;由此便构建了多无人机作战的模型。3.根据权利要求1所述的一种基于深度强化学习的多无人机协同追踪方法,其特征在于,步骤2所述的设置多无人机协同作战的固定规则动作具体如下:步骤2.1设置探测模块的固定规则动作对于探测模块,由于敌方无人机在连续步长内干扰到我方无人机随机变化的雷达频点的概率较低,且探测模块的效能更多取决于移动模块中无人机方向的选择,因此在每个时间步时,使用随机数生成雷达频点;设无人机的雷达频点总数为m,则无人机在时间步t时选择的雷达频点表示为:F
2t
(A
i
)=random(1,m)步骤2.2设置干扰模块的固定规则动作对于干扰模块,引入条件判断,如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机,则对其使用全频道干扰,避免其探测到我方无人机;如果我方无人机未探测到敌方无人机或未连续探测到敌方无人机,则使用随机数生成干扰频点;因此无人机在时间步t时选择的干扰频点可表示为:步骤2.3设置攻击模块的固定规则动作对于攻击模块,引入条件判断,如果我方无人机在τ个时间步长内探测模块连续探测到同一架敌方无人机,则发射选择发射导弹,设当前时刻我方无人机和敌方无人机的位置分别为(x
1t
,y
1t
)和(x
2t
,y
2t
),则我方无人机与敌方无人机间的距离为若距离d在短距离导弹射程范围内,且短距离导弹有剩余,则发射短距离导弹;若距离d在长距离导弹射程范围内,且长距离导弹有剩余,则发射长距离导弹;否则不发射导弹;设短距离导弹射程范围为d2,长距离导弹射程范围为d3,则无人机在时间步t时选择的攻击动作可表示为:由此便设置了多无人机协同作战的固定规则动作。4....

【专利技术属性】
技术研发人员:姜昊武永宝薛磊刘剑
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1