多无人机协同对抗决策的强化学习方法技术

技术编号:29292778 阅读:16 留言:0更新日期:2021-07-17 00:36
本发明专利技术提供一种多无人机协同对抗决策的强化学习方法,涉及无人机领域,包括:获取无人机初始状态数据并进行格式转换;对无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;基于预设的Actor

Reinforcement learning method for cooperative countermeasure decision of multiple UAVs

【技术实现步骤摘要】
多无人机协同对抗决策的强化学习方法


[0001]本专利技术涉及无人机
,具体涉及一种多无人机协同对抗决策的强化学习方法。

技术介绍

[0002]随着新兴技术的发展与应用,信息对抗、智能对抗已逐渐成为新的作战手段和作战形式,无人机由于其能够自主的完成多种任务而被广泛地应用。然而随着无人机在相关领域应用的不断推进,单架无人机在执行任务时暴露出了灵活性和任务完成率的短板,因此,运用多架无人机在空中构成相互协作、优势互补、效能倍增的协同作战系统,已成为本领域关注的热点和追求的目标。
[0003]多无人机协同对抗环境中,对抗情况瞬息万变,呈现高动态、高实时和高不确定性的特点,并且多机协同对抗整体过程时间较长,无法对敌方的行动作出详细预测,作战前的战术决策和目标分配等决策都可能随着对抗过程中的进行而不再适用当前环境,因此,决策者需要根据复杂、动态变化的战场环境对多无人机作战策略进行重决策。
[0004]现有的重决策方法普遍使用神经网络、模糊Petri网和影像图等方法进行,然而,由于多无人机协同对抗环境的变化较为迅速,这些方法已经不能适用当前环境,即现有技术提供的重决策方法的效果较差。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种多无人机协同对抗决策的强化学习方法,解决了现有技术提供的重决策方法的效果较差的问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]本专利技术解决其技术问题所提供的一种多无人机协同对抗决策的强化学习方法,所述强化学习方法由计算机执行,包括以下步骤:
[0010]获取无人机初始状态数据,并对所述无人机初始状态数据进行格式转换,得到预设格式的无人机初始状态数据;
[0011]对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;
[0012]基于预设的Actor

Critic算法对所述无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;
[0013]将所述多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于所述多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。
[0014]优选的,所述无人机初始状态数据包括:无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。
[0015]优选的,对所述无人机初始状态数据进行格式转换,包括:
[0016]将Json格式的无人机初始状态数据转换为字符串的数据。
[0017]优选的,还包括:
[0018]获取所述预设的仿真场景反馈的信息,包括:多无人机协同对抗数据和结束指令;
[0019]当获取到多无人机协同对抗数据时,将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,并对无人机初始状态数据进行数据补全处理;
[0020]当获取到结束指令时,计算所有回合的奖励回报。
[0021]优选的,所述对预设格式的无人机初始状态数据进行数据补全处理,包括:
[0022]检测多架无人机中是否存在损毁情况;若是,则对损毁的无人机进行数据补零处理,若否,则不进行处理;
[0023]所述对数据补全后的无人机初始状态数据进行数据转换,包括:
[0024]将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式,以使数据可以作为神经网络的输入。
[0025]优选的,基于预设的Actor

Critic算法对所述无人机状态数据进行处理,包括:
[0026]计算所述无人机状态数据的奖励回报,并将所述无人机状态数据分别发送至Actor网络和Critic网络中;
[0027]基于Actor网络中的神经网络对所述无人机状态数据进行处理,得到所有重决策触发动作的概率,所述重决策触发动作包括:目标分配和不进行重决策;基于所有重决策触发动作的概率获取重决策触发结果;对所述重决策触发结果进行标准化处理,得到当前回合的多无人机协同对抗重决策结果;
[0028]基于Critic网络中的神经网络对所述无人机状态数据进行处理,得到状态值函数;
[0029]基于所述奖励回报和所述状态值函数计算TD误差;
[0030]基于所述TD误差分别计算Actor网络的LOSS和Critic网络的LOSS;
[0031]基于Actor网络的LOSS更新Actor网络的网络权值,基于所述Critic网络的LOSS更新Critic网络的网络权值。
[0032]优选的,所述奖励回报包括:无人机损毁奖励回报和无人机态势奖励回报;
[0033]所述无人机态势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报。
[0034]优选的,所述无人机损毁奖励回报的计算方法包括:
[0035]r0=5*p+(

5)*q
[0036]其中:
[0037]r0表示无人机损毁奖励回报;
[0038]p表示敌方无人机损毁数量;
[0039]q表示我方无人机损毁数量。
[0040]优选的,所述距离优势奖励回报的计算方法包括:
[0041][0042][0043]其中:
[0044]r1表示距离优势奖励回报;
[0045]D
Rmax
为雷达最大搜索距离;
[0046]D
Mmax
为导弹攻击距离;
[0047]表示为我方第i架无人机到敌方第j架无人机的距离;
[0048]所述角度优势奖励回报的计算方法包括
[0049][0050]其中:
[0051]r2表示角度优势奖励回报;
[0052]表示我方无人机方位角;为我方第i架无人机,以及我方第i架无人机到敌方第j架无人机连线间的夹角;
[0053]表示敌方无人机方位角;为敌方第j架无人机,以及敌方第j架无人机到我方第i架无人机连线间的夹角;
[0054]所述速度优势奖励回报的计算方法包括:
[0055][0056][0057]其中:
[0058]r3表示速度优势奖励回报;
[0059]v0表示最佳攻击速度;
[0060]v
r
表示我方无人机速度;
[0061]v
b
表示敌方无人机速度;
[0062]v
max
表示无人机最大速度;
[0063]d
w
表示无人机的武器最大射程。
[0064]优选的,所述奖励回报的计算方法包括:...

【技术保护点】

【技术特征摘要】
1.一种多无人机协同对抗决策的强化学习方法,所述强化学习方法由计算机执行,其特征在于,包括以下步骤:获取无人机初始状态数据,并对所述无人机初始状态数据进行格式转换,得到预设格式的无人机初始状态数据;对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;基于预设的Actor

Critic算法对所述无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;将所述多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于所述多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。2.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述无人机初始状态数据包括:无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。3.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,对所述无人机初始状态数据进行格式转换,包括:将Json格式的无人机初始状态数据转换为字符串格式的数据。4.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,还包括:获取所述预设的仿真场景反馈的信息,包括:多无人机协同对抗数据和结束指令;当获取到多无人机协同对抗数据时,将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,并对无人机初始状态数据进行数据补全处理;当获取到结束指令时,计算所有回合的奖励回报。5.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述对预设格式的无人机初始状态数据进行数据补全处理,包括:检测多架无人机中是否存在损毁情况;若是,则对损毁的无人机进行数据补零处理,若否,则不进行处理;所述对数据补全后的无人机初始状态数据进行数据转换,包括:将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式,以使数据可以作为神经网络的输入。6.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,基于预设的Actor

Critic算法对所述无人机状态数据进行处理,包括:计算所述无人机状态数据的奖励回报,并将所述无人机状态数据分别发送至Actor网络和Critic网络中;基于Actor网络中的神经网络对所述无人机状态数据进行处理,得到所有重决策触发动作的概率,...

【专利技术属性】
技术研发人员:王国强陈宇轩罗贺马滢滢蒋儒浩胡笑旋唐奕城靳鹏马华伟夏维
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1