【技术实现步骤摘要】
多无人机协同对抗决策的强化学习方法
[0001]本专利技术涉及无人机
,具体涉及一种多无人机协同对抗决策的强化学习方法。
技术介绍
[0002]随着新兴技术的发展与应用,信息对抗、智能对抗已逐渐成为新的作战手段和作战形式,无人机由于其能够自主的完成多种任务而被广泛地应用。然而随着无人机在相关领域应用的不断推进,单架无人机在执行任务时暴露出了灵活性和任务完成率的短板,因此,运用多架无人机在空中构成相互协作、优势互补、效能倍增的协同作战系统,已成为本领域关注的热点和追求的目标。
[0003]多无人机协同对抗环境中,对抗情况瞬息万变,呈现高动态、高实时和高不确定性的特点,并且多机协同对抗整体过程时间较长,无法对敌方的行动作出详细预测,作战前的战术决策和目标分配等决策都可能随着对抗过程中的进行而不再适用当前环境,因此,决策者需要根据复杂、动态变化的战场环境对多无人机作战策略进行重决策。
[0004]现有的重决策方法普遍使用神经网络、模糊Petri网和影像图等方法进行,然而,由于多无人机协同对抗环境的变化较为迅速,这些方法已经不能适用当前环境,即现有技术提供的重决策方法的效果较差。
技术实现思路
[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种多无人机协同对抗决策的强化学习方法,解决了现有技术提供的重决策方法的效果较差的问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
【技术保护点】
【技术特征摘要】
1.一种多无人机协同对抗决策的强化学习方法,所述强化学习方法由计算机执行,其特征在于,包括以下步骤:获取无人机初始状态数据,并对所述无人机初始状态数据进行格式转换,得到预设格式的无人机初始状态数据;对预设格式的无人机初始状态数据进行数据补全处理;对数据补全后的无人机初始状态数据进行数据转换和归一化处理,得到无人机状态数据;基于预设的Actor
‑
Critic算法对所述无人机状态数据进行处理,得到当前回合的多无人机协同对抗重决策结果;将所述多无人机协同对抗重决策结果输入到预设的仿真场景中,多无人机基于所述多无人机协同对抗重决策结果进行对抗,得到多无人机协同对抗数据,并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,以得到下一回合的多无人机协同对抗重决策结果。2.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述无人机初始状态数据包括:无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。3.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,对所述无人机初始状态数据进行格式转换,包括:将Json格式的无人机初始状态数据转换为字符串格式的数据。4.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,还包括:获取所述预设的仿真场景反馈的信息,包括:多无人机协同对抗数据和结束指令;当获取到多无人机协同对抗数据时,将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据,并对无人机初始状态数据进行数据补全处理;当获取到结束指令时,计算所有回合的奖励回报。5.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,所述对预设格式的无人机初始状态数据进行数据补全处理,包括:检测多架无人机中是否存在损毁情况;若是,则对损毁的无人机进行数据补零处理,若否,则不进行处理;所述对数据补全后的无人机初始状态数据进行数据转换,包括:将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式,以使数据可以作为神经网络的输入。6.如权利要求1所述的多无人机协同对抗决策的强化学习方法,其特征在于,基于预设的Actor
‑
Critic算法对所述无人机状态数据进行处理,包括:计算所述无人机状态数据的奖励回报,并将所述无人机状态数据分别发送至Actor网络和Critic网络中;基于Actor网络中的神经网络对所述无人机状态数据进行处理,得到所有重决策触发动作的概率,...
【专利技术属性】
技术研发人员:王国强,陈宇轩,罗贺,马滢滢,蒋儒浩,胡笑旋,唐奕城,靳鹏,马华伟,夏维,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。