一种基于分层强化学习的无人机集群对抗策略优化方法技术

技术编号:38393434 阅读:23 留言:0更新日期:2023-08-05 17:46
本发明专利技术涉及一种基于分层强化学习的无人机集群对抗策略优化方法,创新点在于:基于强化学习的无人机集群对抗策略推演方法和基于强化学习的时空融合的奖励设计方法。将现有的强化学习算法以分层控制的方法运用到无人机集群编队的作战模拟仿真环境中,通过对总体任务目标的分解,使得强化学习算法可以在复杂的无人机集群对抗环境中推演出合格的对抗策略。克服了传统强化学习算法在复杂环境中由于状态空间和动作空间较大而产生的无法决策的问题,同时也可以推演出相对出色的对抗策略。同时也可以推演出相对出色的对抗策略。同时也可以推演出相对出色的对抗策略。

【技术实现步骤摘要】
一种基于分层强化学习的无人机集群对抗策略优化方法


[0001]本专利技术属于强化学习和无人机作战
,涉及一种基于分层强化学习的无人机集群对抗策略优化方法。主要完成在现代战争中需要依靠无人机进行作战时,通过强化学习技术训练的智能体搭载在无人机作战装备上,使得无人机在真实环境时可以做出相对成熟可靠的作战动作,可用于复杂环境下无人机进行作战时多无人机系统的协同作战及任务分配,提高作战任务的高效性。

技术介绍

[0002]随着近年来世界战争的不断发展,无人作战装备在近年来的世界战场上大展风采,随着国际形势以及科学技术的不断发展,无人作战模式越来越成为各个军事强国研究的主要问题。强化学习以试错机制为出发点进行智能体的训练,通过仿真模拟使智能体学习到足够的知识,可以有效的控制无人机在复杂环境下进行作战。面对复杂战场环境下的不可预知性,强化学习技术比以往的人工智能方法可以更好的控制无人机进行作战,而随着现代科学技术的不断进步,无人作战装备与强化学习技术的合作有着更为深远的意义。
[0003]现有的基于强化学习的无人机作战方式一般分为多智能体作战本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分层强化学习的无人机集群对抗策略优化方法,其特征在于步骤如下:步骤1、想定场景设计:环境设计以无人机为主要作战单元,战场选择在空旷的固定区域;作战双方为敌对的红蓝双方,各方作战单元以同构兵力进行推演,或以异构兵力进行推演;所述兵力包括武器装备的数量和型号;所述作战单元包括挂载空空导弹的空战作战单元,一种是挂载对地导弹的轰炸作战单元,另一种是挂载电子战干扰/反干扰雷达的电子作战单元;所述场景设计包括但不限于红蓝双方作战型号,单元数量,挂载单元,地理位置和天气状况;步骤2:按照步骤1的场景设计,利用仿真推演平台进行仿真,得到无人机集群中每个无人机智能体的固定GUID获取单元的动作和状态(Sn,An),其中St表示当前状态,At集表示当前动作;所有无人机智能体的特征状态和特征动作组成状态空间和动作空间,以(St,At)作为表示;以(x0,y0,z0)表示无人机在当前三维空间中的坐标,(c0,s0)表示无人机当前航向和速度;通过雷达探测装置,获得敌方作战单位的坐标,高度,速度信息,通过计算敌我双方单元的相对距离来引导无人机去进行作战;步骤3:构建智能体算法框架,实现分层结构:所述智能体网络是以QMIX算法为核心,构建强化学习智能体模型,智能体网络结构分为三层,上下两层由MLP全连接层神经网络构成,中间是GRU隐藏层神经网络;混合网络是由一个超网络和一个非线性网络构成,超网络将全局状态St作为输入,输出为混合网络的权值和偏移量作为非线性网络的参数;上下两层智能体采用如上所述相同的结构;所述每个智能体在环境中的状态和动作输入进智能体网络,经过三层神经网络生成单个智能体的Q
i
值函数,所有的Q
i
值函数输入到混合网络中,混合网络是一个前馈神经网络,经过单调混合产生整体的Q
tot
值函数;所述智能体网络参数:所述智能体网络的奖励函数:奖惩奖惩值奖惩备注行为意图奖励5攻击敌方作战单元获得奖励鼓励攻击行为奖励10击落敌方作战单元获得奖励鼓励攻击成功行为奖励5躲避敌方攻击获得奖励鼓励躲避行为奖励10成功躲避敌方攻击获得奖励鼓励躲避成功行为奖励10探测敌方作战单元获得奖励鼓励探测敌方作战单元
奖励0.01*距离距离敌方越近奖励越高鼓励接近敌方作战目标奖励0.1*剩余时长越早完成作战目标奖励越高鼓励快速解决战斗奖励50任务胜利鼓励成功完成任务奖励0平局不进行奖惩惩罚

5被敌方单元攻击给予惩罚鼓励躲避敌方单元攻击惩罚

10被敌方单元击落给予惩罚鼓励战场生存惩罚

5被...

【专利技术属性】
技术研发人员:傅妍芳孙泽龙雷凯麟曹子建杨博高领航李秦洁罗千庆梁洪涛
申请(专利权)人:西安工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1