一种基于强化学习和注意力机制的无人机群调度方法技术

技术编号：30766498 阅读：16 留言：0更新日期：2021-11-10 12:26

本发明专利技术提供了一种基于强化学习和注意力机制的无人机群调度方法，包括：步骤1，设置作为编码器的Transformer的各个超参数，获取仿真器的状态；步骤2，将状态做特征预处理之后送入Transformer编码器；步骤3，将Transformer编码器的编码输出作为指针网络解码器的输入，通过解码选出当前状态下最应该关注的单位；步骤4，神经网络的多头输出结果构造仿真平台能接受的指令，将其输入仿真平台驱动其前进。本发明专利技术通过组合注意力机制和强化学习实现了不同状态下对于无人机群中不同单位的关注，通过神经网络的多头输出实现了对于动作空间的良好分解，这一设计对于无人机群的扩容不敏感。这一设计对于无人机群的扩容不敏感。这一设计对于无人机群的扩容不敏感。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习和注意力机制的无人机群调度方法

[0001]本专利技术涉及一种基于强化学习和注意力机制的无人机群调度方法。

技术介绍

[0002]近年来，随着人工智能技术的迅猛发展，无人机逐步朝着小型化、智能化方向发展,因其成本低、灵活性高、隐蔽性强,被广泛应用于战场侦察、应急救援等行动中。鉴于单架无人机在续航能力、广域侦察搜索等方面的局限性，多架无人机协同组成无人机集群执行任务成为当前无人机作战应用的重要模式。较之于单架无人机，无人机集群具有明显的规模优势、协同优势等，可有效提高任务完成的可靠性。因此，提升无人机的智能化水平，让无人机能够根据环境状态而自动产生控制指令完成任务中的群体机动是当前主要的研究方向。
[0003]让无人机完成指定任务中的机动自主决策，其实质是完成从空战态势到群体动作的映射，在不同状态下执行相应的群体动作。由于无人机群在调度时面临的状态十分复杂，靠人工预编程的方法难以全面覆盖广阔的状态空间，同时也无法计算产生最优的动作决策。
[0004]强化学习是一种采用“试错”的方法与环境交互的学习方法，通过计算当前状态下执行某个动作后的累计回报的期望值大小来判断选择哪个动作能获得最优效果。而且强化学习智能体与环境交互的学习过程不需要训练样本，仅仅需要通过环境的回报值对执行的动作进行评价。将具体实际问题完成在强化学习框架下的实例化需要完成两方面的工作，首先，需要解决实际问题中动作空间的设计问题，合理的动作空间设计能降低问题的复杂度，提升学习效率，其次，需要给定环境反馈给智能体的回报函数的设...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和注意力机制的无人机群调度方法，其特征在于，包括如下步骤：步骤1，根据所观测到的状态信息的维度，调整Transformer编码器的输入维度和输出头的个数，并给定其他超参数，其他超参数包括编码层的个数、前馈层的维度和编码维度；步骤2，收集仿真器给出的关于飞机状态信息，包括飞机编号id、空间横坐标x和纵坐标y、是否打开雷达干扰is_radar_on、干扰频点freq，将收集的信息经过预先编码后组装成为Transformer编码器的状态输入S＝(id，x，y，is_radar_on，freq)；步骤3，将当前Transformer编码器的输出送入指针网络得到解码结果，解码结果为基于注意力机制得到的索引，也就是当前状态下最应该给予关注的目标单位的索引，并将该索引作为第一个输出头的结果；步骤4，将Transformer编码器的输出和指针网络的输出送入下一层全连接网络得到第二个输出头，第二个输出头的输出动作代表所选动作类型是飞行或者打击；最后将Transformer编码器的输出加上第一个输出头的输出、第二个输出头的输出送入后续的全连接网络得到第三个输出头，代表所选的目标地点；根据解码得到的目标单位的索引，以及第二个输出头、第三个输出头的内容，给出无人机群的相应动作，转换为仿真平台能够接收的指令并发送给仿真平台；步骤5，收集仿真平台返回的新状态和即时奖励信息，在收集了X批次的数据之后，在PPO近端策略优化算法的框架下，得到梯度下降方向，并基于反向传播算法修正网络参数。2.根据权利要求1所述的方法，其特征在于，步骤2中，对空间坐标作[
‑
1，1]区间的归一化编码、对是否打开雷达干扰作独热编码，同时保证每一架飞机的状态信息在Transformer编码器的状态输入中的位置固定。3.根据权利要求2中所述的方法，其特征在于，步骤3中，将当前Transformer编码器的输出送入指针网络，将输出记为(e1，...，e
n
)＝Trans(S)，其中(e1，...，e
n
)为Transformer编码器的编码输出矩阵的列向量，Trans代表Transformer对状态输入S所进行的操作；基于注意力机制进行解码的时候，最终希望得到一个索引序列C1，C2，...，C
i
，其中C
i
代表无人机群中的第C
i
架无人机，将任务建模为在已知序列C1，C2，...，C
i
‑1的情形下，最大化C
i
出现的后验概率在指针网络的注意力机制中，所述任务形式化为如下公式：在指针网络的注意力机制中，所述任务形式化为如下公式：其中，v，W1，W2为Transformer
‑
PointerNet网络的可训练参数，v
T
为可训练参数v的转置，Transformer
‑
Point...

【专利技术属性】
技术研发人员：江天舒，郭成昊，李秀成，汪亚斌，
申请(专利权)人：中国电子科技集团公司第二十八研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人