一种基于强化学习和注意力机制的无人机群调度方法技术

技术编号:30766498 阅读:16 留言:0更新日期:2021-11-10 12:26
本发明专利技术提供了一种基于强化学习和注意力机制的无人机群调度方法,包括:步骤1,设置作为编码器的Transformer的各个超参数,获取仿真器的状态;步骤2,将状态做特征预处理之后送入Transformer编码器;步骤3,将Transformer编码器的编码输出作为指针网络解码器的输入,通过解码选出当前状态下最应该关注的单位;步骤4,神经网络的多头输出结果构造仿真平台能接受的指令,将其输入仿真平台驱动其前进。本发明专利技术通过组合注意力机制和强化学习实现了不同状态下对于无人机群中不同单位的关注,通过神经网络的多头输出实现了对于动作空间的良好分解,这一设计对于无人机群的扩容不敏感。这一设计对于无人机群的扩容不敏感。这一设计对于无人机群的扩容不敏感。

【技术实现步骤摘要】
一种基于强化学习和注意力机制的无人机群调度方法


[0001]本专利技术涉及一种基于强化学习和注意力机制的无人机群调度方法。

技术介绍

[0002]近年来,随着人工智能技术的迅猛发展,无人机逐步朝着小型化、智能化方向发展,因其成本低、灵活性高、隐蔽性强,被广泛应用于战场侦察、应急救援等行动中。鉴于单架无人机在续航能力、广域侦察搜索等方面的局限性,多架无人机协同组成无人机集群执行任务成为当前无人机作战应用的重要模式。较之于单架无人机,无人机集群具有明显的规模优势、协同优势等,可有效提高任务完成的可靠性。因此,提升无人机的智能化水平,让无人机能够根据环境状态而自动产生控制指令完成任务中的群体机动是当前主要的研究方向。
[0003]让无人机完成指定任务中的机动自主决策,其实质是完成从空战态势到群体动作的映射,在不同状态下执行相应的群体动作。由于无人机群在调度时面临的状态十分复杂,靠人工预编程的方法难以全面覆盖广阔的状态空间,同时也无法计算产生最优的动作决策。
[0004]强化学习是一种采用“试错”的方法与环境交互的学习方法,通过计算当前状态下执行某个动作后的累计回报的期望值大小来判断选择哪个动作能获得最优效果。而且强化学习智能体与环境交互的学习过程不需要训练样本,仅仅需要通过环境的回报值对执行的动作进行评价。将具体实际问题完成在强化学习框架下的实例化需要完成两方面的工作,首先,需要解决实际问题中动作空间的设计问题,合理的动作空间设计能降低问题的复杂度,提升学习效率,其次,需要给定环境反馈给智能体的回报函数的设计。
[0005]注意力机制是一种在自然语言处理和图像处理领域均取得优异效果的一类方法,普遍认为其能抓住不同状态表征之间的联系。在无人机群中,态势复杂,难以通过预编程的方式决定在什么样的状态之下,应该关注哪一架无人机,注意力机制通过一种可学习的方式来在不同阶段、不同状态之下关注不同的飞机,适用用于无人机调度场景中。

技术实现思路

[0006]专利技术目的:为了解决现有方案效率不够高的问题,提出了一种基于强化学习和注意力机制的无人机群的调度方法,能够在不同态势下关注不同的无人机,并且通过强化学习的方式来对这一机制进行训练,同时还给出了统一的动作空间分解框架调度无人机群,该框架对于无人机数量的改变不敏感,这增强了代码的适应性,并大大减轻了人类操纵指控的压力。
[0007]本专利技术方法包括以下步骤:
[0008]步骤1,根据所观测到的状态信息的维度,调整Transformer编码器(一种用于自然语言处理的高效且流行的处理模型)的输入维度和输出头的个数,并给定其他超参数,其他超参数包括编码层的个数、前馈层的维度和编码维度,通常来说编码层的个数设置为6,前
馈层维度设置为2048,编码维度设置为512;
[0009]步骤2,收集仿真器给出的关于飞机状态信息,包括飞机编号id、空间横坐标x和纵坐标y、是否打开雷达干扰is_radar_on、干扰频点freq,将收集的信息经过预先编码后组装成为Transformer编码器的状态输入S=(id,x,y,is_radar_on,freq);
[0010]步骤3,将当前Transformer编码器的输出送入指针网络得到解码结果,解码结果为基于注意力机制得到的索引,也就是当前状态下最应该给予关注的目标单位的索引,并将该索引作为第一个输出头的结果;
[0011]步骤4,将Transformer编码器的输出和指针网络的输出送入下一层全连接网络得到第二个输出头,第二个输出头的输出动作代表所选动作类型是飞行或者打击;最后将Transformer编码器的输出加上第一个输出头的输出、第二个输出头的输出送入后续的全连接网络得到第三个输出头,代表所选的目标地点;根据解码得到的目标单位的索引,以及第二个输出头、第三个输出头的内容,给出无人机群的相应动作,转换为仿真平台能够接收的指令并发送给仿真平台;
[0012]步骤5,收集仿真平台返回的新状态和即时奖励信息,在收集了X(一般取值256)批次的数据之后,在PPO近端策略优化算法的框架下,得到梯度下降方向,并基于反向传播算法修正网络参数。
[0013]进一步地,所述步骤1中,输入到Transformer中的状态信息不需要经过嵌入层,这是与自然语言处理中所作的预处理不太一样的地方。
[0014]进一步地,所述步骤2中,需要对状态做出一定的编码,这属于特征工程的一部分,有利于稳定神经网络的训练,具体操作包括对空间坐标作[

1,1]区间的归一化编码、对是否打开雷达干扰作独热编码、同时保证每一架飞机的状态信息在Transformer编码器的状态输入中的位置固定,Transformer编码器的输出即可认为是在考虑了不同单位之间关联关系的基础上,对当前仿真状态的编码,它以一种可学习的方式随时纠正编码结果,因此可以认为能够挖掘出潜在映射关系。
[0015]进一步地,所述步骤3中,将当前Transformer编码器的输出送入指针网络,将输出记为(e1,

,e
n
)=Trans(S),其中(e1,

,e
n
)为Transformer编码器的编码输出矩阵的列向量,e
n
表示Transformer编码器的编码输出矩阵的第n列向量;Trans代表Transformer对状态输入S所进行的操作,基于注意力机制进行解码的时候,最终希望得到一个索引序列C1,C2,

,C
i
,其中C
i
代表无人机群中的第i架无人机,将任务建模为在已知序列C1,C2,

,C
i
‑1的情形下,最大化C
i
出现的后验概率指针网络通常是基于LSTM网络(长短期记忆网络)实现的,在指针网络的注意力机制中,所述任务形式化为如下公式:
[0016][0017][0018]其中,v,W1,W2为Transformer

PointerNet网络的可训练参数,v
T
为可训练参数v的转置,Transformer

PointerNet网络是Transformer编码器和指针网络合成的编码解码结构,指针网络是基于LSTM网络实现的,tanh为双曲正切激活函数,softmax是一类最大值函数,(d1,

,d
m
)是解码的LSTM网络每一步输出的隐状态;代表Transformer

PointerNet
网络的第i个输出e
i
与解码的LSTM网络的第j个输出d
j
之间的关联分数,u
i
为所有组成的向量,即
[0019]注意力机制在每次解码的时候,从Transformer编码器的编码输出中得到与当前解码联系最紧密的部分,并将u
i
作为so本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和注意力机制的无人机群调度方法,其特征在于,包括如下步骤:步骤1,根据所观测到的状态信息的维度,调整Transformer编码器的输入维度和输出头的个数,并给定其他超参数,其他超参数包括编码层的个数、前馈层的维度和编码维度;步骤2,收集仿真器给出的关于飞机状态信息,包括飞机编号id、空间横坐标x和纵坐标y、是否打开雷达干扰is_radar_on、干扰频点freq,将收集的信息经过预先编码后组装成为Transformer编码器的状态输入S=(id,x,y,is_radar_on,freq);步骤3,将当前Transformer编码器的输出送入指针网络得到解码结果,解码结果为基于注意力机制得到的索引,也就是当前状态下最应该给予关注的目标单位的索引,并将该索引作为第一个输出头的结果;步骤4,将Transformer编码器的输出和指针网络的输出送入下一层全连接网络得到第二个输出头,第二个输出头的输出动作代表所选动作类型是飞行或者打击;最后将Transformer编码器的输出加上第一个输出头的输出、第二个输出头的输出送入后续的全连接网络得到第三个输出头,代表所选的目标地点;根据解码得到的目标单位的索引,以及第二个输出头、第三个输出头的内容,给出无人机群的相应动作,转换为仿真平台能够接收的指令并发送给仿真平台;步骤5,收集仿真平台返回的新状态和即时奖励信息,在收集了X批次的数据之后,在PPO近端策略优化算法的框架下,得到梯度下降方向,并基于反向传播算法修正网络参数。2.根据权利要求1所述的方法,其特征在于,步骤2中,对空间坐标作[

1,1]区间的归一化编码、对是否打开雷达干扰作独热编码,同时保证每一架飞机的状态信息在Transformer编码器的状态输入中的位置固定。3.根据权利要求2中所述的方法,其特征在于,步骤3中,将当前Transformer编码器的输出送入指针网络,将输出记为(e1,...,e
n
)=Trans(S),其中(e1,...,e
n
)为Transformer编码器的编码输出矩阵的列向量,Trans代表Transformer对状态输入S所进行的操作;基于注意力机制进行解码的时候,最终希望得到一个索引序列C1,C2,...,C
i
,其中C
i
代表无人机群中的第C
i
架无人机,将任务建模为在已知序列C1,C2,...,C
i
‑1的情形下,最大化C
i
出现的后验概率在指针网络的注意力机制中,所述任务形式化为如下公式:在指针网络的注意力机制中,所述任务形式化为如下公式:其中,v,W1,W2为Transformer

PointerNet网络的可训练参数,v
T
为可训练参数v的转置,Transformer

Point...

【专利技术属性】
技术研发人员:江天舒郭成昊李秀成汪亚斌
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1