【技术实现步骤摘要】
基于深度强化学习的优先级无人机编队动态信道分配方法及其系统
[0001]本专利技术属于无线通信
,特别涉及一种基于深度强化学习的优先级无人机编队动态信道分配方法及其系统。
技术介绍
[0002]无人机单机飞行往往会导致信息获取不全面,鲁棒性差等缺点,而且无人机受限于配重,每架无人机不能安装需要完成任务的所有的传感器,这时必须通过无人机编队中的每个个体进行协同方可完成任务。因此研究无人机飞行编队的方向势在必行,多架无人机的编队相互配合、互相合作的方式,可以在一定程度上提高单架无人机执行任务的成功概率。在军事侦察、目标打击、通信中继、电子对抗、战场评估、灾难评估、测绘等方面,无人机编队飞行都可以提高单无人机的工作效率。
[0003]无人机可用频带有限,但无人机传输数据所用的带宽比较大,如果不能有效的分配无人机所使用的信道,就会造成无人机干扰其他频段用户的通信行为,而且如果无人机编队不能进行合理的运用分配有限的资源,就会导致无人机之间进行信道冲突,会使无人机群的通信受到严重的障碍,最终导致任务的失败。这样一来无人机群 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述分配方法包括:S101:对无人机编队信道的动态分配过程建立模型,并在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,所述无人机的业务具有优先级;S102:将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型;S103:利用所述模型对所述改进型深度强化学习网络模型进行训练;以及S104:利用训练后的所述改进型深度强化学习网络模型对无人机编队动态分配信道。2.根据权利要求1所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述环境状态包括与信道相关的信息,所述动作集合包括无人机的动作,通过切换所述动作集合中的无人机的动作获得所述环境状态的反馈以及奖赏值,所述优先级设置成与通信频率正相关。3.根据权利要求2所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述环境状态用于评价无人机在做出动作之后对环境状态所造成的影响,并且,所述环境状态包括信道的容量、无人机通信之间的碰撞情况以及无人机之间对信道的利用率。4.根据权利要求3所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,所述动作集合包括无人机要接入信道以及无人机不接入信道。5.根据权利要求4所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,在所述模型中建立无人机在环境中的环境状态、动作集合以及奖赏函数,包括如下步骤:定义所述环境状态为S
t
={s1,s2,
……
,s
n
};定义所述动作集合为A={a1,a2,
……
,a
n
},其中,a
i
∈{0,
……
,C};定义所述奖赏函数为其中,a
i
表示的是第i个无人机的动作,C表示信道的数目;a
i
=0,表示这架无人机不接入信道;TPER表示总丢包率,所述奖赏函数与所述总丢包率负相关,所述总丢包率通过所述环境状态的无人机通信之间的碰撞情况以及无人机通信频率获得。6.根据权利要求5所述的基于深度强化学习的优先级无人机编队动态信道分配方法,其特征在于,将长短时记忆网路(LSTM)加入到深度Q网络(DQN)中形成改进型深度强化学习网络模型,包括如下步骤:S201:将所述环境状态S
t
输入到深度Q网络(DQN)中,输出动作a
t
和奖励值r
t
以及下一环境状态S
t+1
;S202:将从深度Q网络(DQN)中获得的(s
t
,a
t
,r
t
,s
t+1
)输入到长短时记忆网路(LSTM)中,通过长短时记忆网路(LSTM)对(s
t
,a
t
,r
t
,s
t+1
)进行存储和处理;S203:将经过长短时记忆网路(LSTM)存储和处理的(s
t
,a
t
,r
t
,s
t+1
...
【专利技术属性】
技术研发人员:林云,王美玉,周翔龙,窦峥,涂涯,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。