System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多无人机网络下基于深度强化学习的时隙分配方法组成比例_技高网

一种多无人机网络下基于深度强化学习的时隙分配方法组成比例

技术编号:40763441 阅读:3 留言:0更新日期:2024-03-25 20:14
本发明专利技术提供了一种多无人机网络下基于深度强化学习的时隙分配方法,属于无人机资源分配优化技术领域。该方法步骤包括:(1)对多无人机网络时隙分配建立马尔可夫决策过程(MDP)模型,在MDP中建立无人机在环境中的环境状态、动作集合和奖励函数;(2)利用所述MDP模型对近端策略优化(PPO)算法深度强化学习网络进行训练;(3)利用训练过的PPO模型对多无人机网络动态时隙分配。本发明专利技术将网络拓扑结构纳入考虑,提出的深度强化学习方案,有效提高了信道利用率。

【技术实现步骤摘要】

本专利技术涉及无人机资源分配优化,尤其涉及一种多无人机网络下基于深度强化学习的时隙分配方法


技术介绍

1、随着近几年无人机在关键技术上的突破,具有高机动性和低成本特性的无人机用途十分广泛。在人们的日常生活生产活动中,无人机越来越多地出现,在精准农业、应急救援、交通管制、货物递送等领域发挥着重要作用。

2、然而,随着无人化进程的加深,单无人机能力不足、资源有限、任务执行低效,如同自然界中动物通过成群结伴来弥补个体能力的有限,无人机集群执行复杂任务成为无人机应用的重要模式,无人机集群信息实现实时传递的关键是无人机通信网络。

3、但无人机通信网络在实际操作中存在着众多问题,比如,电力资源、功率资源等等都存在着资源利用率不高的问题。资源分配问题是智能场景下研究的一个热点。

4、在无人机通信网络中,由于有限的频谱资源和动态的无人机用户需求,时隙分配最常被用来解决资源竞争和协调的问题。然而,时隙分配是一个经典的np难题,困扰着众多研究者。其中一些传统的求解方式,如枚举法、分支定界法、动态规划法,这些都是很容易实现但又很缓慢的搜索方式;对于传统的智能算法,如遗传算法、差分进化算法,要想扩展有一定难度。巨大的状态空间和不断变化的环境使得传统的决策方法在这方面的效果并不理想。

5、随着各个研究领域深度强化学习技术的不断发展,针对此项问题,强化学习被重新带到了研究者的视野中。更多基于深度强化学习技术解决资源分配问题的方法被提出,强化学习算法训练出的模型不仅决策速度快,而且扩展性强,能够在各种场景中广泛应用,能够有效应对动态变化的环境,非常适用于动态资源分配问题。强化学习是一种基于经验学习和探索的智能算法,可以通过对实时环境的反馈以及循环性训练,不断优化决策结果。


技术实现思路

1、有鉴于此,本专利技术提出一种多无人机网络下基于深度强化学习的时隙分配方法,能够解决无人机通信网络资源利用率不高的问题。

2、为达到上述目的,本专利技术提供如下技术方案:

3、一种多无人机网络下基于深度强化学习的时隙分配方法,包括以下步骤:

4、(1)对多无人机网络时隙分配建立马尔可夫决策过程模型,在马尔可夫决策过程模型中建立无人机在环境中的环境状态、动作集合和奖励函数;

5、(2)利用马尔可夫决策过程模型对近端策略优化算法深度强化学习网络进行训练;

6、(3)利用训练过的近端策略优化算法深度强化学习网络对多无人机网络进行动态时隙分配。

7、进一步地,所述马尔可夫决策过程模型包括状态空间、动作空间和奖励函数;在t时刻下,环境状态为st,智能体根据当前的状态选取策略at,环境变为下一状态st+1,同时得到反馈的奖励rt;假设无人机群网络的环境状态集合为s,动作集合为a,回报奖赏为r,在环境中无人机的数量为n,一个周期需要分配的时隙数量为t,动态时隙分配的环境映射如下:

8、环境状态s:

9、s={s1,s2,…,sn}

10、在动态时隙分配的情况下,环境状态包括无人机节点负载,无人机节点链接拓扑;

11、动作集合a:

12、a={a1,a2,…,an×t},ai∈{0,1}

13、式中,ai表示的是第imodt无人机在时隙i÷t时隙下的动作,即,该时隙下,对于无人机i是否进行数据传输,共有2个动作能够执行,ai=0表示该时隙下无人机不进行数据传输,ai=1表示该时隙下无人机试图进行数据传输。

14、进一步地,无人机节点链接拓扑定义为如下形式的邻接矩阵输入网络:

15、

16、其中cij代表节点i、j的联通情况;

17、节点当前负载定义为整形数组。

18、进一步地,步骤(2)的具体方式为:

19、(1)初始化神经网络参数、状态s,将无人机初始拓扑情况、无人机载荷输入网络,奖励的衰减率设置为0.99,近端策略优化算法中优势估计函数裁剪策略的参数设置为0.2;

20、(2)通过强化学习算法选择动作a;

21、(3)执行奖赏函数r,得到下一状态s,奖赏函数根据最大化系统整体的长期期望折扣奖励,以及问题的约束条件定义;

22、(4)判断结束标志,如没结束则返回步骤2,如果结束,输出所有动作。

23、进一步地,为了最大化系统整体的长期期望折扣奖励,奖赏函数需要满足以下约束条件:

24、

25、

26、其中,假设两跳以上的节点能够利用空间复用的方式避免干扰,c1保障了在一个时隙调度周期内所有无人平台节点至少存在一次时隙调度,c2要求同一个时隙不会分配给相邻两个节点,c3约束了分配到同一个时隙的节点间不存在两条链路。

27、与现有技术相比,本专利技术技术方案的有益效果是:

28、1、本专利技术将网络拓扑结构纳入考虑,提出的深度强化学习方案,有效提高了信道利用率。

29、2、本专利技术采用强化学习算法解决资源分配问题,强化学习算法训练出的模型不仅决策速度快,而且扩展性强,能够在各种场景中广泛应用,能够有效应对动态变化的环境,非常适用于动态资源分配问题。

本文档来自技高网...

【技术保护点】

1.一种多无人机网络下基于深度强化学习的时隙分配方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种多无人机网络下基于深度强化学习的时隙分配方法,其特征在于,所述马尔可夫决策过程模型包括状态空间、动作空间和奖励函数;在t时刻下,环境状态为St,智能体根据当前的状态选取策略At,环境变为下一状态St+1,同时得到反馈的奖励Rt;假设无人机群网络的环境状态集合为S,动作集合为A,回报奖赏为R,在环境中无人机的数量为N,一个周期需要分配的时隙数量为T,动态时隙分配的环境映射如下:

3.如权利要求2所述的一种多无人机网络下基于深度强化学习的时隙分配方法,其特征在于,无人机节点链接拓扑定义为如下形式的邻接矩阵输入网络:

4.如权利要求1所述的一种多无人机网络下基于深度强化学习的时隙分配方法,其特征在于,步骤(2)的具体方式为:

5.如权利要求4所述的一种多无人机网络下基于深度强化学习的时隙分配方法,其特征在于,为了最大化系统整体的长期期望折扣奖励,奖赏函数需要满足以下约束条件:

【技术特征摘要】

1.一种多无人机网络下基于深度强化学习的时隙分配方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种多无人机网络下基于深度强化学习的时隙分配方法,其特征在于,所述马尔可夫决策过程模型包括状态空间、动作空间和奖励函数;在t时刻下,环境状态为st,智能体根据当前的状态选取策略at,环境变为下一状态st+1,同时得到反馈的奖励rt;假设无人机群网络的环境状态集合为s,动作集合为a,回报奖赏为r,在环境中无人机的数量为n,一个周期需要分配的时隙数量为t...

【专利技术属性】
技术研发人员:范文帝葛洪武杜龙海陈丛刘晓赵菁伟杨凯张亚伦
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1