一种基于多智能体强化学习的无人机网络协同快跳频方法技术

技术编号:30534004 阅读:22 留言:0更新日期:2021-10-30 13:07
本发明专利技术公开了一种基于多智能体强化学习的无人机网络协同快跳频方法,具体为:输入无人机网络环境,每对无人机初始化自身Q表以及最优先验动作分布估计、互信息惩罚项系数和动作状态对出现次数;在当前时隙中,每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励;每对无人机观测环境的当前状态,再与其它无人机对交互当前状态下各个动作的Q值得到全局Q值,根据互信息正则化soft Q

【技术实现步骤摘要】
一种基于多智能体强化学习的无人机网络协同快跳频方法


[0001]本专利技术属于无线移动网络中的通信
,具体涉及一种基于多智能体强化学习的无人机网络协同快跳频方法。

技术介绍

[0002]面对人们日益增加的通信需求,由于地面通信基础设施在部署成本和灵活性等方面都存在一定的局限性,因此无人机通信网络逐渐受到大家的关注(Zeng Y,Wu Q,Zhang R.Accessing from the sky:A tutorial on UAV communications for 5G and beyond[J].Proceedings of the IEEE,2019,107(12):2327

2375.)。无人机因具有体积小、部署成本低以及高敏捷性和可控性等特点,故可以用于处理紧急搜索与救援任务、充当移动中继以及天气监测和交通监控(Gupta L,Jain R,Vaszkun G.Survey of important issues in UAV communication networks[J].IEEE Communications Surveys&Tutorials,2015,18(2):1123

1152.)。
[0003]特别地,当无人机对之间直接通信时,所建立的短程视距通信链路可以有效减少信号传输衰落。然而,与地面设备对设备通信一样,无人机对无人机通信也面临着干扰机恶意干扰攻击的威胁。并且由于频谱资源紧缺,用户间的同频道干扰也存在于无人机通信网络中,因此亟需有效的动态资源分配方案以提供通信保障(Xu Y,Ren G,Chen J,et al.A one

leader multi

follower Bayesian

Stackelberg game for anti

jamming transmission in UAV communication networks[J].IEEE Access,2018,6:21697

21709.)。
[0004]在一些采用了传统优化方法的研究中,学者们为了简化优化问题,人为干预地限制了无人机的特性,如提前设定好无人机的飞行轨迹(Zhang S,Zhang H,Di B,et al.Cellular UAV

to

X communications:Design and optimization for multi

UAV networks[J].IEEE Transactions on Wireless Communications,2019,18(2):1346

1359.)。而强化学习算法可以应对复杂的无人机通信网络,这是因为智能体可以在与环境交互过程中不断学习以提高无人机通信网络的性能。但是由于单智能体强化学习算法需要中央控制器收集全局信息来进行决策,而中央控制器在无人机通信网络中难以部署,因此学者们引入多智能体强化学习算法来解决无人机通信网络中的资源分配优化问题(Cui J,Liu Y,Nallanathan A.Multi

agent reinforcement learning

based resource allocation for UAV networks[J].IEEE Transactions on Wireless Communications,2019,19(2):729

743.)。其中一些学者们所提出基于多智能体独立的资源分配方案虽然较传统方案性能更优,但未考虑采用多智能体协同框架所带来的性能提升(Tang J,Song J,Ou J,et al.Minimum throughput maximization for multi

UAV enabled WPCN:Adeep reinforcement learning method[J].IEEE Access,2020,8:9124

9132.)。

技术实现思路

[0005]本专利技术提出了一种基于多智能体强化学习的无人机网络协同快跳频方法,提高了所有无人机对的总吞吐量性能,为无人机网络提供了通信保障。
[0006]实现本专利技术目的的技术解决方案为:一种基于多智能体强化学习的无人机网络协同快跳频方法,包括以下步骤:
[0007]步骤1、输入无人机网络环境,其中每对无人机作为独立的智能体初始化自身Q表以及最优先验动作分布估计、互信息惩罚项系数和动作状态对出现次数;
[0008]步骤2、在当前时隙中,每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励;
[0009]步骤3、每对无人机观测环境的当前状态,再与其它无人机对交互当前状态下各个动作的Q值以得到全局Q值,进而根据互信息正则化soft Q

learning算法中的行为策略生成动作;
[0010]步骤4、每对无人机根据互信息正则化soft Q

learning算法中的更新方式来更新自身Q表以及各个参量;
[0011]步骤5、当达到训练回合的最大步数时,结束当前回合,开始下一回合,重新输入无人机网络环境,重复步骤2~步骤4。
[0012]进一步地,将连续的训练时间离散化为多个时隙,用正整数来表示第j个时隙;假设网络中有M个无人机对和N个干扰机,分别用集合和来表示。
[0013]进一步地,步骤1中所述输入无人机网络环境,其中无人机网络环境包含:
[0014](1)网络模型:无人机对和干扰机均按照马尔可夫随机移动模型移动,且每对无人机中的接收机与发射机之间的距离受限;
[0015](2)信道模型:考虑系统中存在有限个子频带,且信道功率增益由路径损耗和快衰落组成,所述路径损耗只考虑视距情况,快衰落指瑞利衰落;
[0016](3)无线传输模型:当实际传输速率小于等于所选信道的可达速率时,吞吐量为此时隙传输时间内传输的比特个数;否则,吞吐量为0;
[0017](4)干扰模型:设置干扰机的干扰类型为单音扫频干扰,不同干扰机所干扰的信道不会重叠,且干扰机可干扰信道集即为无人机对可用信道集合。
[0018]进一步地,步骤2所述每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励,具体为:
[0019](1)无人机对的动作
[0020]每对无人机的动作包括两部分,第一部分是选择自身下一时隙的传输信道,第二部分是预测其它无人机对下一时隙选择的传输信道,则第m个无人机对在时隙j时的动作表示为:
[0021][0022]其中,表示第m个无人机对在时隙j+1时的传输信道;
m

≠m是第m个无人机对预测其它无人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的无人机网络协同快跳频方法,其特征在于,包括以下步骤:步骤1、输入无人机网络环境,其中每对无人机作为独立的智能体初始化自身Q表以及最优先验动作分布估计、互信息惩罚项系数和动作状态对出现次数;步骤2、在当前时隙中,每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励;步骤3、每对无人机观测环境的当前状态,再与其它无人机对交互当前状态下各个动作的Q值以得到全局Q值,进而根据互信息正则化soft Q

learning算法中的行为策略生成动作;步骤4、每对无人机根据互信息正则化soft Q

learning算法中的更新方式来更新自身Q表以及各个参量;步骤5、当达到训练回合的最大步数时,结束当前回合,开始下一回合,重新输入无人机网络环境,重复步骤2~步骤4。2.根据权利要求1所述的基于多智能体强化学习的无人机网络协同快跳频方法,其特征在于,将连续的训练时间离散化为多个时隙,用正整数来表示第j个时隙;假设网络中有M个无人机对和N个干扰机,分别用集合和来表示。3.根据权利要求2所述的基于多智能体强化学习的无人机网络协同快跳频方法,其特征在于,步骤1中所述输入无人机网络环境,其中无人机网络环境包含:(1)网络模型:无人机对和干扰机均按照马尔可夫随机移动模型移动,且每对无人机中的接收机与发射机之间的距离受限;(2)信道模型:考虑系统中存在有限个子频带,且信道功率增益由路径损耗和快衰落组成,所述路径损耗只考虑视距情况,快衰落指瑞利衰落;(3)无线传输模型:当实际传输速率小于等于所选信道的可达速率时,吞吐量为此时隙传输时间内传输的比特个数;否则,吞吐量为0;(4)干扰模型:设置干扰机的干扰类型为单音扫频干扰,不同干扰机所干扰的信道不会重叠,且干扰机可干扰信道集即为无人机对可用信道集合。4.根据权利要求2或3所述的基于多智能体强化学习的无人机网络协同快跳频方法,其特征在于,步骤2所述每对无人机根据上一时隙生成的动作选择传输信道,传输完成后得到环境反馈的奖励,具体为:(1)无人机对的动作每对无人机的动作包括两部分,第一部分是选择自身下一时隙的传输信道,第二部分是预测其它无人机对下一时隙选择的传输信道,则第m个无人机对在时隙j时的动作表示为:其中,表示第m个无人机对在时隙j+1时的传输信道;是第m个无人机对预测其它无人机对在时隙j+1的传输信道向量;实际上,由于每对无人机
只能控制自身下一时隙的传输信道,因此所有无人机对在时隙j+1时使用的传输信道向量表示为(2)系统奖励为了最大化所有无人机对的吞吐量,系统奖励设置为所有无人机对的总归一化吞吐量,即第m个无人机对在时隙j时的奖励表示为:其中,是第m个无人机对在时隙j时的吞吐量,C
tra...

【专利技术属性】
技术研发人员:彭诺蘅林艳张一晋李骏
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1