无人机多跳中继保密通信系统资源分配方法技术方案

技术编号：40755443 阅读：2 留言：0更新日期：2024-03-25 20:09

本发明专利技术无人机多跳中继保密通信系统资源分配方法，属于无人机通信技术领域。本发明专利技术构建无人机群辅助多跳中继保密通信模型，基于该通信模型，建立联合优化模型，以最大化在一个周期内的最小保密率为联合优化目标函数，求解无人机飞行速度、飞行角度、发射功率和用户调度系数；基于该联合优化模型，搭建基于深度确定性策略梯度算法架构，进行深度强化学习训练，获得所述无人机群的最优动作和最大奖励，最优动作是所述无人机多跳中继保密通信系统的最优资源分配，最大奖励是所述无人机群辅助多跳中继保密通信模型达到的最大的最小保密速率。本发明专利技术解决了远距离通信受阻时的信息安全问题，保障安全通信，实现通信系统的最优资源配置。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于无人机通信，尤其涉及无人机多跳中继保密通信系统资源分配方法。

技术介绍

1、随着网络技术的不断提升和5g时代的到来，人们对网络覆盖的范围和网络速度的要求也越来越高，无人机(unmanned aerial vehicle，uav)为实现这些要求提供了可能。无人机是由无线通信实现遥控并由自备程序实现控制的无人驾驶航空飞行器。无人机所需的日常维护成本较低，且易于保养，小尺寸无人机更是具有方便携带的特点。随着无线通信技术和无人机技术的提高，无人机也可以作为移动中继来协助通信。当多节点的通信链路之间存在高山或者大型建筑物时，采用无人机作为移动中继并根据实际的信道环境，设置合理的转发协议，对信号进行相应的处理后进行转发，以便于实现源节点和目的节点之间的正常通信。

2、通常来说，在无线通信系统中大多数研究采用的防窃听技术主要有密钥加密技术和无线物理层安全技术(wireless physical layer security，wpls)。相比于密钥加密技术而言，wpls可以在不需要复杂算法以及密钥的前提下保证系统的安全性，是无线通信中应用比较广泛的防窃听技术。中继是一种提高系统通信安全性的普遍wpls方法。无人机用作移动中继时，可以利用自身的灵活性改善通信系统的安全性能，即通过实时调整自身的飞行方向和速度，与合法接收者建立具有更好信道质量的无线信道，与非法窃听者建立质量较差的无线信道，从而实现无人机中继系统的信息安全传输，确保源节点和目的节点之间进行可靠的通信。因此，无人机中继技术对提高无人机中继通信系统的安全性能有很重要的现实意义。

3、现有关于无人机中继通信物理层安全问题的研究主要集中在优化单个无人机中继的发射功率或飞行轨迹来最大化通信系统的保密率，并未考虑远距离移动节点之间通信的保密性能即无人机多跳中继通信的保密性，缺少通过协作干扰无人机来提升远距离通信系统安全性能的研究。

4、在研究无人机中继通信系统时，往往采用最小保密率作为评价系统保密性能的指标。研究如何获取最优的系统资源配置以达到最小保密率最大化，涉及连续动作空间和复杂状态空间的问题，系统往往具有多个约束和非线性特征，这转化为一个具有多种约束的非凸问题，难以通过传统的凸优化方法来求解这个优化问题。随着强化学习技术的发展，研究人员也探讨采用强化学习来解决这一问题，但其效果并不理想。

5、深度强化学习(deep reinforcement learning，drl)包含很多算法，例如深度q网络(deep q network，dqn),结合神经网络强大的拟合能力和学习算法帮助智能体学习到最优策略。q学习是一种基于值函数的算法，它通过构建一张表格来存储状态与动作以及对应的状态值，通过选取下一个状态中最大q值对q值进行更新，这种学习方式也决定了这种方法较为适合动作和状态空间离散且较小的问题。当状态数较大时，会造成表的维度很大，将严重降低运行速度，且对设备的内存空间也有较高要求。dqn算法结合了人工神经网络来避免q学习算法在状态动作空间较大时q表维数过大的问题。但是dqn也是基于值函数的算法，这意味着该算法所获得的动作空间也是离散的。当优化的变量是连续动作，而将值离散化后可能会很难找到最优策略。

6、在强化学习(reinforcement learning，rl)中，另一类是基于策略的方法。在这种方法中将策略表示为一个连续的函数，通过对其进行优化直接获得最优策略，策略梯度算法(policy gradient，pg)就是一种基于策略的rl算法。pg利用神经网络输入系统当前的状态，输出在当前状态下采取每个动作的概率或者概率分布。经过之前的分析，可以知道神经网络的训练大多依靠误差反向传播算法，即通过对误差函数的梯度下降获得最小的损失，从而获得相应的策略。pg算法中为了能够直接得到策略，采用奖励函数作为目标函数，增大采取获得更高回报的动作的概率，直到最后目标函数收敛并输出最优策略。pg算法虽然可以解决连续动作和状态空间的问题，但是它的奖励是基于一个回合的，所以学习效率很低。为了解决这个问题，引入了ac(actor-critic)网络。它由两个部分组成，actor网络(an)和critic网络(cn)，actor网络也常常被翻译为策略网络或演员网络。其中an来源于pg，它可以在连续动作空间中选取较为适合的动作。critic网络也常常被翻译为价值网络或批评家网络，cn采用基于值函数的方法中的dqn算法，对an输出的动作进行评价，根据cn的反馈来更新自身网络的参数，即更新选择动作的概率。ac算法虽然解决了pg算法效率低的问题，但是由于在使用神经网络进行值函数的估计时，数据间的相关性较强，且an选取动作的概率要基于cn所估计的值函数，由于cn自身收敛比较困难，两者均收敛就显得更加困难。

技术实现思路

1、为了解决上述技术问题，更加有效地提高通信系统的保密性能，满足存在潜在窃听者下情形的成对移动节点之间保密通信的需求，本专利技术提供了无人机多跳中继保密通信系统资源分配方法，包括：

2、构建无人机群辅助多跳中继保密通信模型；

3、基于无人机群辅助多跳中继保密通信模型，建立联合优化模型，在所述联合优化模型中，以最大化在一个周期内的最小保密率为联合优化目标函数，求解无人机飞行速度、飞行角度、发射功率和用户调度系数；

4、基于所述联合优化模型，搭建无人机多跳中继保密通信网络的深度强化学习架构，所述深度强化学习架构采用基于深度确定性策略梯度算法架构；

5、利用所述基于深度确定性策略梯度算法架构，进行强化学习训练，获得所述无人机群的最优动作和最大奖励，所述最优动作是所述无人机多跳中继保密通信系统的最优资源分配，即无人机群的最优轨迹、最优用户调度和最优无人机群发射功率，所述最大奖励是所述无人机群辅助多跳中继保密通信模型达到的最大的最小保密速率。

6、本专利技术的有益效果：本专利技术首先构建了无人机群辅助多跳中继保密通信系统模型，该模型中存在潜在窃听者、移动用户(包括目标节点和源节点)、无人机中继和干扰无人机，实质构成一个基于协作干扰的无人机群辅助多跳中继保密通信系统模型，为远距离移动节点或有阻碍远距离通信构造可靠通信链路，保证了无人机群辅助多跳中继保密通信系统的安全通信，解决了远距离通信受阻时的信息安全问题；其次，以实现最大化系统最小保密速率为目标，建立了一种无人机群的飞行轨迹、发射功率以及用户调度的联合优化模型；然后，基于该联合优化模型，利用马尔可夫决策过程构建基于深度确定性策略梯度算法(deep deterministic policy gradient,ddpg)架构；最后，通过基于深度确定性策略梯度算法(ddpg)架构，实现所述无人机群辅助多跳中继保密通信系统模型的最优资源分配即无人机群的最优轨迹、最优用户调度和最优无人机群发射功率，使得无人机群辅助多跳中继保密通信系统达到最大的最小保密速率。

本文档来自技高网...

【技术保护点】

1.无人机多跳中继保密通信系统资源分配方法，其特征在于，包括：

2.根据权利要求1所述的无人机多跳中继保密通信系统资源分配方法，其特征在于，所述无人机群辅助多跳中继通信模型包括：源节点Sm、目的节点Dm、若干无人机中继Rk、地面窃听者E和移动干扰机J，所述源节点Sm通过若干无人机中继Rk发送信息给目的节点Dm，所述地面窃听者E的位置是未知的，所述无人机中继Rk转发信息信号，所述移动干扰机J发射干扰信号。

3.根据权利要求2所述的无人机多跳中继保密通信系统资源分配方法，其特征在于，在所述无人机群辅助多跳中继保密通信模型中，无人机的轨迹划分为无人机在整个飞行周期内每个时隙所处位置的连接线，每个无人机在相邻时隙中的位置满足约束条件；在时隙n中，中继无人机转发信息信号，干扰无人机发射干扰信号，中继无人机的发射功率PR和干扰无人机的发射功率PJ同时满足约束条件；无人机采用用户调度的方式服务多对源节点和目的节点，中继无人机在第n个时隙最多为一对源节点和目的节点提供服务；计算在n时隙源节点Sm到R1链路的信息传输速率计算在n时隙中继无人机RM到目的节点Dm的信息传输速率

4.根据权利要求3所述的无人机多跳中继保密通信系统资源分配方法，其特征在于，在所述无人机群辅助多跳中继通信模型中，使用最小保密速率作为衡量所述无人机群辅助多跳中继模型保密性能的指标，计算所述无人机群辅助多跳中继模型系统在一个周期内的最小保密率所述最小保密率的计算公式具体表示为：

5.根据权利要求4所述的无人机多跳中继保密通信系统资源分配方法，其特征在于，所述联合优化模型包括：每个无人机的速度无人机飞行角度的集合无人机的发射功率集合无人机用户调度系数的集合

6.根据权利要求5所述的无人机多跳中继保密通信系统资源分配方法，其特征在于，actor双网络、critic双网络和经验回放缓冲区，actor双网络包括策略网络和与其结构相同的策略目标网络，critic双网络包括价值网络和与其结构相同的价值目标网络，actor双网络中的动作和状态分别对应马尔可夫决策过程的动作空间表示和状态空间表示，critic双网络中的即时奖励对应马尔可夫决策过程的即时奖励表示；

7.根据权利要求6所述的无人机多跳中继保密通信系统资源分配方法，其特征在于，所述基于深度确定性策略梯度架构的训练过程包括：

...

【技术特征摘要】

1.无人机多跳中继保密通信系统资源分配方法，其特征在于，包括：

2.根据权利要求1所述的无人机多跳中继保密通信系统资源分配方法，其特征在于，所述无人机群辅助多跳中继通信模型包括：源节点sm、目的节点dm、若干无人机中继rk、地面窃听者e和移动干扰机j，所述源节点sm通过若干无人机中继rk发送信息给目的节点dm，所述地面窃听者e的位置是未知的，所述无人机中继rk转发信息信号，所述移动干扰机j发射干扰信号。

3.根据权利要求2所述的无人机多跳中继保密通信系统资源分配方法，其特征在于，在所述无人机群辅助多跳中继保密通信模型中，无人机的轨迹划分为无人机在整个飞行周期内每个时隙所处位置的连接线，每个无人机在相邻时隙中的位置满足约束条件；在时隙n中，中继无人机转发信息信号，干扰无人机发射干扰信号，中继无人机的发射功率pr和干扰无人机的发射功率pj同时满足约束条件；无人机采用用户调度的方式服务多对源节点和目的节点，中继无人机在第n个时隙最多为一对源节点和目的节点提供服务；计算在n时隙源节点sm到r1链路的信息传输速率计算在n时隙中继无人机rm到目的节点dm的信息传输速率计算在n时隙中继无人机rk到中继无人机rk+1链路的信息传输速率计算在n时隙时地面窃听者e窃取...

【专利技术属性】
技术研发人员：龙月芳，李云，鲜永菊，蒋云凤，刘子梁，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人