基于深度强化学习的多体协作式卫星接入与抗干扰方法技术

技术编号：40668638 阅读：3 留言：0更新日期：2024-03-18 19:04

基于深度强化学习的多体协作式卫星接入与抗干扰方法，属于卫星通信领域。使用深度强化学习中Actor‑Critic离线学习方法，搭建部分链接神经网络，使用目标网络软更新神经网络参数，提升在对抗过程中的决策性能，更好的适应电磁环境中的变化；在对环境建模及强化学习的状态建模中，将上一个时刻的动作融入状态当中，再结合奖励的判定，在连续时隙内输出各不相同的动作，使智能接入更具备灵活性与变动性，提升接入的抗干扰能力；使用GPU计算网络及离线策略强化学习方法，在缺乏训练样本和先验数据的情况下也能进行样本采集训练和有效智能接入。本发明专利技术适用于卫星通讯领域，在保障用户接入正确率的情况下，提高抗干扰的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于深度强化学习的多体协作式卫星接入与抗干扰方法，属于卫星通信领域。

技术介绍

1、卫星网络大规模接入是指通过卫星技术为广泛区域内的用户提供高速互联网接入服务。这一概念的兴起源于对全球范围内互联网普及的迫切需求，特别是在那些地理条件较为恶劣、基础设施相对薄弱的地区。发展卫星通信系统，是占据空间信息网络发展制高点、实现网络强国目标的重要举措；能够促进导航增强、广域监视及数据采集分发等行业服务的产业化发展，更是牵引商业航天全面发展、引领信息产业和宇航技术升级的重要举措。

2、然而，卫星网络大规模接入的第一个难题在于当前的随机接入协议在超密集网络中表现不佳，需要能够处理大量请求的高效接入方案。另一个挑战是干扰攻击。为了解决接入拥塞问题，一些增强的随机接入方案包括优先级、基于分组的随机接入和代码扩展的随机接入。有些研究也考虑了编码随机接入和稀疏码多址接入。然而，这些方案需要集中的调度机制，由于传播延迟大和用户数量大，这在广域卫星接入场景中是不可用的。为了抵御干扰攻击，常用的技术手段包括直接序列扩频和跳频扩频，以及多波束天线和自适应抗干扰路由。

3、然而，许多工作都集中在随机接入机制上以提高成功率，有些还实现抗干扰能力。由于高开放性，卫星很容易受到干扰攻击。在恶意干扰环境中，干扰机通过发送干扰信号来降低信道质量，从而导致接入失败。此外，当设备无法访问时，它会不断尝试重新传输，造成电池快速放电和通道堵塞加剧的困境。因此，需要一种先进的随机接入方案来支持卫星网络在干扰攻击下的大规模运作。传统的抗干扰方法无

4、因此，对于复杂电磁环境的多体协作式智能接入卫星与抗干扰问题，不仅得参考传统的接入与抗干扰方法，还得面向不断变化策略的智能干扰，结合深度强化学习算法，持续观测电磁环境的变化，学习干扰的变换规律，进而能更好地提高多卫星接入效率。

技术实现思路

1、针对现有卫星接入技术抗干扰能力不足以及环境适应性差的问题，本专利技术的主要目的是提出一种基于深度强化学习的多体协作式卫星接入与抗干方法，采用深度强化学习中的actor-critic(演员-评论家)算法，将深度神经网络与传统的强化学习q-learning相结合，在星地协作式接入的环境中，设置传统人为干扰与智能干扰两种模式，并兼顾传输时延和传输功率的资源分配。在保障用户接入正确率的情况下，提高抗干扰的能力。

2、本专利技术的目的是通过下述技术方案实现的：

3、本专利技术公开的基于深度强化学习的多智能体协作式电磁抗干扰方法，首先搭建多智能体强化学习的复杂电磁环境，其中包含传输延迟，信号衰落，噪声干扰；传输信道为时间上具备马尔科夫性的变化信道；采用部分连接神经网络，能够同时输出信道选择和功率分配两个动作；采用更为密集的奖励方式，来评判该次动作的好坏；智能体在连续时隙内不能选择相同的信道，以增加其决策的变动性；通过多次回合迭代，不断地提升接入能力与抗干扰能力。

4、本专利技术公开的基于深度强化学习的多体协作式卫星接入与抗干扰方法，包括如下步骤：

5、步骤一：构建多智能体的复杂电磁环境；

6、搭建一个空天一体化网络，此网络中有n个智能用户向卫星传输信息，m个卫星用于接受信息，1个传统的干扰机和1个智能的干扰机。两种干扰机均有同等的机会采用有限的功率接入信道，若干扰机与用户在同一时隙选择同一条信道，则用户传输失败，干扰机干扰成功；否则用户传输成功，且成功规避干扰。此外干扰机的干扰轨迹是部分可观测的。

7、步骤二：在步骤一中的电磁环境中，搭建笛卡尔空间三维坐标系及actor-critic神经网络；

8、基于具有阴影和阻塞效应的可处理视线即los概率模型，对大规模衰落进行建模。在los概率模型中，大规模衰落遵循两个不同事件的广义伯努利分布；信道是具有一定概率的los或非los(nlos)。由于是卫星接入模型，只考虑los信道，因此卫星m和用户n之间的大规模衰落表示为：

9、

10、卫星m和干扰机j之间的大规模衰落表示为：

11、

12、其中，β0是参考距离d0＝1处的平均功率增益，l为三维空间坐标系的向量，分别表示卫星、用户、干扰机的位置向量，α是路径损耗指数。

13、卫星m和用户n之间的信道增益表示为：

14、

15、卫星m和干扰机j之间的信道增益表示为：

16、

17、其中和是时间t处小规模衰落的影响，遵循莱斯(rician)分布。

18、第m个卫星的第k个信道上的干扰器和用户n的发射功率分别为和pn(t)。因此，第m个卫星的第k个信道上的用户n的信道容量为：

19、

20、

21、其中w为信道带宽，表示高斯噪声功率。用户和干扰机的发射功率满足t∈t和其中ptot是每个用户在该时隙下可允许使用的最大功率和，分别是用户和敌方干扰机所能使用的最大功率。

22、步骤三：根据步骤二中三维空间坐标系的位置坐标将获取的频谱信息数据化，得到神经网络的输入状态；

23、为保障用户接入的稳定性，需要获得连续时隙的频谱占用情况。将可用的未被占用的信道记为1，不可用的已被占用的信道记为-1。且将连续9和时隙的频谱占用情况作为神经网络的输入，使用bm(t)表示观测信道情况，bm,k(t)＝1表示有用户成功接入卫星且成功，bm,k(t)＝-1表示有用户接入卫星但失败，bm,k(t)＝0表示没有用户接入卫星。

24、

25、其中，表示用户n在t时刻接入卫星m的第k条信道，u表示用户的占用情况。fn(t)表示用户接入卫星失败的两种情况可为0和1。

26、定义bm(t)＝[bm,1(t)，bm,2(t)····bm,k(t)]，b(t)＝[b1(t)，b2(t)····bm(t)]t来表示信道的占用情况。

27、步骤四：得到步骤三中的状态输入后，分别输入actor网络与critic网络，智能体做出选择合适的信道和功率两个动作来对抗干扰机；

28、此时两个神经网络的所优化的目标梯度如下：

29、

30、其中ω为价值参数，θ为网络参数，qω(st,at)为当前动作q值。πθ(at|st)为当前时刻策略，eπ为策略期望。

31、采用均方差损失函数:

32、

33、其中r为该动作的奖励，γ为衰减因子，vw(st)表示当前时刻的状态价值函数，v(st+1)表示下一时刻的状态价值函数。

34、actor网络从用户的动作空间中选取一条合适的信道，同时也在功率动作空间中选择使用的传输功率，此过程为输出动作at。critic网络计算一下时刻状态v值v(st+1)，再输出时分误差以评判动作的好坏，其时分误差的计算形式为：

35、td-error＝q(s,a)-vw(st)本文档来自技高网...

【技术保护点】

1.基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：包括如下步骤，

2.如权利要求1所述的基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：步骤一的实现方法为，

3.如权利要求1所述的基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：步骤二的实现方法为，

4.如权利要求1所述的基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：步骤三的实现方法为，

5.如权利要求1所述的基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：步骤四的实现方法为，

6.如权利要求1所述的基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：步骤五的实现方法为，

7.如权利要求1所述的基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：步骤六的实现方法为，

【技术特征摘要】

1.基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：包括如下步骤，

2.如权利要求1所述的基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：步骤一的实现方法为，

3.如权利要求1所述的基于深度强化学习的多体协作式卫星接入与抗干扰方法，其特征在于：步骤二的实现方法为，

4.如权利要求1所述的基于深度强化学习的多体协作式卫星接入与抗干...

【专利技术属性】
技术研发人员：王洪圆，潘健雄，欧阳巧琳，王培森，齐斌，许鲁彦，叶能，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人