基于MP-DQN的中继辅助多通道FSO网络动态资源分配方法组成比例

技术编号:38090385 阅读:14 留言:0更新日期:2023-07-06 09:01
本发明专利技术提供了一种基于MP

【技术实现步骤摘要】
基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法


[0001]本专利技术涉及自由空间光网络领域,具体涉及一种基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法。

技术介绍

[0002]自由空间光通信(FSOC)因其高速传输能力,高容量、低成本、安全性强、结构灵活而受到人们的广泛关注。尽管拥有这些优势,自由空间光通信在通过大气传输时可能会受到通道特性的严重影响,如大气湍流引起的衰落、几何损失和指向误差。因此,自由空间光通信的传输距离和系统性能都受到了显著的限制。为了克服这些限制,许多FSO资源分配方法被提出,常见的FSO资源分配方法包括功率分配,中继选择,中继定位以及联合功率分配和中继选择。其中,功率分配已成为一种流行的协同传输技术,在减轻信道衰落效应的同时提高功率利用率,不造成资源浪费。中继选择能够通过将长链路划分为若干个短链路来缓解链路中断的不利影响。目前,针对FSO网络资源分配的优化算法研究集中于根据信道状态信息(CSI)通过优化包括功率分配,中继选择,中继定位在内的参数来最大化或最小化系统指标(如信道容量,中断概率)。随着强化学习(RL)的发展和应用,基于强化学习的FSO网络资源分配算法已成为一个热门热点,这是由于强化学习方法致力于最大化累积回报的优点,它在动态优化问题中具有不可替代的优势。文献(Gao,Z.;Eisen,M.;RibeiRo,A.ResouRce Allocation via Model

FRee Deep LeaRning in FRee Space Optical CoMMunications.IEEE TRans.WiRel.CoMMun.2022,70,920

934)设计了一种无模型的原始

对偶深度学习算法来提高传输容量,并将策略梯度法应用于原始更新,以估计必要的原始更新梯度信息。文献(Su,Y.;Lu,X.;Zhao,Y.;Huang,L.;Du,X.CoopeRative CoMMunications with Relay Selection based on Deep ReinfoRceMent LeaRning in WiReless SensoR NetwoRks.IEEE Sens.J.2019,19,9561

9569)将合作通信过程中的CSI与中继选择作为马尔可夫决策过程进行建模。采用深度q网络(DQN)从多个中继中选择最优中继节点,以最小化通信网络的中断概率。文献(Gao S

J,Li Y

T,Geng T

W.Deep ReinfoRceMent LeaRning

Based Relay Selection AlgoRithM in FRee

Space Optical CoopeRative CoMMunications.Applied Sciences.2022)在基于深度q网络(DQN)的基础上,提出了一种旨在最大化平均容量的DQN

RS算法。与相关工作不同的是,考虑了中继节点之间的切换损耗。
[0003]然而,针对目前的FSO网络资源分配算法研究存在以下几点问题:1.FSO信道特性易随着天气,湍流等因素发生变化,因此即使在同一个地理位置下在不同的时间段,FSO信道特性也不相同。其次,出于现实的考虑,为了防止因中继器电池电量耗尽导致FSO网络中断,在对包含功率分配的FSO网络资源分配场景中应该考虑了每个时间段中继器的剩余电量情况。综上,基于信道状态信息的中继辅助多通道FSO网络资源分配问题应是一个动态的资源分配问题;2.现有FSOC信道测量和建模工作多集中于地面网络,而星地、空地等链路信道特性与地面网络信道存在显著差异。目前还没有相关研究能构建健全的空基、天基网络
信道模型。因此,需要提出一种无模型的资源分配算法,可以在不了解系统模型的情况下,通过即时的性能指标观测值实现动态资源分配。3.但是上述基于深度强化学习(DRL)的FSO网络资源分配研究内容大多数只针对单独的离散动作空间或者单独的连续动作空间,通过利用强化学习(RL)中主要的算法DQN,Q

leaRning,DDPG进行处理。
[0004]然而,以上这些方法只能单独处理离散动作或连续动作,无法处理类似联合功率分配和中继选择这种混合动作空间的FSO网络资源分配问题。

技术实现思路

[0005]本专利技术的目的是提供一种基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法,使用参数化动作空间,不仅可以处理混合动作空间,而且在考虑每个时隙下中继节点的剩余电量的前提下,实现较高的信道总容量。
[0006]具体地,其技术方案如下:
[0007]一种基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法,包括:
[0008]采集数据,获取训练数据集,并建立MP

DQN代理模型;
[0009]设置所述MP

DQN代理模型的状态空间、动作空间,动作参数和奖励,得到设置后的MP

DQN代理模型;
[0010]根据所述训练数据集训练所述MP

DQN代理模型,得到训练后的MP

DQN代理模型;
[0011]使用训练后的MP

DQN代理模型进行中继辅助多通道的FSO网络资源分配;
[0012]所述MP

DQN代理模型包含:Q值估计网络和Q值目标网络;其中,所述Q值估计网络与所述中继辅助多通道FSO网络环境进行交互并输出动作价值函数Q(s,a);所述Q值目标网络则负责计算损失梯度,用于在Q值估计网络参数更新完成后,更新Q值估计网络的参数。
[0013]所述状态空间,包括:
[0014]信道状态信息h,中继节点的剩余电量b,中继节点收集的电量e中的一个或几个;
[0015]将所述中继辅助多通道FSO网络在第k个时隙的状态定义为S
k
=[h
k
,b
k
,e
k
‑1],h
k
表示第k个时隙下的各个信道的信道状态信息集合,b
k
表示第k个时隙下各个中继器的剩余电量集合,e
k
‑1表示在第k

1个时隙下各个中继器的收集的电量的集合。
[0016]所述动作空间,包括:
[0017]将第k个时隙下的动作定义为a
k
={N(h),P(h)},P(h)=[P
T,N(h)
,P
N(h),R
],代表在发射机与选定的中继器通信链路之间对L个光载波分别分配的发射功率集合,代表在选定的中继器与接收机通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法,其特征在于,包括:采集数据,获取训练数据集,并建立MP

DQN代理模型;设置所述MP

DQN代理模型的状态空间、动作空间,动作参数和奖励,得到设置后的MP

DQN代理模型;根据所述训练数据集训练所述MP

DQN代理模型,得到训练后的MP

DQN代理模型;使用训练后的MP

DQN代理模型进行中继辅助多通道的FSO网络资源分配;所述MP

DQN代理模型包含:Q值估计网络和Q值目标网络;其中,所述Q值估计网络与所述中继辅助多通道FSO网络环境进行交互并输出动作价值函数Q(s,a);所述Q值目标网络则负责计算损失梯度,用于在Q值估计网络参数更新完成后,更新Q值估计网络的参数。2.根据权利要求1所述的基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法,其特征在于,所述状态空间,包括:信道状态信息h,中继节点的剩余电量b,中继节点收集的电量e中的一个或几个;将所述中继辅助多通道FSO网络在第k个时隙的状态定义为S
k
=[h
k
,b
k
,e
k
‑1],h
k
表示第k个时隙下的各个信道的信道状态信息集合,b
k
表示第k个时隙下各个中继器的剩余电量集合,e
k
‑1表示在第k

1个时隙下各个中继器的收集的电量的集合。3.根据权利要求1所述的基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法,其特征在于,所述动作空间,包括:将第k个时隙下的动作定义为a
k
={N(h),P(h)},P(h)=[P
T,N(h)
,P
N(h),R
],代表在发射机与选定的中继器通信链路之间对L个光载波分别分配的发射功率集合,代表在选定的中继器与接收机通信链路之间对L个光载波分别分配的发射功率集合,P(h)为连续动作,T代表发射机,R代表接收机.N={n|N∈0:num_relay

1)表示选定的中继器,为离散动作;num_relay表示中继辅助多通道FSO网络的中继节点数量;动作参数为离散动作相关联的连续动作参数,表示分别在发射机与中继器,中继器与接收机的通信链路之间分别对L个光载波分配相应的发射功率,最后组成参数化动作A
PA
={(N,P
N
)|P
N
∈A
c
,N∈A
d
},其中A
C
,A
d
分别表示连续动作空间和离散动作空间。4.根据权利要求1所述的基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法,其特征在于,所述奖励,包括:所述奖励R
k
被用于评价在状态S
k
下执行动作a
k
表现性能,包括发射机和选定继电器的总功率限制P
t
,及每个载波的峰值功率限制P
s
;所述奖励对应的奖励函数定义为每个时隙下的总信道容量R
k

其中,代表对不同光载波分配对应的权重;其中,T
f
为帧持续时间,B为带宽,T
f
为帧持续时间,B为带宽,为发射功率,为发射机与选定的中继器通信链路中第L个光载波的信道状态信息,为选定的中继器与接收机通信链路中第L个光载波的信道状态信息,R为光电探测器灵敏度,e为电荷系数,Δf为噪声等效带宽。5.根据权利要求1所述的基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法,其特征在于,所述“采集数据,获取训练数据集,并建立MP

DQN代理模型”,包括:所述训练数据集为中继辅助多通道FSO网络的每一个状态的集合S;S
k
=[h
k
,b
k
,e
k
‑1]表示集合S中的第k个状态;其中h
k
=[h1,...,h
2*num_relay*L
]表示第k个时隙下的各个信道的信道状态信息集合;b
k
=[b1,...,b
num_relay
]表示第k个时隙下各个中继器的剩余电量集合;e
k
‑1=[e1,...,e
num_relay
]表示在第k

1个时隙下各个中继器的收集的电量的集合;在第K个时隙的下一个时隙内电池获得的电量应遵循更新过程为:利用对数正态分布模型生成中继辅助多通道FSO网络环境下的信道状态信息,利用一个固定值初始化每个中继节点的剩余电量以及随机生成中继节点在每个时隙下收集的电量。6.根据权利要求1所述的基于MP

DQN的中继辅助多通道FSO网络动态资源分配方法,其特征在于,所述“根据所述训练数据集训练所述MP

DQN代理模型,得到训练后的MP

DQN代理模型”,包括:将初始化后的MP

DQN代理模型与中继辅助多通道FSO网络环境进行交互,得到训练数据集1;根据得到的训练数据集1对MP

DQN代理模型进行训练,具体如下:从经验池R中随机抽取M个样本(s
k
,a
k
...

【专利技术属性】
技术研发人员:韩一石谢少武郑耿鑫梁红霞甘园园
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1