一种基于多分支DQN模型的卫星载波组与终端分配方法组成比例

技术编号:39005369 阅读:9 留言:0更新日期:2023-10-07 10:36
本发明专利技术为一种基于多分支DQN模型的卫星载波组与终端分配方法,属于卫星载波组与终端分配领域。包括:搭建用于卫星载波组与终端分配的多分支DQN模型;对多分支DQN模型进行训练;获取当前的卫星载波组状态和待分配终端列表状态,使用多分支DQN模型进行前向传播,得到动作价值函数;根据动作价值函数进行动作选择,计算选择的终端在载波组中占用的时隙个数;判断剩余时隙是否满足终端分配需求;判断是否有未分配终端,直至卫星载波组与终端分配流程结束。本发明专利技术提高了载波组内时隙的总资源占用率,同时降低可各载波组资源占用率方差,实现了负载均衡。了负载均衡。了负载均衡。

【技术实现步骤摘要】
一种基于多分支DQN模型的卫星载波组与终端分配方法


[0001]本专利技术涉及卫星通信资源分配领域中的卫星载波组与终端分配方法,特别是涉及基于深度强化学习的卫星载波组与终端分配方法。

技术介绍

[0002]当前典型的卫星通信系统中,卫星资源分配涉及频率、功率、波束、时隙多个方面,分配对象也包括卫星、地面站、转发器、终端和载波组等多个对象。目前关于卫星、频率、功率和波束分配等领域已取得较多成果,但是关于载波组与业务终端之间的时隙分配方法,特别是基于深度强化学习的智能算法在该领域应用还未有深入研究,而载波组与业务终端之间时隙分配是卫星网络管控的重要对象,它是卫星通信系统资源分配的最小粒度,其分配效率直接决定了卫星业务容量的大小。
[0003]当前载波组与业务终端之间的时隙分配方法一般采用平均分配、贪心算法分配和按优先级分配的方式,这些方法都会对载波组中宝贵的时隙资源造成浪费。随着星上处理能力的提高与深度强化学习算法的进步,以及越来越多的经验数据被保存,利用强化学习框架搭建的算法模型可以对这些数据进行资源分配策略的学习,这些先验知识能有效帮助总资源占用率的提高,并降低各载波组资源占用率方差,在提高业容量的同时实现有效的负载均衡,避免星上资源浪费。

技术实现思路

[0004]为解决上述问题,本专利技术提出了一种基于多分支DQN模型的卫星载波组与终端分配方法。在卫星载波组与终端分配这种频率资源宝贵、效率需求高的应用领域内,本专利技术提高了载波组内时隙的总资源占用率,同时降低可各载波组资源占用率方差,实现了负载均衡。
[0005]本专利技术采取的技术方案如下:
[0006]一种基于多分支DQN模型的卫星载波组与终端分配方法,包括以下步骤:
[0007]步骤一:搭建用于卫星载波组与终端分配的多分支DQN模型,所述多分支DQN模型包括卫星载波组状态分支网络、终端状态分支网络和动作价值估计网络三部分,这三部分均由神经网络实现;其中,卫星载波组状态分支网络用于对卫星载波组状态进行特征提取,得到卫星载波组状态特征向量;终端状态分支网络用于对卫星的终端状态进行特征提取,得到终端状态特征向量;卫星载波组状态特征向量和终端状态特征向量拼接后得到整体状态特征向量,动作价值估计网络用于计算当前时刻状态下的动作价值函数;
[0008]步骤二:初始化多分支DQN模型参数和强化学习环境,对多分支DQN模型进行训练,得到训练后的多分支DQN模型;
[0009]步骤三:获取当前时刻t下的卫星载波组状态s
cg
和待分配终端列表状态s
ts
,组成全局状态s
t
=(s
cg
,s
ts
)
t
,使用获取的卫星载波组状态s
cg
和终端列表状态s
ts
作为多分支DQN模型的输入,其中s
cg
作为卫星载波组状态分支网络的输入,s
ts
作为终端状态分支网络的输
入,通过多分支DQN模型进行前向传播,计算动作价值函数;
[0010]步骤四:根据动作价值函数进行动作选择,动作选择包括载波组选择和终端选择,计算选择的终端在载波组中占用的时隙个数;
[0011]步骤五:判断剩余时隙是否满足终端分配需求;若判断否,则卫星载波组与终端分配流程结束,不再执行步骤六;若判断是,则根据动作选择执行相应的卫星载波组与终端分配,并继续执行步骤六;
[0012]步骤六:判断是否有未分配终端;若判断否,则卫星载波组与终端分配流程结束;若判断是,则重复步骤二至步骤六,直至卫星载波组与终端分配流程结束。
[0013]进一步地,步骤二的具体方式为:
[0014]步骤201:初始化多分支DQN模型的模型参数,记为ω,同时初始化目标网络的模型参数ω=ω

,目标网络与多分支DQN模型结构相同;初始化卫星载波组与终端分配的强化学习环境,强化学习环境包括卫星载波组信息和待分配的终端信息,卫星载波组信息包括每个载波组的符号速率、载波个数、时隙个数、调制方式、编码方式、扩频因子、时隙时间和效信息速率,终端信息包括业务终端数量和每个终端所需的业务速率;
[0015]步骤202:根据环境对当前状态进行采样,得到当前时刻下的全局状态s
t
=(s
cg
,s
ts
)
t
,包括卫星载波组状态s
cg
和终端列表状态s
ts
;其中,终端列表状态s
ts
形式为:
[0016]s
ts
={[o1,v1],

,[o
n
,v
n
]}
2*N
[0017]式中,o
n
表示第n个终端的分配状态,分配状态包括未分配至载波组和已分配至载波组两种;v
n
表示第n个终端所需的业务速率;N为业务终端的总数量,s
ts
的长度为2*N;
[0018]卫星载波组状态s
cg
为一个状态矩阵,用于表示每组载波的剩余时隙个数、符号速率和等效信息速率情况,形式为:
[0019][0020]其中,s
nm
表示第m个载波组的剩余时隙个数,其初始值为n
m
,代表第m个载波组的总时隙个数;vs
m
和vi
m
分别表示第m个载波组的、符号速率和等效信息速率,M为载波组的数量;
[0021]步骤203:使用卫星载波组状态和终端列表状态,通过多分支DQN模型前向传播计算动作价值函数;具体方式为:
[0022]使用步骤202得到的终端列表状态s
ts
作为终端状态分支网络的输入,通过多分支DQN模型进行前向传播,得到终端状态的特征向量f
ts
;使用步骤202得到的卫星载波组状态s
cg
作为卫星载波组状态分支网络的输入,通过多分支DQN模型前向传播,得到卫星载波组状态的特征向量f
cg

[0023]将f
ts
与f
cg
进行特征拼接,得到整体状态的特征向量f,并作为动作价值估计网络的输入,通过多分支DQN模型前向传播计算动作价值函数Q(s
t
,a
t
;ω);
[0024]步骤204:根据动作价值函数进行动作选择,动作选择包括载波组和终端的选择,计算选择的终端在载波组中占用的时隙个数;具体方式为:
[0025]根据动作价值函数Q(s
t
,a
t
;ω)和贪心策略进行当前时刻t下的动作选择a
t
,具体形式为:
[0026][0027]其中,∈为贪心策略对A(s)采样的概率,A(s)表示可用动作空间,在卫星载波组和终本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多分支DQN模型的卫星载波组与终端分配方法,其特征在于,包括以下步骤:步骤一:搭建用于卫星载波组与终端分配的多分支DQN模型,所述多分支DQN模型包括卫星载波组状态分支网络、终端状态分支网络和动作价值估计网络三部分,这三部分均由神经网络实现;其中,卫星载波组状态分支网络用于对卫星载波组状态进行特征提取,得到卫星载波组状态特征向量;终端状态分支网络用于对卫星的终端状态进行特征提取,得到终端状态特征向量;卫星载波组状态特征向量和终端状态特征向量拼接后得到整体状态特征向量,动作价值估计网络用于计算当前时刻状态下的动作价值函数;步骤二:初始化多分支DQN模型参数和强化学习环境,对多分支DQN模型进行训练,得到训练后的多分支DQN模型;步骤三:获取当前时刻t下的卫星载波组状态s
cg
和待分配终端列表状态s
ts
,组成全局状态s
t
=(s
cg
,s
ts
)
t
,使用获取的卫星载波组状态s
cg
和终端列表状态s
ts
作为多分支DQN模型的输入,其中s
cg
作为卫星载波组状态分支网络的输入,s
ts
作为终端状态分支网络的输入,通过多分支DQN模型进行前向传播,计算动作价值函数;步骤四:根据动作价值函数进行动作选择,动作选择包括载波组选择和终端选择,计算选择的终端在载波组中占用的时隙个数;步骤五:判断剩余时隙是否满足终端分配需求;若判断否,则卫星载波组与终端分配流程结束,不再执行步骤六;若判断是,则根据动作选择执行相应的卫星载波组与终端分配,并继续执行步骤六;步骤六:判断是否有未分配终端;若判断否,则卫星载波组与终端分配流程结束;若判断是,则重复步骤二至步骤六,直至卫星载波组与终端分配流程结束。2.根据权利要求1所述的一种基于多分支DQN模型的卫星载波组与终端分配方法,其特征在于,步骤二的具体方式为:步骤201:初始化多分支DQN模型的模型参数,记为ω,同时初始化目标网络的模型参数ω=ω

,目标网络与多分支DQN模型结构相同;初始化卫星载波组与终端分配的强化学习环境,强化学习环境包括卫星载波组信息和待分配的终端信息,卫星载波组信息包括每个载波组的符号速率、载波个数、时隙个数、调制方式、编码方式、扩频因子、时隙时间和效信息速率,终端信息包括业务终端数量和每个终端所需的业务速率;步骤202:根据环境对当前状态进行采样,得到当前时刻下的全局状态s
t
=(s
cg
,s
ts
)
t
,包括卫星载波组状态s
cg
和终端列表状态s
ts
;其中,终端列表状态s
ts
形式为:s
ts
={[o1,v1],...,[o
n
,v
n
]}
2*N
式中,o
n
表示第n个终端的分配状态,分配状态包括未分配至载波组和已分配至载波组两种;v
n
表示第n个终端所需的业务速率;N为业务终端的总数量,s
ts
的长度为2*N;卫星载波组状态s
cg
为一个状态矩阵,用于表示每组载波的剩余时隙个数、符号速率和等效信息速率情况,形式为:其中,sn
m
表示第m个载波组的剩余时隙个数,其初始值为n
m
,代表第m个载波组的总时隙
个数;vs
m
和vi
m
分别表示第m个载波组的、符号速率和等效信息速率,M为载波组的数量;步骤203:使用卫星载波组状态和终端列表状态,通过多分支DQN模型前向传播计算动作价值函数;具体方式为:使用步骤202得到的终端列表状态s
ts
作为终端状态分支网络的输入,通过多分支DQN模型进行前向传播,得到终端状态的特征向量f
ts
;使用步骤202得到的卫星载波组状态s
cg
作为卫星载波组状态分支网络的输入,通过多分支DQN模型前向传播,得到卫星载波组状态的特征向量f
cg
;将f
ts
与f
cg
进行特征拼接,得到整体状态的特征向量f,并作为动作价值估计网络的输入,通过多分支DQN模型前向传播计算动作价值函数Q(s
t
,a

【专利技术属性】
技术研发人员:马宁孙文宇班亚明耿纪昭王玉清
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1