当前位置: 首页 > 专利查询>东南大学专利>正文

基于负载感知的网络辅助全双工模式优化方法技术

技术编号:32857629 阅读:55 留言:0更新日期:2022-03-30 19:31
本发明专利技术涉及一种基于负载感知的网络辅助全双工无蜂窝大规模MIMO场景下双工模式优化方法,属于移动通信技术领域。该技术涉及两种智能算法,借助AI辅助算力,针对无蜂窝大规模MIMO场景下网络辅助全双工的上下行链路的资源利用效率最大化的问题,利用二元模式选择向量建模RAU(remote antenna unit,远端天线单元)工作模式为上行还是下行传输,给出集中式Q

【技术实现步骤摘要】
基于负载感知的网络辅助全双工模式优化方法


[0001]本专利技术涉及一种基于负载感知的网络辅助全双工模式优化方法,属于移动通信


技术介绍

[0002]目前,6G超可靠低时延通信(URLLC)相关理论和技术研究急需突破。为了减少传统的半双工(HD)系统延迟,一些文献中广泛研究了同时配备发射天线和接收天线的全双工技术(FD),以实现在同一频段内同时发送和接收,理论上可以提升网络吞吐量并降低系统总体时延。最近被提出的无蜂窝大规模MIMO(multi

input multi

output)网络架构下的网络辅助全双工系统能够通过联合处理解决交叉链路干扰的问题,缓解了干扰消除带来的时延问题,并统一了灵活双工、混合双工、全双工和其他双工方法。网络辅助全双工分布式大规模MIMO系统,系统内包含一个中央处理单元,多个远端天线单元以及多个用户。每个RAU(remote antenna unit,远端天线单元)可以进行上行接收或者下行发送,具体选择何种传输模式由CPU决定。
[0003]随着移动终端用户数量的爆炸性增长,海量终端带来的系统资源利用率的问题和可靠快速的接入机制还有待研究。并且在已有的网络辅助全双工场景中,如何通过对RAU实行上行接收或者下行发送双工模式的选择和调配来最大化系统资源的利用率还有待研究。

技术实现思路

[0004]技术问题:本专利技术针对基于负载感知的网络辅助全双工模式优化技术使系统的资源利用率最大的问题,提出上行链路(UL)或下行链路(DL)RAU的分配模式,以实现更好的系统性能。主要研究的是提高系统资源利用率的问题,提出了两种智能算法,分别是集中式Q

learning算法和分布式Q

learning算法。
[0005]技术方案:本专利技术的一种基于负载感知的网络辅助全双工模式优化技术具体步骤如下:
[0006]步骤1:定义针对每个用户i的负载感知效用函数:
[0007][0008]其中,U
i
是负载感知的效用函数,用来表征系统的资源利用率。k为每个远端天线单元(RAU)具有的可分配的总资源块的数量,K为用户总数。n
m,i
是RAU m分配给用户i的资源块数量,可由下式计算得到:
[0009][0010]其中,是用户i根据自身服务质量(QoS)所需要的使用带宽。b是每个资源块所
占的带宽,γ
i
是用户i的信干噪比SINR。意为向上取整。根据对数函数的性质,当整个网络负载过大时,在保证能满足用户自身服务质量的前提下,用户会优先选择需要分配给他资源块数量较少的RAU,从而提高系统整体的资源块的利用率。随着网络整体负载的增加,用户的负载感知效用函数的值会下降。此外,随着RAU所拥有的可供分配的资源块数量的增加,负载感知效用函数的值也会上升。如果RAU不能保证满足用户i的服务质量,则此RAU不会为用户i提供资源块此时,U
i
=0。因此U
i
作为负载感知的效用函数,可以用来表征系统的资源利用率。
[0011]步骤2:优化目标是基于负载感知最大化用户的资源效用函数:
[0012][0013]其中,U
U,i
为上行链路的负载感知效用函数值,U
D,j
为下行链路的负载感知效用函数值,K
u
为上行链路中的用户数,K
d
为下行链路中的用户数;u、d分别为上行链路、下行链路的标识,i、j分别为第i个上行链路用户和第j个下行链路用户;为了确定每个远端天线单元RAU(remote antenna unit)应该以哪种模式运行,定义两个二进制分配向量x
u
,x
d
∈{0,1}
M
×1,M为RAU的总数量,如果RAU用于上行链路或下行链路则第i个上行RAU的二进制分配向量或第j个下行RAU的二进制分配向量取值为1,否则取值为0;上下行链路的有效的负载感知效用函数值可分别用式(4)和(5)表示:
[0014][0015][0016]其中,定义X
u
=diag(x
u
),X
d
=diag(x
d
),diag(a)表示用元素a构成对角矩阵;M
u
是上行RAU的数目,M
d
是下行RAU的数目,k
U,m
是上行RAU m可供分配的资源块数目,k
D,m
是下行RAU m可供分配的资源块数目,n
m,i
是RAU m在满足上行用户i的QoS的要求的情况下分配给上行用户i的资源块数量,n
m,j
是RAU m在满足下行用户j的QoS的要求的情况下分配给下行用户j的资源块数量。
[0017]步骤3:用算法对资源效用函数进行优化,保存算法最后的状态集和奖励,作为最优的RAU双工模式和最大化的资源利用效率。
[0018]进一步的,为了实现基于负载感知的网络辅助全双工的双工模式优化技术,提出一种集中式Q

learning算法:
[0019]Q

learning是一种经典的强化学习方法。强化学习的组成元素包含智能体、状态、动作和奖励四部分。Q

learning的目的是建立一个以“状态”为行、“动作”为列的Q表,并通过每个动作带来的奖励不断更新Q表中的Q值,从而获得特定动作和特定状态下的Q值。Q

learning中采取每个行动的策略是ε

greedy策略,即保持探索和利用两者的平衡。而学习更新Q表时使用的评估策略是贪婪策略,即最佳动作总是记录在Q表中。由于Q

learning的
行动策略和评价策略不同,因此Q

learning是一种异步策略学习。本专利技术提出的集中式Q

learning算法将系统中的所有的RAU作为一个整体来决定每个RAU的工作模式。
[0020]在集中式Q

learning算法中,系统中所有的RAU视为一个智能体,定义状态空间为S=[x1,x2,x3...x
M
],其中x
M
取值可以为0或者1,x
M
为0时,RAU M作为上行接收模式,x
M
为1时,RAU M作为下行传输模式。定义动作空间里的动作为A=[a1,a2,a3...a
M
],动作a
M
为改变RAU m原先的工作模式,如原先是上行接收模式,采取动作a
M
之后则变为下行传输模式。动作的选择遵循衰减的ε

greedy策略,智能体有ε(e)的概率随机选择一个动作,有1

ε(e)的概率选择Q值最大的动作,ε本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于负载感知的网络辅助全双工模式优化方法,其特征在于:包括以下步骤:步骤1:定义针对每个用户i的负载感知效用函数:其中,U
i
是负载感知的效用函数,用来表征系统的资源利用率;k为每个远端天线单元RAU具有的可分配的总资源块的数量,K为用户总数;n
m,i
是RAU m分配给用户i的资源块数量,可由下式计算得到:其中,是用户i根据自身服务质量所需要的使用带宽;b是每个资源块所占的带宽,γ
i
是用户i的信干噪比SINR;意为向上取整;步骤2:定义优化目标是基于负载感知最大化用户的资源效用函数:其中,U
U,i
为上行链路的负载感知效用函数值,U
D,j
为下行链路的负载感知效用函数值,K
u
为上行链路中的用户数,K
d
为下行链路中的用户数;u、d分别为上行链路、下行链路的标识,i、j分别为第i个上行链路用户和第j个下行链路用户;为了确定每个远端天线单元RAU应该以哪种模式运行,定义两个二进制分配向量x
u
,x
d
∈{0,1}
M
×1,M为RAU的总数量,如果RAU用于上行链路或下行链路则第i个上行RAU的二进制分配向量或第j个下行RAU的二进制分配向量取值为1,否则取值为0;上下行链路的有效的负载感知效用函数值可分别用式(4)和(5)表示:用式(4)和(5)表示:其中,定义X
u
=diag(x
u
),X
d
=diag(x
d
),diag(a)表示用元素a构成对角矩阵;M
u
是上行RAU的数目,M
d
是下行RAU的数目,k
U,m
是上行RAU m可供分配的资源块数目,k
D,m
是下行RAU m可供分配的资源块数目,n
m,i
是RAU m在满足上行用户i的QoS的要求的情况下分配给上行用户i的资源块数量,n
m,j
是RAU m在满足下行用户j的QoS的要求的情况下分配给下行用户j的资源块数量;步骤3:用算法对资源效用函数进行优化,保存算法最后的状态集和奖励,作为最优的RAU双工模式和最大化的资源利用效率。2.根据权利要求1所述的基于负载感知的网络辅助全双工模式优化方法,其特征在于:
步骤3中,用集中式Q

learning算法对资源效用函数进行优化;在集中式Q

learning算法中,系统中所有的RAU视为一个智能体,定义状态空间为S=[x1,x2,x3...x
M
],其中x
M
取值可以为0或者1,x
M
为0时,RAU M作为上行接收模式,x
M
为1时,RAU M作为下行传输模式;定义动作空间里的动作为A=[a1,a2,a3...a
M
],动作a
M
为改变RAU m原先的工作模式,如原先是上行接收模式,采取动作a
M
之后则变为下行传输模式;动作的选择遵循衰减的ε

greedy策略,智能体有ε(e)的概率随机选择一个动作,有1

ε(e)的概率选择Q值最大的动作,ε(e)可表示如下:其中,ε
first
为初始的ε值,e为当前训练回合的索引,为表示控制衰减率的探索参数,|action|为动作集的大小;奖励定义为用户效用函数的和值,如上式中的(3)所示;Q值由以下公式更新:其中,α是学习率,s
...

【专利技术属性】
技术研发人员:李佳珉朱悦朱鹏程王东明尤肖虎
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1