一种基于强化学习的多智能体的空口频谱效率提升方法技术

技术编号:36535420 阅读:16 留言:0更新日期:2023-02-01 16:20
本发明专利技术公开了一种基于强化学习的多智能体的空口频谱效率提升方法,涉及高通量通信系统技术领域,利用Transformer结构中的注意力机制解决基于深度强化学习的无线资源分配方案中存在的数据维度爆炸、样本效率低的问题。本发明专利技术中,通过采用深度强化学习技术,并结合Transformer结构中的注意力机制,可以挖掘和分析多用户蜂窝网络中用户位置分布的相关性与各个资源之间的分配关系,在一定程度上避免了同频干扰的产生,不仅实现系统频谱效率的提升,还解决了基于深度强化学习的资源分配方案中存在的数据维度爆炸、样本效率低的问题。样本效率低的问题。样本效率低的问题。

【技术实现步骤摘要】
一种基于强化学习的多智能体的空口频谱效率提升方法


[0001]本专利技术涉及高通量通信系统
,尤其涉及一种基于强化学习的多智能体的空口频谱效率提升方法。

技术介绍

[0002]为避免相邻波束的干扰,传统的多波束卫星可利用四色定理来分配各个波束的频率范围,保证相邻波束不使用相同的频率,减小同频干扰。为了实现吉比特高通量卫星系统,最大化可用数据速率和频谱利用率,可采用全频率复用方案,但这种方案会带来严重的同频干扰问题。动态地进行资源分配被认为是干扰管理的有效途径。当前,在多波束卫星通信中主要存在以下资源分配方法:
[0003](1)传统的基站级无线资源分配方法。该方法的中心思想是将小区划分为中心区域和边缘区域,并且将特定的无线资源分配给相应的区域。例如,软频率复用和部分频率复用方法通过调整副载波与主载波的功率门限比来更好地适应业务在小区内部和边缘的分布。这种方案虽然提高了小区边缘用户的吞吐量,但是在业务分布变化之后需要重新调整功率门限比值,难以适应动态的无线网络环境。
[0004](2)传统的用户级无线资源分配方法,包括轮询算法、最大载干比算法和比例公平算法。轮询算法是一种追求公平最大化的算法,按照一定的顺序周期性地将资源分配给用户,该方法实现简单,但未考虑业务特性和用户优先级等因素;最大载干比算法是一种追求性能最大化的算法,在调度周期内把所有资源分配给信号质量最好的用户,该方法的资源利用率最高,但是完全没有考虑公平性因素;比例公平算法是轮询和最大载干比这两种算法之间的一种折衷,该方法综合考虑了公平性和系统性能,但是需要跟踪信道状态,算法复杂度较高。
[0005](3)基于深度强化学习的无线资源分配方法。深度强化学习融合了深度学习的感知能力与强化学习的决策能力,解决了传统资源分配方法中存在的动态性与智能性不足的问题。深度强化学习技术将无线资源分配问题建模为智能体与无线网络环境之间的持续性动态交互,通过环境给予的反馈信息来学习无线环境的动力学知识,从而能够作出最优的资源分配决策。但是,该方法通常存在数据爆炸、数据需求量大等问题,所以在用户数较多、业务复杂的情况下难以发挥理想的效果。
[0006]虽然现有的无线资源分配方法可以在一定程度上避免干扰的产生进而提高了系统的频谱效率,但是依然存在一些不足之处:
[0007](1)传统的资源分配方法优化过程的计算复杂度高,迭代算法所花费的时间长,动态性与智能性不足,无法适应动态的无线网络环境。
[0008](2)基于深度强化学习的资源分配方法依赖于大量的交互数据,在大规模网络下可能引发维数诅咒和数据爆炸等问题。
[0009]本专利技术的目的是要解决基于深度强化学习的无线资源分配方案中存在的数据维度爆炸、样本效率低的问题。

技术实现思路

[0010]本专利技术的目的在于:为了解决上述问题,而提出的一种基于强化学习的多智能体的空口频谱效率提升方法。
[0011]为了实现上述目的,本专利技术采用了如下技术方案:
[0012]一种基于强化学习的多智能体的空口频谱效率提升方法,将多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程,并采用深度强化学习工具结合Transformer加以解决,包括:
[0013]利用Transformer结构中的注意力机制挖掘用户位置分布的相关性与各个资源之间的分配关系,得到单个传输时间间隔内的多用户资源分配决策;
[0014]还包括:
[0015]利用深度强化学习中智能体与蜂窝网络环境之间的动态交互进行策略学习,得到连续多个传输时间间隔上的资源分配方案。
[0016]优选地,基于Transformer结构的深度强化学习的无线资源分配方法包括以下步骤:
[0017]S1:构建基于Transformer结构的深度强化学习的资源分配策略模型;
[0018]S2:智能体收集多用户蜂窝网络中的观测状态;
[0019]S3:将用户的多维请求信息映射为一维的用户标签;
[0020]S4:由用户标签所构成的用户序列被输入到Transformer网络中,输出各个资源块的分配决策;
[0021]S5:执行资源分配决策,并从多用户蜂窝网络中获取反馈的奖励信息;
[0022]S6:智能体评估当前环境状态与资源分配动作的价值;
[0023]S7:重复上述步骤S2至步骤S6,收集数据并计算优势;
[0024]S8:利用所收集的数据离线训练资源分配策略网络模型;
[0025]S9:对上述步骤S8中训练好的策略网络模型进行微调;
[0026]S10:基于后续时刻的状态输出最优的资源分配方案。
[0027]优选地,所述步骤S1中在中央控制器处构建基于Transformer结构的深度强化学习的资源分配策略模型,将在单个传输时间间隔内,搭建基于Transformer结构的资源分配模型;对于连续多个传输时间间隔来说,搭建基于深度强化学习的资源分配模型。
[0028]优选地,所述步骤S2中将中央控制器作为智能体,收集多用户蜂窝网络中的观测状态,主要包括各个用户的状态,各个资源块的状态以及各用户的请求信息,这些信息共同作为多用户蜂窝网络的状态,并表示为:
[0029]优选地,所述步骤S3中,从用户请求中选择部分信息作为影响资源分配效果的关键因素,并从中提取出用户标签,以避免资源分配问题陷入维数诅咒,用户的标签集合构成了用户序列,被输入到Transformer网络中。
[0030]优选地,所述步骤S4中基于Transformer网络生成资源分配动作:将用户标签集合输入到Transformer结构的编码器中,同时将资源分配的起始位输入到Transformer结构的解码器中,利用注意力机制来挖掘用户请求与资源分配之间的相关性,经过采样输出第一个资源的分配结果然后,起始位联合共同作为解码器的输入,得到第二个资
源的分配结果如此往复循环,直至得到所有资源块的分配情况,并将其表示为如此往复循环,直至得到所有资源块的分配情况,并将其表示为
[0031]优选地,所述步骤S5根据步骤S4给出的资源分配方案,用户在给定的资源块上以一定的功率传输数据,得到关于系统频谱效率与用户公平性的奖励信息为其中,Ψ
t
是系统的频谱效率,Ψ
max
是系统频谱效率的理论界值,而Γ
t
代表用户的公平性,α1和α2分别是给予两者的权重系数。
[0032]优选地,所述步骤S6中基于Critic网络,评估所观测状态的价值为V(s
t
),步骤S7中,收集多条{s
t
,a
t
,r
t
,V(s
t
)}训练数据,并存到数据缓存中,同时可计算得到优势函数为
[0033]优选地,所述步骤S8中利用数据缓存中的训练数据,更新网络参数使得资源分配策略逐步收敛至最优,Actor网络和Critic网络的损失函本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,将多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程,并采用深度强化学习工具结合Transformer加以解决,包括:利用Transformer结构中的注意力机制挖掘用户位置分布的相关性与各个资源之间的分配关系,得到单个传输时间间隔内的多用户资源分配决策;还包括:利用深度强化学习中智能体与蜂窝网络环境之间的动态交互进行策略学习,得到连续多个传输时间间隔上的资源分配方案。2.根据权利要求1所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,基于Transformer结构的深度强化学习的无线资源分配方法包括以下步骤:S1:构建基于Transformer结构的深度强化学习的资源分配策略模型;S2:智能体收集多用户蜂窝网络中的观测状态;S3:将用户的多维请求信息映射为一维的用户标签;S4:由用户标签所构成的用户序列被输入到Transformer网络中,输出各个资源块的分配决策;S5:执行资源分配决策,并从多用户蜂窝网络中获取反馈的奖励信息;S6:智能体评估当前环境状态与资源分配动作的价值;S7:重复上述步骤S2至步骤S6,收集数据并计算优势;S8:利用所收集的数据离线训练资源分配策略网络模型;S9:对上述步骤S8中训练好的策略网络模型进行微调;S10:基于后续时刻的状态输出最优的资源分配方案。3.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S1中在中央控制器处构建基于Transformer结构的深度强化学习的资源分配策略模型,将在单个传输时间间隔内,搭建基于Transformer结构的资源分配模型;对于连续多个传输时间间隔来说,搭建基于深度强化学习的资源分配模型。4.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S2中将中央控制器作为智能体,收集多用户蜂窝网络中的观测状态,主要包括各个用户的状态,各个资源块的状态以及各用户的请求信息,这些信息共同作为多用户蜂窝网络的状态,并表示为:5.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S3中,从用户请求中选择部分信息作为影响资源分配效果的关键因素,并从中提取出用户标签,以避免资源分配问题陷入维数诅咒,用户的标签集合构成了用户序列,被输入到Transformer网络中。6.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S4中基于Transformer网络生成资源分配动作:将用户标签集合输入到Transformer结构的编码器中,同时将资源分配的起始位...

【专利技术属性】
技术研发人员:禹航衣龙腾冯瑄董赞扬秦鹏飞戚凯强张程周业军
申请(专利权)人:中国空间技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利