【技术实现步骤摘要】
一种基于强化学习的多智能体的空口频谱效率提升方法
[0001]本专利技术涉及高通量通信系统
,尤其涉及一种基于强化学习的多智能体的空口频谱效率提升方法。
技术介绍
[0002]为避免相邻波束的干扰,传统的多波束卫星可利用四色定理来分配各个波束的频率范围,保证相邻波束不使用相同的频率,减小同频干扰。为了实现吉比特高通量卫星系统,最大化可用数据速率和频谱利用率,可采用全频率复用方案,但这种方案会带来严重的同频干扰问题。动态地进行资源分配被认为是干扰管理的有效途径。当前,在多波束卫星通信中主要存在以下资源分配方法:
[0003](1)传统的基站级无线资源分配方法。该方法的中心思想是将小区划分为中心区域和边缘区域,并且将特定的无线资源分配给相应的区域。例如,软频率复用和部分频率复用方法通过调整副载波与主载波的功率门限比来更好地适应业务在小区内部和边缘的分布。这种方案虽然提高了小区边缘用户的吞吐量,但是在业务分布变化之后需要重新调整功率门限比值,难以适应动态的无线网络环境。
[0004](2)传统的用户级无线资源分配方法,包括轮询算法、最大载干比算法和比例公平算法。轮询算法是一种追求公平最大化的算法,按照一定的顺序周期性地将资源分配给用户,该方法实现简单,但未考虑业务特性和用户优先级等因素;最大载干比算法是一种追求性能最大化的算法,在调度周期内把所有资源分配给信号质量最好的用户,该方法的资源利用率最高,但是完全没有考虑公平性因素;比例公平算法是轮询和最大载干比这两种算法之间的一种折衷,该方法综合考虑了公平 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,将多用户蜂窝网络中的资源分配问题建模为一个双序列决策过程,并采用深度强化学习工具结合Transformer加以解决,包括:利用Transformer结构中的注意力机制挖掘用户位置分布的相关性与各个资源之间的分配关系,得到单个传输时间间隔内的多用户资源分配决策;还包括:利用深度强化学习中智能体与蜂窝网络环境之间的动态交互进行策略学习,得到连续多个传输时间间隔上的资源分配方案。2.根据权利要求1所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,基于Transformer结构的深度强化学习的无线资源分配方法包括以下步骤:S1:构建基于Transformer结构的深度强化学习的资源分配策略模型;S2:智能体收集多用户蜂窝网络中的观测状态;S3:将用户的多维请求信息映射为一维的用户标签;S4:由用户标签所构成的用户序列被输入到Transformer网络中,输出各个资源块的分配决策;S5:执行资源分配决策,并从多用户蜂窝网络中获取反馈的奖励信息;S6:智能体评估当前环境状态与资源分配动作的价值;S7:重复上述步骤S2至步骤S6,收集数据并计算优势;S8:利用所收集的数据离线训练资源分配策略网络模型;S9:对上述步骤S8中训练好的策略网络模型进行微调;S10:基于后续时刻的状态输出最优的资源分配方案。3.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S1中在中央控制器处构建基于Transformer结构的深度强化学习的资源分配策略模型,将在单个传输时间间隔内,搭建基于Transformer结构的资源分配模型;对于连续多个传输时间间隔来说,搭建基于深度强化学习的资源分配模型。4.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S2中将中央控制器作为智能体,收集多用户蜂窝网络中的观测状态,主要包括各个用户的状态,各个资源块的状态以及各用户的请求信息,这些信息共同作为多用户蜂窝网络的状态,并表示为:5.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S3中,从用户请求中选择部分信息作为影响资源分配效果的关键因素,并从中提取出用户标签,以避免资源分配问题陷入维数诅咒,用户的标签集合构成了用户序列,被输入到Transformer网络中。6.根据权利要求2所述的一种基于强化学习的多智能体的空口频谱效率提升方法,其特征在于,所述步骤S4中基于Transformer网络生成资源分配动作:将用户标签集合输入到Transformer结构的编码器中,同时将资源分配的起始位...
【专利技术属性】
技术研发人员:禹航,衣龙腾,冯瑄,董赞扬,秦鹏飞,戚凯强,张程,周业军,
申请(专利权)人:中国空间技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。