基于强化学习的AP信道分配和功率控制联合优化方法技术

技术编号：24589065 阅读：37 留言：0更新日期：2020-06-21 02:20

本发明专利技术公开了一种基于强化学习的AP信道分配和功率控制联合优化方法，属于通信技术领域，包括控制器对AP信息数据进行收集获取不同参数信息，并将参数值上传至控制器存储处理，生成数据信道功率对和吞吐量对应的统计表；在控制器中根据数据进行数据处理，获得AP的状态效用值；引入强化学习算法对数据进行学习，此时控制器估算不同参数值下的状态效用值，并更新信道功率对统计表的吞吐量，进而获得使状态效用函数值最大的信道和功率组合，AP根据该信道和功率的组合调整自身工作状态；本发明专利技术在保证用户吞吐量的情况下，同时调整AP发射功率和工作信道以降低信号干扰，减少对相邻AP的影响，提高空间复用率，进一步提高网络通信质量。

Joint optimization of AP channel allocation and power control based on Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的AP信道分配和功率控制联合优化方法
本专利技术涉及通信
，更为具体地，涉及一种基于强化学习的AP信道分配和功率控制联合优化方法。
技术介绍
随着无线通信的普及，智能终端数量的急剧增加，为了给用户提供高带宽、稳定性服务，运营商和服务提供商在公共场所部署了越来越密集的无线局域网。但是，传统WLAN系统默认采用最大功率进行发送，由于信道资源有限，同频或相邻信道存在多个AP，呈现出更高的动态性和干扰，空间复用率低，减少了系统整体容量。因此，当多个参与者以不协调的方式共享媒体时，这种无线系统的整体性能显着低于系统最大容量，有效的资源分配对于任何性能的改进都是至关重要的。针对上述关于密集部署的WLAN中存在的干扰问题以及整体容量性能受到抑制的问题，研究者们展开了大量的研究工作。目前的吞吐量提升方案主要有：1、通过发射端功率控制实现无线网络中若干目标的性能提升，包括最小化功耗和延长移动节点的数量，减轻干扰和增加网络容量。由于功率控制对多层协议栈的影响，它直接影响网络中的吞吐量、容量、延迟和公平性，也可能...

【技术保护点】
1.一种基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，包括以下步骤：/nS1、采用集中控制的方式对AP数据进行监视获取不同AP的数据信息，并将获取的数据上传至控制器进行存储处理，控制器根据数据建立信道和功率联合优化问题模型；/nS2、根据网络吞吐量优化问题，构建包括状态动作信息、奖励函数的强化学习模块；/nS3、以系统吞吐量最大为目标，将获得的数据输入到强化学习中训练，利用训练后所得的最优策略实现信道和功率的联合优化系统吞吐量；/nS4、判断根据最优策略调整AP工作状态的系统是否满足用户对吞吐量的需求阈值，若是则进行步骤S5，否则返回步骤S3；/nS5、控制器根据最优动作策略获...

【技术特征摘要】
1.一种基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，包括以下步骤：
S1、采用集中控制的方式对AP数据进行监视获取不同AP的数据信息，并将获取的数据上传至控制器进行存储处理，控制器根据数据建立信道和功率联合优化问题模型；
S2、根据网络吞吐量优化问题，构建包括状态动作信息、奖励函数的强化学习模块；
S3、以系统吞吐量最大为目标，将获得的数据输入到强化学习中训练，利用训练后所得的最优策略实现信道和功率的联合优化系统吞吐量；
S4、判断根据最优策略调整AP工作状态的系统是否满足用户对吞吐量的需求阈值，若是则进行步骤S5，否则返回步骤S3；
S5、控制器根据最优动作策略获得使系统吞吐量函数值最大时的信道和发射功率的组合(f*,p*)，无线访问接入点根据该信道和功率的组合调整自身工作状态，计算系统吞吐量函数Tt(f,p)；其中，fi，pi分别表示工作和发射功率；f*，p*分别表示最优的工作信道和最优的发射功率。

2.根据权利要求1所述的基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，在步骤S1中，针对无线局域网中，吞吐量与AP信道和功率的高度相关问题，建立信道和功率联合优化模型：

其中，Tt表示在时刻t时系统吞吐量大小，B代表无线信道带宽，其中N0表示系统热噪声功率强度，pi表示APi的发射功率，gij表示从APi到用户j的信道增益，信道增益只与用户与AP之间的距离有关。

3.根据权利要求1所述的基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，在步骤S2中，构建包括状态动作信息、奖励函数的强化学习模块：
C1：S＝{s1,s2,…,sn}
C2：A＝{a1,a2,…,an}
C3：r(t)＝Tt-Tt-1
C4：
C5：Q(s,a)＝R(s,a)+γmaxQ((s′,a′)|(s,a))
C6：
其中，C1为具有马尔科夫性质的网络状态空间；C2为强化学习的智能体用于调整网络状态的动作空间；C3表示在时刻t时动作策略对应的奖励；C4表示时刻t开始获得的长期累积折扣奖励，γ为折扣因子；C5表示强化学习的状态动作Q值函数；C6表示最大预期累积折扣奖励对应的策略，即最优策略。

4.根据权利要求1所述的基于强化学习的AP信道分配和功率控制联合优化方法，其特征在于，在步骤S3中，以系统吞吐量最大为目标，将获得的数据输入到强化学习中训练，利用训练后所得的最优策略实现信道和功率的联合优化系统吞吐量，实现该最优策略的选择包括：
S31、将数据统计表中的AP工作信道和功率值作为强化学习的状态空间集：
st＝(f，p)
其中，f＝{...

【专利技术属性】
技术研发人员：徐川，赵国锋，黄伟，吕青懋，伊俊杰，李勇，
申请(专利权)人：四川九强通信科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人