一种基于QMIX的无线资源分配优化方法及装置制造方法及图纸

技术编号：29263861 阅读：16 留言：0更新日期：2021-07-13 17:39

本发明专利技术公开了一种基于QMIX的无线资源分配优化方法及装置，所述方法包括：根据低轨卫星的周期性、轨道位置、用户位置，确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星；对于各个地面卫星终端，采用QMIX算法进行星地链路调度；计算各个基站各自所能容纳的通信容量；根据基站位置、基站覆盖半径、用户位置，确定基站覆盖范围内的所有用户；根据用户的业务类型，将用户分为时延敏感用户和时延容忍用户，确定地面小基站覆盖范围内的时延敏感用户，以及低轨卫星基站覆盖范围内的时延容忍用户；采用QMIX算法进行用户接入选择。本发明专利技术能够保证时延敏感用户的最低数据速率，最大化小区最小容量，提高用户的通信服务质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于QMIX的无线资源分配优化方法及装置
本专利技术涉及无线通信
，特别涉及一种基于QMIX的无线资源分配优化方法及装置。
技术介绍
星地一体化网络以地面基站网络为基础，卫星通信网络作为补充和延伸，为广域空间范围内的各种网络应用提供泛在、智能、协同和高效的信息保障。虽然国内外产业已经开始积极布局，但是星地一体化网络的融合仍然面临着许多挑战，比如由于星地一体化中复杂的网络结构和动态变化的网络环境，无线资源管理、网络控制和用户接入成为其中的主要难题。这些问题在最近得到了大量的研究，人们提出了很多有前途的技术来解决这些问题，然而传统的资源分配优化方法效率不高、响应速度慢，难以适应星地一体化网络复杂、动态变化的网络环境。深度强化学习(DRL)作为人工智能领域最重要的技术，可尝试用于解决星地一体化网络中的无线资源分配问题。深度强化学习通过智能体与环境交互地反馈学习，在学习过程中，智能体可以定期做出决策，观察结果，然后自动调整其策略以实现最佳策略，可以很好地应对未知环境下的学习决策，非常适合于空天地一体化网络中的网络复杂、环境动态变化且数据收集成本较高的特性，是解决网络控制、用户接入和资源分配等问题的关键方法。在星地一体化网络中，星地链路调度和用户接入控制一直是人们关注的焦点。由于低轨卫星能为某个区域的用户提供通信服务的时间非常短暂，用户与卫星之间的链路处在一个不断变化的动态过程，处理好星地链路调度问题，能够为地面用户提供更加稳定可靠的通信服务。接入不同的基站将导致用户的服务体验和网络的性能存在极大的不...

【技术保护点】
1.一种基于QMIX的无线资源分配优化方法，其特征在于，采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配，包括以下步骤：/nS1、根据低轨卫星的周期性、轨道位置、用户位置，确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星；/nS2、对于各个地面卫星终端，采用QMIX算法进行星地链路调度；/nS3、计算各个基站各自所能容纳的通信容量；/nS4、根据基站位置、基站覆盖半径、用户位置，确定基站覆盖范围内的所有用户；/nS5、根据用户的业务类型，将用户分为时延敏感用户和时延容忍用户，所述时延敏感用户由地面小基站提供通信服务，所述时延容忍用户由搭载地面卫星终端的低轨卫星基站提供通信服务，确定地面小基站覆盖范围内的时延敏感用户，以及低轨卫星基站覆盖范围内的时延容忍用户；/nS6、采用QMIX算法进行用户接入选择。/n

【技术特征摘要】
1.一种基于QMIX的无线资源分配优化方法，其特征在于，采用深度强化学习方法完成星地一体化网络的星地链路调度和用户接入控制的分配，包括以下步骤：
S1、根据低轨卫星的周期性、轨道位置、用户位置，确定在时间间隙Δt内各个地面卫星终端能够产生链接的低轨卫星；
S2、对于各个地面卫星终端，采用QMIX算法进行星地链路调度；
S3、计算各个基站各自所能容纳的通信容量；
S4、根据基站位置、基站覆盖半径、用户位置，确定基站覆盖范围内的所有用户；
S5、根据用户的业务类型，将用户分为时延敏感用户和时延容忍用户，所述时延敏感用户由地面小基站提供通信服务，所述时延容忍用户由搭载地面卫星终端的低轨卫星基站提供通信服务，确定地面小基站覆盖范围内的时延敏感用户，以及低轨卫星基站覆盖范围内的时延容忍用户；
S6、采用QMIX算法进行用户接入选择。

2.根据权利要求1所述的无线资源分配优化方法，其特征在于，所述步骤S2中，地面卫星终端及信道状态资源建模为马尔科夫决策过程，将每个地面卫星终端作为一个智能体，其动作空间为地面卫星终端与卫星之间的所有链接情况，状态空间为地面卫星终端的接入容量，全局状态空间为所有地面卫星终端的接入容量集合，算法的步骤如下：
S201、初始化每个智能体的动作空间、状态空间、全局状态空间；
S202、将当前状态输入Q网络中，输出每个动作对应的Q值，以1-ε的概率选择最大的Q值对应的动作或以ε的概率从动作空间中选择一个动作，作为当前状态做出的动作；
S203、根据与环境的交互，获得即时奖励和系统中所处的下一步状态，并将当前状态、采取动作、奖励、下一步状态的信息存储到经验池中，其中即时奖励为智能体下一步状态下基站容量与当前状态容量的差，即r(t)＝Cm+1(t)-Cm(t)；
S204、判断存储的经验数量是否达到要求，若达到要求则进行S205，否则重复S202和S203；
S205、从经验池中随机取出一部分数据，将其Q值输入到混合网络中，计算Qtot值；
S206、计算损失函数，即实际Qtot值和根据混合网络预测Qtot值的差距，并根据损失函数更新网络的参数；
S207、当损失函数降低并趋于稳定时，停止网络训练，此时得到的星地链路调度为资源分配优化结果，否则重复S201-S206。

3.根据权利要求2所述的无线资源分配优化方法，其特征在于，从经验池中随机取出空间大小为b的数据集，将其Q值输入到混合网络中，计算Qtot值：
Qtot＝Mixing-network(Q1(r1,u1),…,Qn(rn,un)；hypernetwork(s；θ))。

4.根据权利要求2所述的无线资源分配优化方法，其特征在于，损失函数为：

其中b为从经验池中随机取出的数据集大小，

5.根据权利要求1所述的无线资源分配优化方法，其特征在于，所述步骤S6中，地面基站及信道状态资源建模为马尔科夫决策过程，将每个地面基站当作一个智能体，其动作空间为基站覆盖范围内可接入的用户，包括时延敏感用户和时延容忍用户，状态空间为各个地面基站接入的用户率和速率，全局状态为所有地面基站接入的用户率和速率。

<...

【专利技术属性】
技术研发人员：张海君，江坤全，隆克平，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人