基于强化学习的无线接入方法、装置及存储介质制造方法及图纸

技术编号:39246319 阅读:11 留言:0更新日期:2023-10-30 11:58
本申请提供一种基于强化学习的无线接入方法、装置及存储介质,涉及通信技术领域,能够解决无线接入不准确导致的系统能耗大、资源利用率低的问题。该方法包括:获取系统的总功耗和资源利用率,系统包括M个接入点;在系统的总功耗最低,且资源利用率最高的情况下,将M个接入点中满足预设条件的接入点确定为第一接入点;根据终端分别在第一时间节点和第二时间节点,接入每个第一接入点时,系统的总功耗减少值和资源利用率增加值,确定第一时间节点与第二时间节点之间的系统奖励值;在系统奖励值之和不变的情况下,将终端当前接入的第一接入点确定为目标接入点。本申请实施例用于应急场景下,对天空地一体化网络系统的能效进行优化的过程中。过程中。过程中。

【技术实现步骤摘要】
基于强化学习的无线接入方法、装置及存储介质


[0001]本申请涉及通信
,尤其涉及一种基于强化学习的无线接入方法、装置及存储介质。

技术介绍

[0002]随着天空地一体化网络研究的深入,由卫星、空基网络和地面基站组成的新型网络架构广泛应用于地面观测、应急通信等领域。然而,天空地一体化的有限能量和频谱资源无法满足现有用户日益增长的通信需求。
[0003]现有技术中,为了实现更大的系统吞吐量,通常是基于地面基站侧挂载的边缘服务器,采用进化算法(遗传算法、蚁群学医、离子群算法)来实现无线接入选择,由于地面基站侧挂载的边缘服务器可以支撑大量的计算量,才可以完成上述计划算法。
[0004]然而,在应急场景下,若地面网络受限,则只能通过无人机或者空中平台实现终端接入,但是无人机或者空中平台挂载的基站设备不具备强大的计算能力,因此无法实现超大计算量的接入控制,导致无法准确地进行无线接入,从而使得无线接入后系统的能耗较大,资源利用率较低。

技术实现思路

[0005]本申请提供一种基于强化学习的无线接入方法、装置及存储介质,能够解决无线接入不准确导致的系统能耗大、资源利用率低的问题。
[0006]为达到上述目的,本申请采用如下技术方案:
[0007]第一方面,本申请提供一种基于强化学习的无线接入方法,该方法包括:获取系统的总功耗和资源利用率,上述系统包括M个接入点,M为大于1的整数;在上述系统的总功耗最低,且资源利用率最高的情况下,将上述M个接入点中满足预设条件的接入点确定为第一接入点;根据终端分别在第一时间节点和第二时间节点,接入每个上述第一接入点时,上述系统的总功耗减少值和资源利用率增加值,确定上述第一时间节点与上述第二时间节点之间的系统奖励值,该系统奖励值用于表征上述终端接入每个上述第一接入点时对应的系统能效,上述第一时间节点和上述第二时间节点为相邻的时间节点;在上述系统奖励值之和不变的情况下,将上述终端当前接入的第一接入点确定为目标接入点;其中,上述预设条件包括:传输时延小于最大传输时延、传输速率大于最小传输速率、平均包错误率小于最大平均包错误率。
[0008]基于上述技术方案,本申请实施例提供的基于强化学习的无线接入方法,可以先获取系统的总功耗和资源利用率,并在系统的总功耗最低,且资源利用率最高的情况下,将系统中的M个接入点中满足预设条件的接入点确定为第一接入点;然后根据终端在相邻两个时间节点,分别接入第一接入点时系统的总功耗减少值和资源利用率增加值,确定每个相邻两个时间节点对应的系统奖励值,最后在系统奖励值不变时,将终端当前接入的第一接入点确定为目标接入点。由于上述预设条件包括传输时延小于最大传输时延、传输速率
大于最小传输速率、平均包错误率小于最大平均包错误率,使得确定出的第一接入点可以满足用户的业务需求;而且,由于系统奖励值用于表征终端接入每个第一接入点时对应的系统能效,因此,可以提高选择无线接入点的准确度;同时,由于系统奖励值之和不变时表示终端当前接入第一接入点后,系统的功耗减少值和资源利用率已提升至最优效果,因此,将系统奖励值之和不变时,终端接入的第一接入点确定为目标接入点,可以最大程度地减小系统总功耗,提高资源利用率。
[0009]在第一方面的第一种可能的实现方式中,上述获取系统的总功耗和资源利用率,包括:采集上述M个接入点对应的功率放大器的功耗和电路功耗,该电路功耗包括动态功耗和静态功耗,上述动态功耗为上述M个接入点中每个接入点射频链路的功耗,上述静态功耗为上述系统中固定设备的功耗;将上述每个接入点的动态功耗、上述系统的静态功耗和上述功率放大器的功耗求和,得到上述系统的总功耗;根据上述每个接入点的已使用资源和总资源,计算上述每个接入点的资源利用率;将上述每个接入点的资源利用率求和,得到上述系统的资源利用率。
[0010]在第一方面的第二种可能的实现方式中,上述在系统的总功耗最低,且资源利用率最高的情况下,将上述M个接入点中满足预设条件的接入点确定为第一接入点之前,上述方法还包括:根据上述每个接入点的发射功率、路损衰落、信道增益、随机高斯噪音和干扰,计算上述每个接入点对应的传输速率;根据终端至上述M个接入点中每个接入点的第一传输时延和所述每个接入点至远程控制中心的第二传输时延,计算所述每个接入点对应的传输时延;采集上述每个接入点对应的平均包错误率。
[0011]在第一方面的第三种可能的实现方式中,上述方法还包括:根据每个上述第一接入点的信道参数、已接入终端数量、最大接入终端数量、平均包错误率和平均服务时延,确定每个上述第一接入点的无线资源状态;根据用户的速率需求、时延需求、平均包错误率需求和位置需求,确定用户接收到每个上述第一接入点的信号强度。
[0012]在第一方面的第四种可能的实现方式中,上述在系统奖励值之和不变的情况下,将上述终端当前接入的第一接入点确定为目标接入点,包括:按照时间节点顺序,将每两个相邻的时间节点之间的系统奖励值迭代相加,得到目标结果;在该目标结果不变的情况下,将上述终端当前接入的第一接入点确定为上述目标接入点。
[0013]第二方面,本申请提供一种基于强化学习的无线接入装置,该装置包括:获取单元、确定单元和计算单元,其中:上述获取单元,用于获取系统的总功耗和资源利用率,上述系统包括M个接入点,M为大于1的整数;上述确定单元,用于在获取单元获取到的上述系统的总功耗最低,且资源利用率最高的情况下,将上述M个接入点中满足预设条件的接入点确定为第一接入点;上述计算单元,用于根据终端分别在第一时间节点和第二时间节点,接入每个上述第一接入点时,上述系统的总功耗减少值和资源利用率增加值,确定上述第一时间节点与上述第二时间节点之间的系统奖励值,该系统奖励值用于指示上述终端接入每个上述第一接入点时对应的系统能效,上述第一时间节点和上述第二时间节点为相邻的时间节点;上述计算单元,还用于在上述系统奖励值之和不变的情况下,将上述终端当前接入的第一接入点确定为目标接入点;其中,上述预设条件包括:传输时延小于最大传输时延、传输速率大于最小传输速率、平均包错误率小于最大平均包错误率。
[0014]在第二方面的第一种可能的实现方式中,上述获取单元,具体用于:采集上述M个
接入点对应的功率放大器的功耗和电路功耗,该电路功耗包括动态功耗和静态功耗,上述动态功耗为上述M个接入点中每个接入点射频链路的功耗,上述静态功耗为上述系统中固定设备的功耗;将上述每个接入点的动态功耗、上述系统的静态功耗和上述功率放大器的功耗求和,得到上述系统的总功耗;根据上述每个接入点的已使用资源和总资源,计算上述每个接入点的资源利用率;将上述每个接入点的资源利用率求和,得到上述系统的资源利用率。
[0015]在第二方面的第二种可能的实现方式中,上述装置还包括:采集单元,其中:上述计算单元,还用于在确定单元在上述系统的总功耗最低,且资源利用率最高的情况下,将上述M个接入点中满足预设条件的接入点确定为第一接入点之前,根据上述每个接入点的发射功率、路损衰落、信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的无线接入方法,其特征在于,所述方法包括:获取系统的总功耗和资源利用率,所述系统包括M个接入点,M为大于1的整数;在所述系统的总功耗最低,且资源利用率最高的情况下,将所述M个接入点中满足预设条件的接入点确定为第一接入点;根据终端分别在第一时间节点和第二时间节点,接入每个所述第一接入点时,所述系统的总功耗减少值和资源利用率增加值,确定所述第一时间节点与所述第二时间节点之间的系统奖励值,所述系统奖励值用于表征所述终端接入每个所述第一接入点时对应的系统能效,所述第一时间节点和所述第二时间节点为相邻的时间节点;在所述系统奖励值之和不变的情况下,将所述终端当前接入的第一接入点确定为目标接入点;其中,所述预设条件包括:传输时延小于最大传输时延、传输速率大于最小传输速率、平均包错误率小于最大平均包错误率。2.根据权利要求1所述的方法,其特征在于,所述获取系统的总功耗和资源利用率,包括:采集所述M个接入点对应的功率放大器的功耗和电路功耗,所述电路功耗包括动态功耗和静态功耗,所述动态功耗为所述M个接入点中每个接入点射频链路的功耗,所述静态功耗为所述系统中固定设备的功耗;将所述每个接入点的动态功耗、所述系统的静态功耗和所述功率放大器的功耗求和,得到所述系统的总功耗;根据所述每个接入点的已使用资源和总资源,计算所述每个接入点的资源利用率;将所述每个接入点的资源利用率求和,得到所述系统的资源利用率。3.根据权利要求1或2所述的方法,其特征在于,所述在所述系统的总功耗最低,且资源利用率最高的情况下,将所述M个接入点中满足预设条件的接入点确定为第一接入点之前,所述方法还包括:根据所述每个接入点的发射功率、路损衰落、信道增益、随机高斯噪音和干扰,计算所述每个接入点对应的传输速率;根据终端至所述M个接入点中每个接入点的第一传输时延和所述每个接入点至远程控制中心的第二传输时延,计算所述每个接入点对应的传输时延;采集所述每个接入点对应的平均包错误率。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据每个所述第一接入点的信道参数、已接入终端数量、最大接入终端数量、平均包错误率和平均服务时延,确定每个所述第一接入点的无线资源状态;根据用户的速率需求、时延需求、平均包错误率需求和位置需求,确定用户接收到每个所述第一接入点的信号强度。5.根据权利要求1所述的方法,其特征在于,所述在所述系统奖励值之和不变的情况下,将所述终端当前接入的第一接入点确定为目标接入点,包括:按照时间节点顺序,将每两个相邻的时间节点之间的系统奖励值迭代相加,得到目标结果;在所述目标结果不变的情况下,将所述终端当前接入的第一接入点确定为所述目标接
入点。6.一种基于强化学习的无线接入装置,其特征在于,所述装置包括:获取单元、确定单元和计算单元,其中:所述获取单元,用于获取系统的总功耗和资源利用率,所述系统包括M个接入点,M为大于1的整数;所述确定单元,用于在所述获取单元获取到的所述系统的总功耗最低,且资源利用率最高的情况下,将所述M个接入点中满足预...

【专利技术属性】
技术研发人员:林能波陈青霞陈柱郭俊滨谭建兵方玉伍俊杰
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1