一种基于强化学习的通信资源分配方法及其相关设备组成比例

技术编号：30427791 阅读：24 留言：0更新日期：2021-10-24 17:15

本公开提供一种基于强化学习的通信资源分配方法及其相关设备，所述方法包括：综合考虑目标用户和非目标用户的位置、目标用户的Q值和回报函数，通过生成随机数，根据生成的随机数和ε贪婪算法，确定目标用户的信道选择策略和功率选择策略，进一步根据各个参数、信道选择策略和功率选择策略计算下一时刻的各个参数并更新目标用户的Q值，最后循环迭代直到满足预设的迭代时间或预设条件，得到目标用户的最终信道选择策略和所述目标用户的最终功率选择策略，并根据所述最终信道选择策略和所述最终功率选择策略，进行通信资源分配。使得信令开销降低，实现不同类型用户之间频谱资源的共享，提高频谱资源的利用率，缓解当前频谱资源短缺的问题。资源短缺的问题。资源短缺的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的通信资源分配方法及其相关设备

[0001]本公开涉及通信
，尤其涉及一种基于强化学习的通信资源分配方法及其相关设备。

技术介绍

[0002]在信息社会时代，汽车是极为重要的移动信息载体。为了解决车辆的辅助驾驶、车载娱乐等多场景业务需求，汽车需要与外界实现交互，这个互联和数据传输过程通常称为车联网(Vehicle
‑
to
‑
Everything,V2X)。V2X通信因其在提高道路安全和交通效率以及提供更丰富的信息娱乐体验方面的潜力而备受关注。近年来，智能交通的快速发展对车联网的质量和速率提出了更高的要求，使得车联网面临着通讯需求的爆发式增长以及频谱资源的严重短缺。

技术实现思路

[0003]有鉴于此，本公开的目的在于提出一种基于强化学习的通信资源分配方法及其相关设备。
[0004]基于上述目的，本公开提供了基于强化学习的通信资源分配方法，包括：
[0005]S1、获取目标用户和非目标用户的位置，初始化所述目标用户的Q值、回报函数和状态信息；
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的通信资源分配方法，包括：S1、获取目标用户和非目标用户的位置，初始化所述目标用户的Q值、回报函数和状态信息；S2、生成随机数，根据所述随机数和ε贪婪算法，确定所述目标用户的信道选择策略和所述目标用户的功率选择策略；S3、根据所述目标用户和非目标用户的位置、所述目标用户的Q值和回报函数、所述目标用户的状态信息、所述信道选择策略和所述功率选择策略进行通信资源分配，计算下一时刻的回报函数和状态信息并更新所述目标用户的Q值；S4、返回步骤S2循环迭代，直到满足预设的迭代时间或满足预设条件，得到所述目标用户的最终信道选择策略和所述目标用户的最终功率选择策略，并根据所述最终信道选择策略和所述最终功率选择策略，进行通信资源分配。2.根据权利要求1所述的方法，其中，所述生成随机数，根据所述随机数和ε贪婪算法，确定所述目标用户的信道选择策略和所述目标用户的功率选择策略，包括：响应于确定所述随机数小于ε，选择使动作策略概率最大的动作策略；响应于确定所述随机数大于等于ε，选择使所述Q值最大的动作策略。3.根据权利要求1所述的方法，其中，所述状态信息包括：目标用户链路的发送端到接收端的信道增益，来自其他目标用户链路发送端的干扰增益，目标用户链路发送端到基站的干扰增益，非目标用户到目标用户链路接收端的干扰增益，每个信道上的所述目标用户和非目标用户数目，所述目标用户和非目标用户的通信服务质量。4.根据权利要求1所述的方法，其中，所述回报函数与所述目标用户和非目标用户的通信质量、所述目标用户和非目标用户的总的吞吐量有关；当所述目标用户和非目标用户的通信质量满足最低通信门限要求时，所述回报函数大于0；当所述目标用户和/或非目标用户的通信质量不满足最低通信门限要求时，所述回报函数小于0。5.根据权利要求4所述的方法，其中，所述回报函数表示为：其中，λ
m
和λ
n
分别是平衡所述目标用户链路和所述非目标用户链路的权重，0≤λ
m
≤1，0≤λ
n

【专利技术属性】
技术研发人员：李斌，蒋丽萍，赵成林，许方敏，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人