基于最大熵强化学习的应急通信动态频谱聚合与接入方法技术

技术编号：37173153 阅读：10 留言：0更新日期：2023-04-20 22:43

本发明专利技术属于无线通信网络技术领域，提供了一种基于最大熵强化学习的应急通信动态频谱聚合与接入方法，其包括主要用户在每个时隙的开始，随机接入应急通信基站通信频段的任意信道；次要用户根据频谱感知来检测所有信道的状态，寻找出空闲信道，并根据聚合长度将应急通信基站的整个通信频段聚合成多个频段，选择其中一个具有多个预设增益信道的频段进行接入；应急通信基站根据次要用户接入的频段，基于最大熵强化学习策略而构建的演员

全部详细技术资料下载

【技术实现步骤摘要】
基于最大熵强化学习的应急通信动态频谱聚合与接入方法

[0001]本专利技术属于无线通信网络
，尤其涉及一种基于最大熵强化学习的应急通信动态频谱聚合与接入方法。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]暴雨、地震、火山、海啸等自然灾害频发，常常对电力和通信网络造成灾难性破坏。无人机由于其灵活的配置和机动特性可以快速恢复通信服务,对于评估灾情和提供应急救助至关重要。部署无人机辅助救援认知网络(UAV
‑
assistedRescue Cognitive Networks，UAV
‑
RCNs)的优势在于无人机比地面基站更容易适应不同的危险环境，并作为临时移动基站提供通信服务，更高效地协助搜索、救援和通信任务。在自然灾害发生后的短时间内，无人机可以通过地面控制站或卫星通信链路为地面用户提供灵活的通信服务。然而，通过UAV
‑
RCNs提供通信存在许多挑战。首先，由于体积和重量的限制，无人机的储存能量有限，从而限制了无人机所能提供的通信服务。其次，授权用于无人机通信的频谱资源非常有限。最后，虽然在紧急通信中通常首选发送文本和语音消息，但不同的用户(如救灾人员和受灾民众)可能对其他通信服务有不同的要求，包括图片、视频、地理位置，甚至浏览器访问。因此，如何充分利用有限的频谱和能量，为不同用户提供高质量低能耗的通信仍然是UAV
‑
RCNs面临的难题。/>[0004]认知无线电网络被认为是解决灾害救援网络中无人机频谱稀缺问题的有前途的解决方案。认知无线电网络技术可用于提高UAV
‑
RCNs中的频谱效率，其中无人机充当救援基站，为所有用户提供通信。专利技术人发现，现有的基于认知无线电网络的频谱接入技术，仍然存在以下问题：
[0005]1)现有研究大多考虑用户仅接入一个信道，忽略了用户对更高宽带的需求；
[0006]2)多数研究仅考虑用户对频谱的完全正确感知，但在真实环境中，由于受噪声和干扰的影响，频谱感知有可能存在错误；
[0007]3)由于系统中存在多个不同宽带需求的用户，采用确定性策略的DRL算法很容易陷入局部最优，导致多个用户选择同一个最优的频段，从而使得用户之间的碰撞增加，降低了用户的可实现速率与频谱利用率。

技术实现思路

[0008]为了解决上述
技术介绍
中存在的技术问题，本专利技术提供一种基于最大熵强化学习的应急通信动态频谱聚合与接入方法，其使得次级用户学习动态变化的未知频谱环境并接入信道质量好的频谱空洞与避免所有用户的冲突，以提高接入成功率。
[0009]为了实现上述目的，本专利技术采用如下技术方案：
[0010]一种基于最大熵强化学习的应急通信动态频谱聚合与接入方法，其包括：
[0011]主要用户在每个时隙的开始，随机接入应急通信基站通信频段的任意信道；
[0012]次要用户根据频谱感知来检测所有信道的状态，寻找出空闲信道，并根据聚合长度将应急通信基站的整个通信频段聚合成多个频段，选择其中一个具有多个预设增益信道的频段进行接入；
[0013]应急通信基站根据次要用户接入的频段，基于最大熵强化学习策略而构建的演员
‑
评论家网络来计算次要用户的奖励，根据奖励的正负值来确定次要用户是否进行数据传输；
[0014]其中，主要用户和次要用户是根据应急通信终端的用户属性而划分的。
[0015]作为一种实施方式，在每个时隙内，信道的特性保持不变，直到次要用户结束数据传输，下一时隙的开始，主要用户进行新的接入。
[0016]作为一种实施方式，如果次要用户的奖励是正值，则次要用户在所选的信道中进行数据传输。
[0017]作为一种实施方式，如果次要用户的奖励是负值，则次要用户传输数据失败，并将状态、奖励和动作储存在经验池进行训练演员
‑
评论家网络的参数。
[0018]作为一种实施方式，第n个次要用户在第t个时隙的奖励表达式为：
[0019][0020]其中，为第n个次要用户传输速率；f表示惩罚项。
[0021]作为一种实施方式，第n个次要用户传输速率为：
[0022][0023]式中，B
n
为第n个次要用户的带宽需求，ε
n
表示第n个次要用户接入信道后所获得的信噪比。
[0024]作为一种实施方式，采用回归损失函数来更新所述演员
‑
评论家网络中的评论家网络的参数。
[0025]作为一种实施方式，回归损失函数为：
[0026][0027][0028]式中表示期望函数，表示从经验池D采样一批经验单元以更新评论家网络参数θ，表示评论家网络的Q值，表示目标评论家网络的目标Q值，γ∈(0,1)为折扣因子，为目标网络的输出值，为最大熵的熵项；为根据次要用户的下一时隙随机性策略得到的下一时隙的动作；O、A、R分别表示观察状态、动作和奖励；公式中的下标n表示第n个次要用户，上标t表示第t个
时隙，上标t+1表示第t+1个时隙。
[0029]作为一种实施方式，根据策略梯度函数来更新所述演员
‑
评论家网络中的演员网络的参数。
[0030]作为一种实施方式，所述策略梯度函数为：
[0031][0032]其中，为策略梯度函数，表示期望函数，表示从经验池 D采样一批经验单元以更新演员网络的参数φ；表示在条件下的随机性策略；表示评论家网络的Q值，θ为评论家网络参数；为最大熵的熵项；O、A分别表示观察状态和动作；公式中的下标n表示第n 个次要用户，上标t表示第t个时隙。
[0033]与现有技术相比，本专利技术的有益效果是：
[0034](1)本专利技术基于部署无人机辅助救援认知网络的频谱使用模型，根据应急通信终端的用户属性划分主要用户和次要用户，通过采用认知无线电技术动态共享可用频谱；本专利技术提供了频谱聚合和接入技术，以管理具有不同带宽需求的次要用户的频谱接入，次要用户首先需要感知并聚合多个信道质量好的空闲信道，然后无冲突地接入频谱，提高了频谱利用率；
[0035](2)本专利技术基于多智能体强化学习算法来解决无人机辅助救援认知网络中的动态频谱接入问题，通过结合熵项与软更新策略来避免局部最优并更好地探索更多可能性；其中，分布式训练和执行算法框架旨在优化频谱接入的效率和功耗，最大限度地减少干扰和中断，并最大限度地提高可实现速率，以鲁棒地实现了多个次用户的接入策略，更好地提高了系统性能，有效地减少了用户异质性和独立性的负面影响。
[0036]本专利技术附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本专利技术的实践了解到。
附图说明
[0037]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于最大熵强化学习的应急通信动态频谱聚合与接入方法，其特征在于，包括：主要用户在每个时隙的开始，随机接入应急通信基站通信频段的任意信道；次要用户根据频谱感知来检测所有信道的状态，寻找出空闲信道，并根据聚合长度将应急通信基站的整个通信频段聚合成多个频段，选择其中一个具有多个预设增益信道的频段进行接入；应急通信基站根据次要用户接入的频段，基于最大熵强化学习策略而构建的演员
‑
评论家网络来计算次要用户的奖励，根据奖励的正负值来确定次要用户是否进行数据传输；其中，主要用户和次要用户是根据应急通信终端的用户属性而划分的。2.如权利要求1所述的基于最大熵强化学习的应急通信动态频谱聚合与接入方法，其特征在于，在每个时隙内，信道的特性保持不变，直到次要用户结束数据传输，下一时隙的开始，主要用户进行新的接入。3.如权利要求1所述的基于最大熵强化学习的应急通信动态频谱聚合与接入方法，其特征在于，如果次要用户的奖励是正值，则次要用户在所选的信道中进行数据传输。4.如权利要求1或3所述的基于最大熵强化学习的应急通信动态频谱聚合与接入方法，其特征在于，如果次要用户的奖励是负值，则次要用户传输数据失败，并将状态、奖励和动作储存在经验池进行训练演员
‑
评论家网络的参数。5.如权利要求1所述的最大熵强化学习的动态频谱聚合与接入方法，其特征在于，第n个次要用户在第t个时隙的奖励表达式为：其中，为第n个次要用户传输速率；f表示惩罚项。6.如权利要求5所述的最大熵强化学习的动态频谱聚合与接入方法，其特征在于，第n个次要用户传输速率为：式中，B

【专利技术属性】
技术研发人员：孙丽丽，李然，丁文娇，车四四，王朔，张延童，何子亨，刘方舟，王雨晨，刘鸿雁，朱立楠，孙小骏，
申请(专利权)人：山东大学国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人