一种基于深度强化学习的物联网频谱分配优化方法及系统技术方案

技术编号:35878992 阅读:18 留言:0更新日期:2022-12-07 11:17
本发明专利技术属于工业物联网频谱管理技术领域,具体涉及一种基于深度强化学习的物联网频谱分配优化方法及系统。考虑到全局信道信息未知的情况下,提出一种基于多智能体深度强化学习的工业物联网频谱分配优化方法。首先,构造多个设备对设备通信链路的系统模型。其次,构建优化问题,结合频谱子带和传输功率等约束条件以优化物联网网络综合效率。接着,将优化问题描述为马尔可夫决策过程。最后,针对上述优化问题具有较大的状态空间和动作空间,提出了多智能体深度Q网络算法。借助于经验回放机制和目标网络策略,以实现最优的频谱子带选择和传输功率分配策略。输功率分配策略。

【技术实现步骤摘要】
一种基于深度强化学习的物联网频谱分配优化方法及系统


[0001]本专利技术属于工业物联网频谱资源管理
,具体涉及一种基于深度强化学习的物联网频谱分配优化方法及系统。

技术介绍

[0002]随着信息时代的快速发展,工业物联网得到了蓬勃的发展。然而,随着工业物联网中无线设备的增加,加剧了对有限频谱资源和设备通信需求之间的矛盾。为了缓解这一现象,许多研究人员都提出了优化方法来应对。但是,在实际情况中,需要获取全局信道状态信息是非常困难的且计算复杂度高,现有的优化方法难以得到最优策略。因此,提出了一种多智能体深度强化学习方法来获得与蜂窝通信链路共享频谱的最优策略,并使工业物联网网络综合效率最大化。

技术实现思路

[0003]为了克服现有技术的存在的不足,本专利技术的目的旨在提出一种基于深度强化学习的频谱分配优化方法。
[0004]为了达到上述目的,本专利技术采用的技术方案是:一种基于深度强化学习的物联网频谱分配优化方法,其特征在于,包括:构造多个设备对设备通信链路的系统模型;基于构造的系统模型采集系统相关参数,包括蜂窝通信链路的信噪比和在频谱子带上的传输速率,也包括设备对设备通信链路的信噪比、所选择的频谱子带及其传输功率;构建优化目标函数以及约束条件;将采集的相关参数输入至优化目标函数以及约束条件,基于马尔可夫决策采用多智能体深度Q网络算法对目标函数进行求解,输出最优的频谱子带选择和传输功率分配策略,包括蜂窝通信链路效率、多个设备对设备通信链路效率以及最后所考虑的工业物联网网络效率。
[0005]在上述的一种基于深度强化学习的物联网频谱分配优化方法,多个设备对设备通信链路的系统模型包括:一个基站;个蜂窝通信链路;个设备对设备通信链路;其中,蜂窝通信链路用于获取高数据速率的服务,多个设备对设备通信链路用于设备之间的双向通信;假设蜂窝通信链路的频谱被分成个正交频谱子带,且每个频谱子带带宽为。
[0006]在上述的一种基于深度强化学习的物联网频谱分配优化方法,多个设备对设备通信链路可能有不同的频谱子带选择,二元频谱分配向量被定义为,并且,
当设备对设备通信链路复用蜂窝通信链路的频谱子带时,;当时,设备对设备通信链路未复用蜂窝通信链路的频谱子带;定义每个设备对设备通信链路最多只能复用一个频谱子带,即:。
[0007]在上述的一种基于深度强化学习的物联网频谱分配优化方法,蜂窝通信链路在频谱子带上的信噪比:蜂窝通信链路在频谱子带上数据的传输速率可以表示为:设备对设备通信链路在频谱子带上的信噪比:干扰功率可以表示为:设备对设备通信链路在频谱子带上的传输速率为:其中,蜂窝通信链路在频谱子带上到基站的信道增益被表示为;将表示为频谱子带上蜂窝通信链路的传输功率;是噪声功率,为二元频谱分配向量,表示频谱子带上设备对设备通信链路的传输功率,是设备对设备通信链路在频谱子带上到基站的干扰信道增益;为频谱子带带宽,是蜂窝通信链路在频谱子带上信噪比;是频谱子带上的设备对设备通信链路在频谱子带的信道功率增益,是设备对设备通信链路在频谱子带上的接收到的干扰功率;为二元频谱分配向量,是蜂窝通信链路到设备对设备通信链路的干扰信道增益,是设备对设备通信链路到设备对设备通信链路的干扰信道增益。
[0008]在上述的一种基于深度强化学习的物联网频谱分配优化方法,将蜂窝通信链路效率和设备对设备通信链路效率加权和定义为工业物联网网络效率:
其中,和是平衡蜂窝通信链路和设备对设备通信链路效率的权重;蜂窝通信链路效率表示为:设备对设备通信链路的效率表示为:其中,其中,和分别为蜂窝通信链路的传输功率和电路功耗,为频谱子带带宽;类似地,结合设备对设备通信链路的传输速率,为频谱子带带宽,和分别为设备对设备通信链路的传输功率和电路功耗。
[0009]在上述的一种基于深度强化学习的物联网频谱分配优化方法,约束条件表示为其中,和都表示设备对设备通信链路频谱选择的限制条件,设备对设备通信链路的传输功率不能超过其最大传输功率。
[0010]在上述的一种基于深度强化学习的物联网频谱分配优化方法,对目标函数进行求解时:训练开始之前对经验重放的经验回放池初始化,并随机对多个智能体的Q网络初始化;在每个训练回合开始时,更新工业物联网中设备的位置和大规模衰落系数,同时对设备与设备链路之间的剩余传输负载和剩余传输时间进行重置;在训练的每个时间间隙中,设备对设备链路作为智能体探索环境并获取环境状态和剩余传输负载和剩余传输时间;
设备对设备链路根据

greedy策略从环境状态中选择行动,获得环境所反馈的奖励回报和更新信道小规模衰落系数;环境状态转换到下一环境状态,同时采取经验重放策略,将存储到经验回放池中;设备对设备链路随机的从中抽取小批量的经验进行训练,同时,设备对设备通信链路可以通过最小化损失函数来优化Q网络和学习目标之间的误差:其中,为动作值函数,和分别是设备对设备通信链路在时间间隙时的状态空间和动作空间,为主网络权重;表示目标网络的输出,和分别是设备对设备通信链路在下一个环境状态时的状态空间和动作空间,为主网络权重,为折扣贴现率;每个训练回合在设备对设备链路做出合理的频谱子带和传输功率分配之后结束,当训练回合数达到最大时,训练停止。
[0011]在上述的一种基于深度强化学习的物联网频谱分配优化方法,环境状态包括:,,和分别是蜂窝通信链路和设备对设备通信链路的信道状态,是设备对设备通信链路在频谱子带上的接收到的干扰功率;此外,设备对设备链路所获得的环境状态定义为:。
[0012]一种工业物联网频谱分配优化系统,其特征在于,包括:第一模块:被配置为用于构造多个设备对设备通信链路的系统模型;第二模块:被配置为用于基于构造的系统模型采集系统相关参数,包括蜂窝通信链路的信噪比和在频谱子带上的传输速率,也包括设备对设备通信链路的信噪比、所选择的频谱子带及其传输功率;第三模块:被配置为用于构建优化目标函数以及约束条件;第四模块:被配置为用于将采集的相关参数输入至优化目标函数以及约束条件,基于马尔可夫决策采用多智能体深度Q网络算法对目标函数进行求解,输出最优的频谱子带选择和传输功率分配策略,包括蜂窝通信链路效率、多个设备对设备通信链路效率以及
最后所考虑的工业物联网网络效率。
[0013]本专利技术的优点如下:1. 在频谱优化方面,提升了设备对设备链路的频谱资源利用率,并与蜂窝通信链路共享频谱,对工业物联网络的频谱效率有一定的提升作用。2. 通过深度强化学习算法,优化了设备对设备链路之间的传输功率分配,提升其链路的能量效率。3. 综合考虑蜂窝通信链路、设备对设备链路的频谱效率和能量效率,设立目标函数,提高工业物联网的网络效率。
具体实施方式
[0014]为了便于本领域普通技术人员理解和实施本专利技术,下面结合实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0015]本实例是利用多智能体深度强化学习对工业物联网的频谱资源进行分配与优化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的物联网频谱分配优化方法,其特征在于,包括:构造多个设备对设备通信链路的系统模型;基于构造的系统模型采集系统相关参数,包括蜂窝通信链路的信噪比和在频谱子带上的传输速率,也包括设备对设备通信链路的信噪比、所选择的频谱子带及其传输功率;构建优化目标函数以及约束条件;将采集的相关参数输入至优化目标函数以及约束条件,基于马尔可夫决策采用多智能体深度Q网络算法对目标函数进行求解,输出最优的频谱子带选择和传输功率分配策略,包括蜂窝通信链路效率、多个设备对设备通信链路效率以及最后所考虑的工业物联网网络效率。2.根据权利要求1所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征在于,多个设备对设备通信链路的系统模型包括:一个基站;个蜂窝通信链路;个设备对设备通信链路;其中,蜂窝通信链路用于获取高数据速率的服务,多个设备对设备通信链路用于设备之间的双向通信;假设蜂窝通信链路的频谱被分成个正交频谱子带,且每个频谱子带带宽为。3.根据权利要求2所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征在于:多个设备对设备通信链路可能有不同的频谱子带选择,二元频谱分配向量被定义为,并且,当设备对设备通信链路复用蜂窝通信链路的频谱子带时,;当时,设备对设备通信链路未复用蜂窝通信链路的频谱子带;定义每个设备对设备通信链路最多只能复用一个频谱子带,即:。4.根据权利要求3所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征在于:蜂窝通信链路在频谱子带上的信噪比:蜂窝通信链路在频谱子带上数据的传输速率可以表示为:设备对设备通信链路在频谱子带上的信噪比:
干扰功率可以表示为:设备对设备通信链路在频谱子带上的传输速率为:其中,蜂窝通信链路在频谱子带上到基站的信道增益被表示为;将表示为频谱子带上蜂窝通信链路的传输功率;是噪声功率,为二元频谱分配向量,表示频谱子带上设备对设备通信链路的传输功率,是设备对设备通信链路在频谱子带上到基站的干扰信道增益;为频谱子带带宽,是蜂窝通信链路在频谱子带上信噪比;是频谱子带上的设备对设备通信链路在频谱子带的信道功率增益,是设备对设备通信链路在频谱子带上的接收到的干扰功率;为二元频谱分配向量,是蜂窝通信链路到设备对设备通信链路的干扰信道增益,是设备对设备通信链路到设备对设备通信链路的干扰信道增益。5.根据权利要求4所述的一种基于深度强化学习的物联网频谱分配优化方法,其特征在于:将蜂窝通信链路效率和设备对设备通信链路效率加权和定义为工业物联网网络效率:其中,和是平衡蜂窝通信链路和设备对设备通信链路效率的权重;蜂窝通信链路效率表示为:设备对设备通信链路的效率表示为:
其中,其中,和分别为蜂窝通...

【专利技术属性】
技术研发人员:王家烨金波张凤莲武明虎赵楠王茹杜万银孙萌杨成健郭乐铭
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1