基于联合强化学习的联合干扰和AoI感知资源分配方法及系统技术方案

技术编号：41348739 阅读：3 留言：0更新日期：2024-05-20 10:03

本发明专利技术涉及大规模物联网(mIoT)技术领域，具体公开了一种基于联合强化学习的联合干扰和AoI感知资源分配方法及系统，针对海量ID的密集部署会造成大规模密集干扰的问题，本发明专利技术为B5G智慧城市提出了一种基于联合强化学习(FRL)的联合干扰和AoI感知资源分配方法，该方法针对大规模密集干扰建立了一种新颖的冲突图模型，并将其进一步转化为冲突超图模型。然后，制定了具有顺序决策特征的资源分配马尔可夫决策过程(MDP)，并通过Actor‑Critic方法对其进行求解。此外，为了通过将计算工作量分配到整个网络来减少计算负载并实现分布式学习，提出了联邦平均优势Actor‑Critic(FA3C)。仿真结果表明，该方法具有较高的网络吞吐量，满足B5G智慧城市的AoI要求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大规模物联网(miot)，尤其涉及基于联合强化学习的联合干扰和aoi感知资源分配方法及系统。

技术介绍

1、随着海量物联网(iot)作为超5g(b5g)前沿技术的快速发展，海量物联网设备(id)已在智慧城市中密集部署，推动了广泛的实时城市管理服务，例如交通管理和环境监测。为了评估实时城市管理系统的性能，信息年龄(aoi)作为一种有效且易于处理的指标在中被提出，用于量化实时服务数据包的新鲜度。由于承载业务的各类id存在差异化的aoi需求，进一步降低实时城市管理业务的平均aoi，从而保证b5g智慧城市对火灾、地震和交通事故等突发事件的实时监控和响应。然而，由于b5g智慧城市中id的密集部署，单个id的通信范围内存在海量的id。实时城市管理系统会受到大规模密集干扰的影响，这种干扰是由海量id之间的复用资源冲突导致的，会导致数据传输延迟或数据包重传，从而提高实时城市管理的平均aoi。因此，大规模密集干扰和差异化的aoi需求引起了b5g智慧城市实时城市管理服务资源分配研究的广泛关注。

2、大多数研究主要通过以最小延迟为优化目标的资源分配方法及系统来降低网络系统的传输延迟，从而提高物联网网络的实时性能。然而，由于数据生成和更新速率也会影响实时性能，因此单次低延迟数据传输并不意味着数据包是新鲜的。为了解决这个问题，aoi不仅考虑延迟的影响，还考虑数据更新率和生成时间(即，它测量设备之间从生成数据包到接收数据包所经过的时间)。在实际应用中，在支撑5g智慧城市不断增长的海量id时，这些只考虑aoi需求的资源分配方式缺乏对

3、为了支持实时城市管理，最近的研究分析了支持b5g的智慧城市的无线电资源分配，同时考虑了物联网网络环境的平均aoi约束。有文献探索了采用先到先服务(fcfs)排队规则的m/m/1排队系统，并导出了服务平均aoi的一般表达式。与传统的延迟度量相比，aoi不仅考虑数据包传输延迟，还考虑数据生成时间和更新速率，即，它测量自接收器接收到的最新状态更新数据包生成以来所经过的时间。在物联网网络中，有文献提出了aoi感知的无线资源分配方法及系统，以在aoi和有限系统资源的约束下最大化长期平均系统效用。由于数据传输的新鲜度对于物联网网络非常重要，因此有文献提出了基于深度q网络(dqn)的资源调度，以最小化平均aoi。因此，aoi作为数据包新鲜度的性能指标，可以更好地表征智慧城市通信系统的需求。上述文章中解决的大多数问题都与最小化平均aoi作为资源分配的优化目标有关，以确保物联网网络中的实时服务。尽管如此，一个尚未阐明的基本共同问题是b5g智慧城市中的大规模密集干扰状况会导致物联网网络数据传输中的延迟或数据包重传。

4、支持实时城市管理的有前景的替代方案之一是通过在物联网网络中有效分配资源来避免大规模密集干扰。例如，在支持d2d的5g nb-iot中，有文献提出了干扰避免资源分配方法及系统，以最大化频谱利用率并在服务质量(qos)约束下实现更高的网络吞吐量。为了降低干扰功率并提高数据传输速率，有文献提出了分布式d2d资源分配方法及系统，以减少超密集d2d网络中的同信道干扰，其中资源可以不受限制地重用。有文献提出了联合干扰对齐和子信道分配干扰管理方案，旨在最大限度地满足超密集无线网络中用户qos的不同需求。在毫米波蜂窝网络中，有文献提出了一种基于无干扰调度的资源分配方法及系统来处理多个优化目标，包括最小传输速率的最大化、总发射功率的最小化和网络吞吐量的最大化。

5、由于上述资源分配方法及系统仅针对最小化aoi或减少干扰的一方面，这些方法无法处理复杂的情况(例如大规模密集干扰、差异化aoi要求)。其次，其中一些在大规模密集干扰网络的背景下资源分配的计算复杂度很高。在b5g的智慧城市中，现有的研究很少考虑在考虑干扰避免和差异化aoi需求的情况下降低资源分配的难度，这是一个迫切需要解决的问题。

技术实现思路

1、本专利技术提供基于联合强化学习的联合干扰和aoi感知资源分配方法及系统，解决的技术问题在于：如何在b5g智慧城市中，在考虑干扰避免和差异化aoi需求的情况下降低资源分配的难度。

2、为解决以上技术问题，本专利技术提供基于联合强化学习的联合干扰和aoi感知资源分配方法及系统，包括步骤：

3、s1、构建b5g智慧城市的通信网络架构；

4、所述b5g智慧城市的通信网络架构包括n个单天线物联网设备简称id、m条d2d链路和d个可分配的资源块简称rb，d2d表示设备到设备；

5、s2、建立所述b5g智慧城市的通信网络架构在资源分配时的冲突网络模型；

6、s3、针对所述冲突网络模型中的干扰关系建立冲突超图模型；

7、s4、基于所述冲突超图模型建立所述b5g智慧城市的通信网络架构的无冲突资源分配问题；

8、s5、基于所述无冲突资源分配问题构建为以马尔科夫决策过程为指导的资源分配网络；

9、s6、采用联邦平均优势方法训练所述资源分配网络；

10、s7、采用训练完成的所述资源分配网络根据当前b5g智慧城市的通信网络架构的状态进行无干扰资源分配。

11、进一步地，在所述步骤s4中，所述无冲突资源分配问题构建为：

12、

13、

14、

15、

16、

17、其中，ot表示时间t时的网络吞吐量，表示t时刻第m条d2d链路在第d个rb上的传输数据速率，表示t时刻第d个rb分配给第m个d2d链路的使用指示符，max表示最大化，s.t.表示使满足；表示t时刻b5g智慧城市的资源分配冲突度，约束c1表示对资源分配没有干扰；表示m条d2d链路集合，为第m条d2d链路的最小速率阈值，约束c2表示每条d2d链路的数据传输速率都不小于最小传输速率表示d个可分配的资源块集合，约束c3表示在时刻t给每个d2d链路的资源不超过可用rb总数；约束c4表示分配给每个d2d链路的资源受到rb使用状态的限制，表示第d个rb在时间t被分配给第m个d2d链路，否则

18、进一步地，在所述步骤s2中，所述冲突网络模型用表示，其中是表示d2d链路的顶点集，εc是表示d2d链路之间的冲突关系的边的集合，边和顶点之间的关系用邻接矩阵gc＝{0,1}m×m表示，其中邻接矩阵gc的第m行第m′列元素gc(em,em′)取值为：

19、

20、进一步地，在所述步骤s3中，所述冲突超图模型用表示，其中是顶点集，是超边集，超边是的子集，冲突超图模型由关联矩阵h∈{0,1}表征，h中的任一元素h(v,e)取值为：

21、

22、h(v,e)＝1表示顶点v与超边e重合，即超边e包含顶点v，否则h(v,e)＝0；

23、定义为本文档来自技高网...

【技术保护点】

1.基于联合强化学习的联合干扰和AoI感知资源分配方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于联合强化学习的联合干扰和AoI感知资源分配方法，其特征在于，在所述步骤S4中，所述无冲突资源分配问题构建为：

3.根据权利要求2所述的基于联合强化学习的联合干扰和AoI感知资源分配方法，其特征在于：在所述步骤S2中，所述冲突网络模型用表示，其中是表示D2D链路的顶点集，εc是表示D2D链路之间的冲突关系的边的集合，边和顶点之间的关系用邻接矩阵GC＝{0,1}M×M表示，其中邻接矩阵GC的第m行第m′列元素GC(em,em′)取值为：

4.根据权利要求3所述的基于联合强化学习的联合干扰和AoI感知资源分配方法，其特征在于，在所述步骤S3中，所述冲突超图模型用表示，其中是顶点集，是超边集，超边是的子集，冲突超图模型由关联矩阵H∈{0,1}表征，H中的任一元素H(v,e)取值为：

5.根据权利要求4所述的基于联合强化学习的联合干扰和AoI感知资源分配方法，其特征在于，在所述步骤S5中，以马尔科夫决策过程为指导，具体是指：

>6.根据权利要求5所述的基于联合强化学习的联合干扰和AoI感知资源分配方法，其特征在于，在所述步骤S5中，所述资源分配网络包括行动者网络和批评者网络；所述行动者网络提供状态值函数Vπ(s)和动作值函数Qπ(s,a)来评估由所述批评者网络生成的资源分配方案；所述批评者网络以状态作为输入，目标是获得最优分配策略π*，通过基于行动者网络提供的值函数更新其参数来最大化累积折扣奖励的期望

7.根据权利要求6所述的基于联合强化学习的联合干扰和AoI感知资源分配方法，其特征在于，所述行动者网络的参数为w，所述批评者网络的参数为θ；

8.根据权利要求7所述的基于联合强化学习的联合干扰和AoI感知资源分配方法，其特征在于，t时刻的参数θ由下式更新：

9.根据权利要求8所述的基于联合强化学习的联合干扰和AoI感知资源分配方法，其特征在于，所述步骤S6具体包括步骤：

10.基于联合强化学习的联合干扰和AoI感知资源分配系统，其特征在于：设有资源分配模块，所述资源分配模块用于实现权利要求1～9任一项所述的步骤S1～S7。

...

【技术特征摘要】

1.基于联合强化学习的联合干扰和aoi感知资源分配方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于联合强化学习的联合干扰和aoi感知资源分配方法，其特征在于，在所述步骤s4中，所述无冲突资源分配问题构建为：

3.根据权利要求2所述的基于联合强化学习的联合干扰和aoi感知资源分配方法，其特征在于：在所述步骤s2中，所述冲突网络模型用表示，其中是表示d2d链路的顶点集，εc是表示d2d链路之间的冲突关系的边的集合，边和顶点之间的关系用邻接矩阵gc＝{0,1}m×m表示，其中邻接矩阵gc的第m行第m′列元素gc(em,em′)取值为：

4.根据权利要求3所述的基于联合强化学习的联合干扰和aoi感知资源分配方法，其特征在于，在所述步骤s3中，所述冲突超图模型用表示，其中是顶点集，是超边集，超边是的子集，冲突超图模型由关联矩阵h∈{0,1}表征，h中的任一元素h(v,e)取值为：

5.根据权利要求4所述的基于联合强化学习的联合干扰和aoi感知资源分配方法，其特征在于，在所述步骤s5中，以马尔科夫决策过程为指导，具体是...

【专利技术属性】
技术研发人员：黄杰，杨成，杨凡，张仕龙，赖显智，李姣军，蔡杰良，
申请(专利权)人：重庆理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人