一种基于multi-agent强化学习的宽带自组织网资源决策方法技术

技术编号：29799737 阅读：51 留言：0更新日期：2021-08-24 18:21

本发明专利技术公开了一种基于multi‑agent深度强化学习的宽带自组织网络无线资源决策方法，首先，利用相同无线资源传输不同占比节点业务对全网所产生的价值不同这一特性来建立资源决策问题的约束优化模型。然后，将该模型转化为multi‑agent强化学习决策过程，从而构建了基于该模型的多用户分布式无线资源决策的深度学习框架，用所提出模型的优化目标作为奖励对所有agent进行集中训练。最后，通过将该深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行，实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于multi-agent强化学习的宽带自组织网资源决策方法专利领域本专利技术涉及一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，属于无线自组织网络资源决策领域。
技术介绍
随着移动通信技术的不断发展和人们对通信内容要求越来越高，具有大容量、高传输速率，不依赖地面固定基础设施的宽带移动自组织网络受到军事战术网、应急通信、车联网等诸多重要领域的关注。在该网络中，各节点依赖于开放共享的无线资源进行业务传输，而由于没有中心节点调度，使得全网对于无线资源的利用要么存在冲突要么效率低下。在传统基于竞争的方式中，各节点自私地去抢占无线资源、不考虑其他用户的业务需求情况和全网的效益，即便在基于TDMA的分布式调度方式中，各节点对于无线资源的动态调度也缺乏全局意识。若使各节点收集全局信息来实现基于全网效益最大化的无线资源使用，则将需要大量的信息交互，从而使无线资源利用率大幅下降。因此，使各节点依赖尽量少的信息交互，来实现具有全局意识的无线资源分配效果，是宽带移动自组织网络面临的关键挑战之一。考虑到深度强化学习中神经网络具有的记忆性和泛化能力，本专利技术将每个节点看作一个agent，提出一个新颖的全局效益最大化目标，将其作为奖励来对所有agent进行集中训练，从而赋予了各节点在分布式执行时仅根据局部信息便具有全局优化意识的能力。专利技术目的本专利技术的目的是为了解决传统自组织网络中无线资源利用效率低且缺乏全局意识的问题，相比于以往方案中各节点仅根据自己的业务需求来进行无线资源的预定，本...

【技术保护点】
1.一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，其特征在于，包括以下步骤：/n步骤一、建立基于业务负载全网占比差异的资源决策问题约束优化模型；/n步骤二、构建multi-agent无线资源决策的深度强化学习框架，具体是，将步骤一中所建立的约束优化模型转化为multi-agent强化学习决策过程，从而构建了基于所述约束优化模型的多用户分布式无线资源决策的深度学习框架；/n步骤三、用所述约束优化模型的优化目标作为奖励，对所有agent进行集中训练；/n步骤四、通过将步骤二中所构建的深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行，从而实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。/n

【技术特征摘要】
1.一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，其特征在于，包括以下步骤：
步骤一、建立基于业务负载全网占比差异的资源决策问题约束优化模型；
步骤二、构建multi-agent无线资源决策的深度强化学习框架，具体是，将步骤一中所建立的约束优化模型转化为multi-agent强化学习决策过程，从而构建了基于所述约束优化模型的多用户分布式无线资源决策的深度学习框架；
步骤三、用所述约束优化模型的优化目标作为奖励，对所有agent进行集中训练；
步骤四、通过将步骤二中所构建的深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行，从而实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。

2.根据权利要求1所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，其特征在于，所述步骤一包括：
考虑一个仅包含2跳邻域N个节点的无线宽带移动自组织网络，各节点可接入的无线资源在时间和频率上被进一步划分为L个信道和M个数据时隙，时隙周期为Ts，其最小可利用资源单元被称为一个时频资源块；
所述宽带自组织网络采用一个具有轮询广播控制阶段和数据传输阶段组成的帧结构；
所述轮询广播控制阶段工作在一个健壮的公共信道上，且该公共信道被划分为N个控制时隙，每个节点在所属的控制时隙依次发送网络管理控制包，告诉该节点一跳邻域内的节点，在所述数据传输阶段要预定哪些时频资源块来进行后续的业务传输；
每个节点的邻居节点接收到该网络管理控制包信息后，根据预定信息更改自己本地的时频资源使用表，并在自己的控制时隙将该自己本地的时频资源使用表发送给邻居节点，从而实现两跳邻域节点的信息交互；
所述两跳邻域的网络管理控制包交互可消除各节点对于时频资源块选择的冲突，各节点对于时频资源块预定量的决策动作被表示为ai[k]，该决策动作需满足如式(1)所示的约束条件：

其中，i表示第i个节点，i＝1,2,3…N，k表示第k个时帧；定义网络中每个时频资源块的传输容量均为B0，用一个节点当前时刻所需传输的数据包大小Bi[k]及该数据包可容忍的时延Ti[k]来衡量传输该节点的价值，表示为将连续F个时帧作为一个超帧，并将在该超帧内所有节点的传输价值总和作为全网效益的衡量指标，将其表示为如式(2)所示：

其中，P1代表所建立的基于业务负载全网占比差异的资源决策问题约束优化模型，W代表所优化的全网效益的衡量指标，C1表示所有节点在一个时帧内选择的时频资源块总和小于该时帧总的时频资源块数；C2表示每个节点在一个超帧传输的业务量和小于其在该超帧内具有的总业务量；C3表示每个节点连续两个时帧的业务量变化关系；C4表示每个节点连续两个时帧业务可容忍时延的变化关系，{...}+表示取非负操作。

3.根据权利要求2所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法，其特征在于，所述步骤二中，所述深度学习框架配置有N个节点对应的N个agent的神经网络Q(o,a|θ)和经验记忆回放池Di，所述经验记忆回放池的容量为Me，用于存放该框架产生的历史数据元组(O,a,r,O')，即当前时刻的观测状态、采取的动作、获得的奖励及因采用该动作而转移到的下一时刻的观测状态；所述神经网络的参数为θ，对其训练时每次从经验记忆回放池中随机选取Mb个历史数据元组Dibatch，并采用学习速率α和贪婪概率ε；所述深度强化学习框架所采用的状态元素是各节点的局部可观测信息；定义每个agent的局部观测状态如式(3)所示：
Oi[k]＝{a1,…,N[k-1],Bi[k],Ti[k],ni[k],e,ε}(3)，
其中，aj[k-1]表示第jtha...

【专利技术属性】
技术研发人员：张树英，赵旭，倪祖耀，匡麟玲，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人