当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于multi-agent强化学习的宽带自组织网资源决策方法技术

技术编号:29799737 阅读:51 留言:0更新日期:2021-08-24 18:21
本发明专利技术公开了一种基于multi‑agent深度强化学习的宽带自组织网络无线资源决策方法,首先,利用相同无线资源传输不同占比节点业务对全网所产生的价值不同这一特性来建立资源决策问题的约束优化模型。然后,将该模型转化为multi‑agent强化学习决策过程,从而构建了基于该模型的多用户分布式无线资源决策的深度学习框架,用所提出模型的优化目标作为奖励对所有agent进行集中训练。最后,通过将该深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行,实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。

【技术实现步骤摘要】
一种基于multi-agent强化学习的宽带自组织网资源决策方法专利领域本专利技术涉及一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,属于无线自组织网络资源决策领域。
技术介绍
随着移动通信技术的不断发展和人们对通信内容要求越来越高,具有大容量、高传输速率,不依赖地面固定基础设施的宽带移动自组织网络受到军事战术网、应急通信、车联网等诸多重要领域的关注。在该网络中,各节点依赖于开放共享的无线资源进行业务传输,而由于没有中心节点调度,使得全网对于无线资源的利用要么存在冲突要么效率低下。在传统基于竞争的方式中,各节点自私地去抢占无线资源、不考虑其他用户的业务需求情况和全网的效益,即便在基于TDMA的分布式调度方式中,各节点对于无线资源的动态调度也缺乏全局意识。若使各节点收集全局信息来实现基于全网效益最大化的无线资源使用,则将需要大量的信息交互,从而使无线资源利用率大幅下降。因此,使各节点依赖尽量少的信息交互,来实现具有全局意识的无线资源分配效果,是宽带移动自组织网络面临的关键挑战之一。考虑到深度强化学习中神经网络具有的记忆性和泛化能力,本专利技术将每个节点看作一个agent,提出一个新颖的全局效益最大化目标,将其作为奖励来对所有agent进行集中训练,从而赋予了各节点在分布式执行时仅根据局部信息便具有全局优化意识的能力。专利技术目的本专利技术的目的是为了解决传统自组织网络中无线资源利用效率低且缺乏全局意识的问题,相比于以往方案中各节点仅根据自己的业务需求来进行无线资源的预定,本专利技术进一步关注各节点业务负载全网占比差异。本专利技术提出一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,通过使用一个考虑全局效益最大化的目标去集中训练所有agent,并将训练好的agent加载到对应网络节点中进行分布执行,以达到各节点仅依赖局部信息便可进行具有全局意识的无线资源决策的效果。
技术实现思路
本专利技术提供了一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,包括以下步骤:步骤一、建立基于业务负载全网占比差异的资源决策问题约束优化模型;步骤二、构建multi-agent无线资源决策的深度强化学习框架,具体是,将步骤一中所建立的约束优化模型转化为multi-agent强化学习决策过程,从而构建了基于所述约束优化模型的多用户分布式无线资源决策的深度学习框架;步骤三、用所述约束优化模型的优化目标作为奖励,对所有agent进行集中训练;步骤四、通过将步骤二中所构建的深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行,从而实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。优选地,所述步骤一包括:考虑一个仅包含2跳邻域N个节点的无线宽带移动自组织网络,各节点可接入的无线资源在时间和频率上被进一步划分为L个信道和M个数据时隙,时隙周期为Ts,其最小可利用资源单元被称为一个时频资源块;该网络采用一个具有轮询广播控制阶段和数据传输阶段组成的帧结构;所述轮询广播控制阶段工作在一个健壮的公共信道上,且该公共信道被划分为N个控制时隙,每个节点在所属的控制时隙依次发送网络管理控制包,告诉该节点一跳邻域内的节点,在所述数据传输阶段要预定哪些时频资源块来进行后续的业务传输;每个节点的邻居节点接收到该网络管理控制包信息后,根据预定信息更改自己本地的时频资源使用表,并在自己的控制时隙将该自己本地的时频资源使用表发送给邻居节点,从而实现两跳邻域节点的信息交互;所述两跳邻域的网络管理控制包交互可消除各节点对于时频资源块选择的冲突,各节点对于时频资源块预定量的决策动作被表示为ai[k],该决策动作需满足如式(1)所示的约束条件:其中,i表示第i个节点,i=1,2,3…N,k表示第k个时帧;定义网络中每个时频资源块的传输容量均为B0,用一个节点当前时刻所需传输的数据包大小Bi[k]及该数据包可容忍的时延Ti[k]来衡量传输该节点的价值,表示为将连续F个时帧作为一个超帧,并将在该超帧内所有节点的传输价值总和作为全网效益的衡量指标,将其表示为如式(2)所示:其中,P1代表所建立的基于业务负载全网占比差异的资源决策问题约束优化模型,W代表所优化的全网效益的衡量指标,C1表示所有节点在一个时帧内选择的时频资源块总和小于该时帧总的时频资源块数;C2表示每个节点在一个超帧传输的业务量和小于其在该超帧内具有的总业务量;C3表示每个节点连续两个时帧的业务量变化关系;C4表示每个节点连续两个时帧业务可容忍时延的变化关系,{...}+表示取非负操作。优选地,所述步骤二中,所述深度学习框架配置有N个节点对应的N个agent的神经网络Q(o,a|θ)和经验记忆回放池Di,所述经验记忆回放池的容量为Me,用于存放该框架产生的历史数据元组(O,a,r,O'),即当前时刻的观测状态、采取的动作、获得的奖励及因采用该动作而转移到的下一时刻的观测状态;所述神经网络的参数为θ,对其训练时每次从经验记忆回放池中随机选取Mb个历史数据元组Dibatch,并采用学习速率α和贪婪概率ε;所述深度强化学习框架所采用的状态元素是各节点的局部可观测信息;定义每个agent的局部观测状态如式(3)所示:Oi[k]={a1,…,N[k-1],Bi[k],Ti[k],ni[k],e,ε}(3),其中,aj[k-1]表示第jthagent在上一时帧所采取的动作,ni[k]表示该节点在其控制时隙时所面临的剩余时频资源块数,e和ε分别为当前训练的次数和随机选择的概率;根据每个节点决策动作的约束,设定该框架中节点i的动作空间如式(4)所示:其中,ai[k]的最大值不能超过该节点在当前时帧总业务量和剩余时频资源块数的最小值;为使每个agent在做动作决策时能最大化全网效益,将当前时帧所有节点所产生的传输价值总和作为每个节点的奖励函数,该深度强化学习框架中所有节点同时采取动作之后获得的奖励如式(5)所示:其物理意义为当前时帧全网的总传输价值;将所述深度强化学习过程优化的累计折扣奖励表示为如式(6)所示:其中,折扣因子γ表征当前决策是更关注近期收益还是长期收益,0≤γ≤1;将所述累计折扣奖励与优化目标相匹配,作为促进每个节点在动作决策时的优化策略,根据Q学习算法,将所述优化策略表征为如式(7)所示:其中,所述深度强化学习框架采用深度神经网络Q(o,a|θ)拟合Q值函数和输入观测状态之间的关系,并利用经验回放操作来训练该神经网络,使各节点决策结果趋向于最优。优选地,所述步骤三具体包括以下子步骤:步骤3.1:环境初始化,即产生一个包含N个节点的2跳邻域自组织网络,该网络一帧内可用无线资源为1个前导公共信道和L个预定信道,公共信道在一帧中被划分为N个控制时隙,每个预定信道被分为M个数据时隙。步骤3.2:神经网络初始化,将每个节点看作一个agent,并本文档来自技高网
...

【技术保护点】
1.一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,其特征在于,包括以下步骤:/n步骤一、建立基于业务负载全网占比差异的资源决策问题约束优化模型;/n步骤二、构建multi-agent无线资源决策的深度强化学习框架,具体是,将步骤一中所建立的约束优化模型转化为multi-agent强化学习决策过程,从而构建了基于所述约束优化模型的多用户分布式无线资源决策的深度学习框架;/n步骤三、用所述约束优化模型的优化目标作为奖励,对所有agent进行集中训练;/n步骤四、通过将步骤二中所构建的深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行,从而实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。/n

【技术特征摘要】
1.一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,其特征在于,包括以下步骤:
步骤一、建立基于业务负载全网占比差异的资源决策问题约束优化模型;
步骤二、构建multi-agent无线资源决策的深度强化学习框架,具体是,将步骤一中所建立的约束优化模型转化为multi-agent强化学习决策过程,从而构建了基于所述约束优化模型的多用户分布式无线资源决策的深度学习框架;
步骤三、用所述约束优化模型的优化目标作为奖励,对所有agent进行集中训练;
步骤四、通过将步骤二中所构建的深度学习框架训练的agent加载到网络对应的分布式节点上进行分布式执行,从而实现了各节点仅依赖局部信息就能实现具有全局意识的无线资源决策。


2.根据权利要求1所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,其特征在于,所述步骤一包括:
考虑一个仅包含2跳邻域N个节点的无线宽带移动自组织网络,各节点可接入的无线资源在时间和频率上被进一步划分为L个信道和M个数据时隙,时隙周期为Ts,其最小可利用资源单元被称为一个时频资源块;
所述宽带自组织网络采用一个具有轮询广播控制阶段和数据传输阶段组成的帧结构;
所述轮询广播控制阶段工作在一个健壮的公共信道上,且该公共信道被划分为N个控制时隙,每个节点在所属的控制时隙依次发送网络管理控制包,告诉该节点一跳邻域内的节点,在所述数据传输阶段要预定哪些时频资源块来进行后续的业务传输;
每个节点的邻居节点接收到该网络管理控制包信息后,根据预定信息更改自己本地的时频资源使用表,并在自己的控制时隙将该自己本地的时频资源使用表发送给邻居节点,从而实现两跳邻域节点的信息交互;
所述两跳邻域的网络管理控制包交互可消除各节点对于时频资源块选择的冲突,各节点对于时频资源块预定量的决策动作被表示为ai[k],该决策动作需满足如式(1)所示的约束条件:



其中,i表示第i个节点,i=1,2,3…N,k表示第k个时帧;定义网络中每个时频资源块的传输容量均为B0,用一个节点当前时刻所需传输的数据包大小Bi[k]及该数据包可容忍的时延Ti[k]来衡量传输该节点的价值,表示为将连续F个时帧作为一个超帧,并将在该超帧内所有节点的传输价值总和作为全网效益的衡量指标,将其表示为如式(2)所示:



其中,P1代表所建立的基于业务负载全网占比差异的资源决策问题约束优化模型,W代表所优化的全网效益的衡量指标,C1表示所有节点在一个时帧内选择的时频资源块总和小于该时帧总的时频资源块数;C2表示每个节点在一个超帧传输的业务量和小于其在该超帧内具有的总业务量;C3表示每个节点连续两个时帧的业务量变化关系;C4表示每个节点连续两个时帧业务可容忍时延的变化关系,{...}+表示取非负操作。


3.根据权利要求2所述的一种基于multi-agent深度强化学习的宽带自组织网络无线资源决策方法,其特征在于,所述步骤二中,所述深度学习框架配置有N个节点对应的N个agent的神经网络Q(o,a|θ)和经验记忆回放池Di,所述经验记忆回放池的容量为Me,用于存放该框架产生的历史数据元组(O,a,r,O'),即当前时刻的观测状态、采取的动作、获得的奖励及因采用该动作而转移到的下一时刻的观测状态;所述神经网络的参数为θ,对其训练时每次从经验记忆回放池中随机选取Mb个历史数据元组Dibatch,并采用学习速率α和贪婪概率ε;所述深度强化学习框架所采用的状态元素是各节点的局部可观测信息;定义每个agent的局部观测状态如式(3)所示:
Oi[k]={a1,…,N[k-1],Bi[k],Ti[k],ni[k],e,ε}(3),
其中,aj[k-1]表示第jtha...

【专利技术属性】
技术研发人员:张树英赵旭倪祖耀匡麟玲
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1