一种基于多智能体深度强化学习的D2D资源分配方法组成比例

技术编号:21066251 阅读:28 留言:0更新日期:2019-05-08 10:13
本发明专利技术公开了一种基于多智能体深度强化学习的D2D资源分配方法,属于无线通信领域。首先构建蜂窝网络与D2D通信共享频谱的异构网络模型,基于其存在的干扰,建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR,然后分别计算蜂窝链路和D2D链路的单位带宽通信速率后,以将最大化系统容量为优化目标,构建异构网络中的D2D资源分配优化模型;针对时隙t,在D2D资源分配优化模型的基础上,构建每一个D2D通信对的深度强化学习模型;分别对后续时隙中的每个D2D通信对提取各自的状态特征矢量,输入训练好的深度强化学习模型中,得到各个D2D通信对的资源分配方案。本发明专利技术优化了频谱分配和传输功率,最大化了系统容量,提供了低复杂度的资源分配算法。

A Method of D2D Resource Allocation Based on Multi-Agent Deep Reinforcement Learning

【技术实现步骤摘要】
一种基于多智能体深度强化学习的D2D资源分配方法
本专利技术属于无线通信领域,涉及异构蜂窝网络系统,具体是一种基于多智能体深度强化学习的D2D资源分配方法。
技术介绍
智能终端的普及以及移动互联网业务的井喷式发展,对无线通信网络的数据传输能力提出了更高的要求。在当前的大趋势下,现有的蜂窝网络存在频谱资源短缺以及基站负载过重等问题,不能满足未来无线网络的传输需求。设备到设备(D2D,Device-to-Device)通信允许邻近用户建立直接链路进行通信,因为其具有提升频谱效率、节约能耗和卸载基站负载等优势,成为了未来无线通信网络中一种很有潜力的技术。在蜂窝网络中引入D2D通信,一方面可以节约能耗、改善边缘用户的性能,另一方面D2D通信共享蜂窝用户的频谱可以极大的提升频谱利用率。然而,D2D通信复用蜂窝网络的频谱会对蜂窝通信链路造成跨层干扰,蜂窝用户作为蜂窝频段的主用户通信质量应该得到保证,同时在D2D通信密集部署的情况下,多个D2D通信链路复用相同的频谱会造成彼此之间的同层干扰,所以蜂窝网络与D2D通信共存时的干扰管理问题是一个亟待解决的问题。无线网络资源分配旨在通过合理的资源配置来缓解干扰,提升频谱资源利用效率,是解决上述干扰管理问题的有效途径。现有的对于蜂窝网络中D2D通信资源分配的研究可以分为集中式和分布式两类。集中式方法假定基站具有即时的全局信道状态信息(CSI,ChannelStateInformation),由基站控制D2D用户的资源分配,但是基站要获取全局信道状态信息需要巨大的信令开销,在未来海量的无线设备场景下,基站很难拥有即时的全局信息,所以在未来通信设备密集的场景下,集中式算法不再适用。分布式方法让D2D用户自主进行无线网络资源的选择,现有的研究主要基于博弈论和强化学习。博弈论方法将D2D用户建模为博弈玩家进行竞争博弈,直到纳什均衡状态,但是求解纳什均衡状态需要用户间大量的信息交换,而且需要大量的迭代才能收敛。基于强化学习的资源分配研究主要基于Q学习,比如深度Q网络(DQN,DeepQNetwork),将D2D用户看做智能体,自主学习策略进行无线网络资源的选择。但是在多个智能体学习训练时,每个智能体的策略都在变化,会造成训练环境不稳定,训练不易收敛。因此需要研究一种收敛性好、复杂度低的分布式资源分配算法来解决蜂窝网络中D2D通信的干扰管理问题。
技术实现思路
本专利技术为了解决上述问题,基于深度强化学习理论,提供了一种基于多智能体深度强化学习的D2D资源分配方法,优化了D2D用户的频谱分配和传输功率,实现了蜂窝网络和D2D通信的系统容量最大化,并且保证了蜂窝用户的通信质量。具体步骤包括:步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型;异构网络模型包括蜂窝基站BS、M个蜂窝下行用户以及N个D2D通信对。设定第m个蜂窝用户为Cm,其中1≤m≤M;第n个D2D通信对为Dn,其中1≤n≤N。D2D通信对Dn中的发射用户和接收用户分别用和表示。蜂窝下行通信链路和D2D链路通信都采用正交频分复用技术,每个蜂窝用户占用一个通信资源块RB,任意两个蜂窝链路之间没有干扰;同时允许一个蜂窝用户与多个D2D用户共享相同的RB,由D2D用户自主选择通信资源块RB和传输功率。步骤二、基于异构网络模型中存在的干扰,建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR;干扰包括三种类型:1)蜂窝用户受到的来自共享相同RB的每个D2D通信对中的发射用户的干扰;2)每个D2D通信对中的接收用户受到的来自基站的干扰;3)每个D2D通信对中的接收用户受到的来自其他所有共享相同RB的D2D通信对中发射用户的干扰。蜂窝用户Cm接收到的来自基站的第k个通信资源块RB上的信号SINR为:PB表示基站的固定发射功率;为基站到蜂窝用户Cm的下行目标链路的信道增益;Dk代表共享第k个RB的所有D2D通信对组成的集合;表示D2D通信对Dn中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Dn中发射用户到蜂窝用户Cm的干扰链路的信道增益;N0代表加性高斯白噪声的功率谱密度。D2D通信对Dn的接收用户在第k个RB上的接收信号的SINR为:为D2D通信对Dn的发射用户到接收用户的D2D目标链路的信道增益;为当多个链路共享RB时,基站到D2D通信对Dn的接收用户的干扰链路的信道增益;表示D2D通信对Di中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Di中发射用户到接收用户的干扰链路的信道增益;步骤三、利用蜂窝用户的SINR以及D2D接收用户的SINR分别计算蜂窝链路和D2D链路的单位带宽通信速率;蜂窝链路的单位带宽通信速率计算公式为:D2D链路的单位带宽通信速率计算公式为:步骤四、利用蜂窝链路和D2D链路的单位带宽通信速率计算系统容量,并将最大化系统容量为优化目标,构建异构网络中的D2D资源分配优化模型;优化模型如下所示:BN×K=[bn,k]为D2D通信对的通信资源块RB的分配矩阵,bn,k为D2D通信对Dn的RB选择参数,为所有D2D通信对的发射功率共同组成的功率控制向量。约束条件C1表示每个蜂窝用户的SINR都要大于蜂窝用户接收SINR的最小门限保证蜂窝用户的通信质量;约束条件C2表征D2D链路频谱分配约束条件,每个D2D用户对最多只能分配一个通信资源块RB;约束条件C3表征每个D2D通信对的发射用户的发射功率不能超过最大发射功率门限Pmax。步骤五、针对时隙t,在D2D资源分配优化模型的基础上,构建每一个D2D通信对的深度强化学习模型;具体构建步骤如下:步骤501、针对某个D2D通信对Dp,构建在时隙t的状态特征矢量st;为D2D通信链路的瞬时信道状态信息;为基站到该D2D通信对Dp中接收用户的干扰链路的瞬时信道状态信息;It-1为上一个时隙t-1该D2D通信对Dp中接收用户收到的干扰功率值;为上一个时隙t-1该D2D通信对Dp的邻近D2D通信对所占用的RB;为上一个时隙t-1该D2D通信对Dp的邻近蜂窝用户所占用的RB。步骤502、同时构建该D2D通信对Dp在时隙t的回报函数rt;rn为负回报,rn<0;步骤503、利用该D2D通信对的状态特征矢量构建多智能体马尔可夫博弈模型的状态特征;为优化马尔可夫博弈模型,利用该D2D通信对的回报函数建立多智能体行动者评论家深度强化学习模型中的回报函数;每个智能体马尔可夫博弈模型Γ为:其中,是状态空间,是动作空间,rj是第j个D2D通信对的回报函数对应的回报的回报值,j∈{1,...,N};p是整个环境的状态转移概率,γ是折扣系数。每一个D2D通信对学习的目标都是最大化该D2D通信对的总折扣回报;总折扣回报计算公式为:T是时间范围;γt是折扣系数的t次方;是第j个D2D通信对的回报函数在时隙t的回报值。行动者评论家强化学习模型,由行动者(Actor)和评论家(Critic)组成;训练过程中,行动者的策略使用深度神经网络做拟合,使用如下的确定性策略梯度公式进行更新,以取得最大的期望回报。令μ={μ1,...,μN}表示所有智能体的确定性策略,θ={θ1,...,θN}表示策略所包含的参数,第j个智能体期望回报的梯度公式为:s包含了所有智能体的状态信息,s={s1,本文档来自技高网
...

【技术保护点】
1.一种基于多智能体深度强化学习的D2D资源分配方法,其特征在于,具体步骤包括:步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型;异构网络模型包括蜂窝基站BS、M个蜂窝下行用户以及N个D2D通信对;设定第m个蜂窝用户为Cm,其中1≤m≤M;第n个D2D通信对为Dn,其中1≤n≤N;D2D通信对Dn中的发射用户和接收用户分别用

【技术特征摘要】
2018.12.21 CN 20181157216841.一种基于多智能体深度强化学习的D2D资源分配方法,其特征在于,具体步骤包括:步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型;异构网络模型包括蜂窝基站BS、M个蜂窝下行用户以及N个D2D通信对;设定第m个蜂窝用户为Cm,其中1≤m≤M;第n个D2D通信对为Dn,其中1≤n≤N;D2D通信对Dn中的发射用户和接收用户分别用和表示;蜂窝下行通信链路和D2D链路通信都采用正交频分复用技术,每个蜂窝用户占用一个通信资源块RB,任意两个蜂窝链路之间没有干扰;同时允许一个蜂窝用户与多个D2D用户共享相同的RB,由D2D用户自主选择通信资源块RB和传输功率;步骤二、基于异构网络模型中存在的干扰,建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR;蜂窝用户Cm接收到的来自基站的第k个通信资源块RB上的信号SINR为:PB表示基站的固定发射功率;为基站到蜂窝用户Cm的下行目标链路的信道增益;Dk代表共享第k个RB的所有D2D通信对组成的集合;表示D2D通信对Dn中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Dn中发射用户到蜂窝用户Cm的干扰链路的信道增益;N0代表加性高斯白噪声的功率谱密度;D2D通信对Dn的接收用户在第k个RB上的接收信号的SINR为:为D2D通信对Dn的发射用户到接收用户的D2D目标链路的信道增益;为当多个链路共享RB时,基站到D2D通信对Dn的接收用户的干扰链路的信道增益;表示D2D通信对Di中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Di中发射用户到接收用户的干扰链路的信道增益;步骤三、利用蜂窝用户的SINR以及D2D接收用户的SINR分别计算蜂窝链路和D2D链路的单位带宽通信速率;蜂窝链路的单位带宽通信速率计算公式为:D2D链路的单位带宽通信速率计算公式为:步骤四、利用蜂窝链路和D2D链路的单位带宽通信速率计算系统容量,并将最大化系统容量为优化目标,构建异构网络中的D2D资源分配优化模型;优化模型如下所示:BN×K=[bn,k]为D2D通信对的通信资源块RB的分配矩阵,bn,k为D2D通信对Dn的RB选择参数,为所有D2D通信对的发射功率共同组成的功率控制向量;约束条件C1表示每个蜂窝用户的SINR都要大于蜂窝用户接收SINR的最小门限保证蜂窝用户的通信质量;约束条件C2表征D2D链路频谱分配约束条件,每个D2D用户对最多只能分配一个通信资源块RB;约束条件C3表征每个D2D通信对的发射用户的发射功率不能超过最大发射功率门限Pmax;步骤五、针对时隙t,在D2D资源分配优化模型的基础上,构建每一个D2D通信对的深度强化学习模型;具体构建步骤如下:步骤501、针对某个D2D通信对Dp,构建在时隙t的状态特征矢量st;为D...

【专利技术属性】
技术研发人员:郭彩丽李政宣一荻冯春燕
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1