一种无线终端直连通信资源分配方法及装置制造方法及图纸

技术编号:20120788 阅读:32 留言:0更新日期:2019-01-16 12:36
本发明专利技术实施例公开了一种为无线终端直连用户(D2D)进行资源分配的方法及装置,该方法包括:根据无线信道状态和状态转移可能性的不确定性,制定增强学习(RL)算法。每对D2D用户可以被视为一个独立的智能体,根据它在本地观察到的信道状态做出决策。为了解决多用户系统中的顺序决策问题,提出了多智能体RL算法。我们假设D2D用户没有关于要分配的资源块的可用性和质量的任何信息,因此该问题被模拟为随机非合作博弈。因此,每个智能体都成为非合作博弈中的一名参与者,所有参与者都一起做出决策,以实现全体的效益最优化。本发明专利技术实施例可以减轻负载并提高蜂窝网络的容量,通过有效的能量管理实现最大化系统吞吐量。

A Direct Communication Resource Allocation Method and Device for Wireless Terminal

The embodiment of the present invention discloses a method and device for resource allocation for direct connected users of wireless terminals (D2D). The method includes: developing an enhanced learning (RL) algorithm according to the uncertainty of wireless channel state and state transition possibility. Each pair of D2D users can be considered as an independent agent and make decisions based on the channel state it observes locally. In order to solve the sequential decision-making problem in multi-user systems, a multi-agent RL algorithm is proposed. We assume that D2D users do not have any information about the availability and quality of the resource blocks to be allocated, so the problem is simulated as a stochastic non-cooperative game. Therefore, each agent becomes a participant in the non-cooperative game, and all participants make decisions together to achieve the optimization of all benefits. The embodiment of the invention can reduce the load and improve the capacity of cellular network, and maximize the system throughput through effective energy management.

【技术实现步骤摘要】
一种无线终端直连通信资源分配方法及装置
本专利技术涉及无线通信
,特别涉及一种支持无线终端直连通信(D2D)系统中的通信资源分配的方法及装置。
技术介绍
当前阶段,随着智能终端的快速普及以及网络通信容量的爆炸式增长,面向5G的无线通信技术的演进需求也更加明确及迫切。在面向5G的无线通信技术的演进中,一方面,传统的无线通信性能指标,比如网络容量、频谱效率等需要持续提升以进一步提高有限且日益紧张的无线频谱利用率;另一方面,更丰富的通信模式以及由此带来的终端用户体验的提升以及蜂窝通信应用的扩展也是一个需要考虑的演进方向。作为面向5G的关键候选技术,无线终端直连通信(Device-to-Device,D2D)具有潜在的提高系统性能、提升用户体验、扩展蜂窝通信应用的前景,受到广泛关注。基于蜂窝网络的D2D通信,或称为邻近服务(ProximityService,ProSe),是指用户数据可不经网络中转而直接在终端之间传输。关键技术包括:D2D发现技术、D2D同步技术、无线资源管理、通信模式切换、功率控制和干扰协调。D2D用户能够使用正交模式和复用模式进行通信。当采用正交模式进行通信时,占用蜂窝小区空闲的RB(ResourceBlock,资源块)传输信号,不会带来干扰,但当D2D用户使用复用模式通信时,与蜂窝用户占用相同的RB传输信号,将会带来严重的干扰,因此如何合理地为D2D用户分配资源以减少干扰成为D2D通信技术中的重点问题。现阶段国内外对于资源分配算法的研究,主要集中在以吞吐量以及公平性为目标,基本算法主要有:轮询算法、比例公平算法以及最大载干比算法等。上述3种算法计算简单,因此大部分研究者都以上述3种算法为基础进行改进。
技术实现思路
本专利技术实施例公开了一种D2D多用户系统资源分配的方法及装置,在保证用户通信服务质量的同时,实现系统吞吐量的最大化。相较于传统的资源分配方法,系统吞吐量更加接近理论值,所述创新的构建了多智能体的增强学习算法,并与博弈论结合,多智能体之间进行非合作博弈,达到纳什均衡。为达到上述目的,本专利技术实施例公开了一种D2D多用户系统资源分配的方法及装置,该方法中根据无线信道状态和状态转移可能性的不确定性,制定强化学习(RL)算法。每对D2D用户可以被视为一个独立的智能体,根据它在本地观察到的信道状态做出决策。为了解决多用户系统中的顺序决策问题,提出了多智能体RL算法。我们假设D2D对没有关于要分配的资源块的可用性和质量的任何信息,因此该问题被模拟为随机非合作博弈。因此,每个智能体都成为非合作博弈中的一名参与者,所有参与者都一起做出决策,以实现全体的效益最优化。由于在本专利技术实施例中利用增强学习算法,以保证主用户和D2D用户的通信服务质量为前提,实现了系统吞吐量最大化的目标。包括如下步骤:在所述网络模型中设置D2D用户与蜂窝用户(即主用户)均匀分布,并为每个蜂窝用户预先分配好资源块,每个蜂窝用户占用至多一个资源块,且资源块之间相互正交,即所述蜂窝用户之间不存在干扰。所述网络模型的优化目标为,在保证主用户和D2D用户的通信服务质量的前提下,实现系统的总吞吐量最大化。选定所述D2D用户对为增强学习中Q学习算法的一个智能体,为每个D2D用户对选择至多一个主用户进行资源块的复用。所述每个智能体在Q学习算法中执行的动作为选择在当前时隙下与哪个主用户进行资源块的复用,每一时隙下只可复用至多一个资源块。所述每个智能体在Q学习算法中所观测的状态为当前时隙下D2D用户与所复用的主用户的通信服务质量是否满足基本质量要求。所述每个智能体在Q学习算法中执行动作后所收到的奖励信号为所述的优化目标,即系统总吞吐量。所述每个智能体在Q学习算法中执行动作的策略为总是沿着使Q值最大的路径进行选择,Q值与上述状态与奖励信号有关。所述由多个D2D用户对组成的网络模型中,每个D2D用户对为Q学习中的一个智能体,所述模型即构成多智能体的Q学习算法,为实现全局的最优化,多智能体共同进行决策,假设D2D对没有关于要分配的资源块的可用性和质量的任何信息,因此该问题被模拟为随机非合作博弈。每个智能体都成为非合作博弈中的一名参与者,以达到纳什均衡为目标。相比较传统D2D用户资源分配算法,本专利技术实施例创新的将该通信问题建模为增强学习,并利用增强学习中经典的Q学习算法,将其中传统的单智能体建模改进为多智能体共同决策,并结合博弈论中的非合作博弈进行共同决策,实现全局最优而非局部最优,通过仿真验证了所述实施例的优越性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种D2D多用户系统资源分配过程;图2为建立的包含多个蜂窝用户与多个D2D用户共存的网络模型示意图;图3为对本专利技术实施例仿真智能体进行增强学习的迭代趋势;图4为对本专利技术实施例仿真系统总吞吐量与D2D用户数的关系,并与理想情况进行了比较;图5为对本专利技术实施例仿真D2D用户总吞吐量与D2D用户数的关系,并与理想情况进行了比较。具体实施方式为在D2D用户复用主用户频谱资源并实现系统吞吐量最大化的同时,保证为用户提供的服务质量,本专利技术实施例提供了一种基于增强学习的D2D用户资源分配的方法及装置。下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的一种D2D多用户系统资源分配过程,该过程包括以下步骤:S101:所述实施例中的网络模型包含一个基站,包含M对D2D用户对,Ν个蜂窝用户,其中M={1,2,……,M},N={1,2,……,N}。在所述网络模型中设置D2D用户与蜂窝用户(即主用户)均匀分布,并为每个蜂窝用户预先分配好资源块,系统中的资源块总数为K,资源块集合表示为RB={RB1,RB2,……,RBK},其中K={1,2,……,K}。每个蜂窝用户占用至多一个资源块,且每个蜂窝用户被预先分配好了所占用的资源块,且资源块之间相互正交,即所述蜂窝用户之间不存在干扰。因此有K=N。将所述实施例建模为增强学习中的Q学习算法,每对D2D用户对被视为一个独立的智能体,根据它在本地观察到的信道状态与所收到的反馈做出决策。将增强学习中的Q学习算法引入到D2D用户与蜂窝用户共存的网络中D2D用户的资源分配问题中,在Q学习中包含智能体、动作、状态、反馈等几个要素,其中智能体选定为所述网络中的D2D用户对,即每一个D2D用户对为一个智能体。对于第m个D2D用户对,构建一个在时隙t的二进制的K维的资源块选择向量βm(t),其中每对D2D用户至多选择一个资源块进行复用,因此有假设D2D用户复用的是系统中的上行链路的资源,则第m对D2D用户对在时刻t的信干噪比则定义为:(假设第m对D2D用户对在时刻t复用的是第k个资源块)其中,是第m对D2D对在时刻t复本文档来自技高网
...

【技术保护点】
1.无线终端直连用户对(D2D)可以被视为一个独立的智能体,根据它在本地观察到的信道状态做出决策;为了解决多用户系统中的顺序决策问题,提出了多智能体RL算法;假设D2D用户没有关于要分配的资源块的可用性和质量的任何信息,该问题被模拟为随机非合作博弈;因此,每个智能体都成为非合作博弈中的一名参与者,所有参与者都一起做出决策,以实现全体的效益最优化。

【技术特征摘要】
1.无线终端直连用户对(D2D)可以被视为一个独立的智能体,根据它在本地观察到的信道状态做出决策;为了解决多用户系统中的顺序决策问题,提出了多智能体RL算法;假设D2D用户没有关于要分配的资源块的可用性和质量的任何信息,该问题被模拟为随机非合作博弈;因此,每个智能体都成为非合作博弈中的一名参与者,所有参与者都一起做出决策,以实现全体的效益最优化。2.如权利要求1所述的方法,其特征在于,所述实施例采用在增强学习中的多智能体Q学习算法,其基本要素包括:智能体、状态、动作、奖励信号以及策略。3.如权利要求2所述的方法,其特征在于,所述方法还包括:针对所确定的每个智能体,根据其执行当次动作产生的反馈结果以及下一状态进行下一动作的选择,每个智能体进行决策之后都成为非合作博弈中的博弈参与者,共同进行决策。4.如权利要求2所述的方法,其特征在于,所述确定每个D2D用户对为增强学习中的一个智能体。5.如权利...

【专利技术属性】
技术研发人员:魏翼飞赵敏宋梅张勇滕颖蕾满毅郭达王小娟
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1