The embodiment of the present invention discloses a method and device for resource allocation for direct connected users of wireless terminals (D2D). The method includes: developing an enhanced learning (RL) algorithm according to the uncertainty of wireless channel state and state transition possibility. Each pair of D2D users can be considered as an independent agent and make decisions based on the channel state it observes locally. In order to solve the sequential decision-making problem in multi-user systems, a multi-agent RL algorithm is proposed. We assume that D2D users do not have any information about the availability and quality of the resource blocks to be allocated, so the problem is simulated as a stochastic non-cooperative game. Therefore, each agent becomes a participant in the non-cooperative game, and all participants make decisions together to achieve the optimization of all benefits. The embodiment of the invention can reduce the load and improve the capacity of cellular network, and maximize the system throughput through effective energy management.
【技术实现步骤摘要】
一种无线终端直连通信资源分配方法及装置
本专利技术涉及无线通信
,特别涉及一种支持无线终端直连通信(D2D)系统中的通信资源分配的方法及装置。
技术介绍
当前阶段,随着智能终端的快速普及以及网络通信容量的爆炸式增长,面向5G的无线通信技术的演进需求也更加明确及迫切。在面向5G的无线通信技术的演进中,一方面,传统的无线通信性能指标,比如网络容量、频谱效率等需要持续提升以进一步提高有限且日益紧张的无线频谱利用率;另一方面,更丰富的通信模式以及由此带来的终端用户体验的提升以及蜂窝通信应用的扩展也是一个需要考虑的演进方向。作为面向5G的关键候选技术,无线终端直连通信(Device-to-Device,D2D)具有潜在的提高系统性能、提升用户体验、扩展蜂窝通信应用的前景,受到广泛关注。基于蜂窝网络的D2D通信,或称为邻近服务(ProximityService,ProSe),是指用户数据可不经网络中转而直接在终端之间传输。关键技术包括:D2D发现技术、D2D同步技术、无线资源管理、通信模式切换、功率控制和干扰协调。D2D用户能够使用正交模式和复用模式进行通信。当采用正交模式进行通信时,占用蜂窝小区空闲的RB(ResourceBlock,资源块)传输信号,不会带来干扰,但当D2D用户使用复用模式通信时,与蜂窝用户占用相同的RB传输信号,将会带来严重的干扰,因此如何合理地为D2D用户分配资源以减少干扰成为D2D通信技术中的重点问题。现阶段国内外对于资源分配算法的研究,主要集中在以吞吐量以及公平性为目标,基本算法主要有:轮询算法、比例公平算法以及最大载干比算法等。上述 ...
【技术保护点】
1.无线终端直连用户对(D2D)可以被视为一个独立的智能体,根据它在本地观察到的信道状态做出决策;为了解决多用户系统中的顺序决策问题,提出了多智能体RL算法;假设D2D用户没有关于要分配的资源块的可用性和质量的任何信息,该问题被模拟为随机非合作博弈;因此,每个智能体都成为非合作博弈中的一名参与者,所有参与者都一起做出决策,以实现全体的效益最优化。
【技术特征摘要】
1.无线终端直连用户对(D2D)可以被视为一个独立的智能体,根据它在本地观察到的信道状态做出决策;为了解决多用户系统中的顺序决策问题,提出了多智能体RL算法;假设D2D用户没有关于要分配的资源块的可用性和质量的任何信息,该问题被模拟为随机非合作博弈;因此,每个智能体都成为非合作博弈中的一名参与者,所有参与者都一起做出决策,以实现全体的效益最优化。2.如权利要求1所述的方法,其特征在于,所述实施例采用在增强学习中的多智能体Q学习算法,其基本要素包括:智能体、状态、动作、奖励信号以及策略。3.如权利要求2所述的方法,其特征在于,所述方法还包括:针对所确定的每个智能体,根据其执行当次动作产生的反馈结果以及下一状态进行下一动作的选择,每个智能体进行决策之后都成为非合作博弈中的博弈参与者,共同进行决策。4.如权利要求2所述的方法,其特征在于,所述确定每个D2D用户对为增强学习中的一个智能体。5.如权利...
【专利技术属性】
技术研发人员:魏翼飞,赵敏,宋梅,张勇,滕颖蕾,满毅,郭达,王小娟,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。