一种基于后悔度的双连接基站选择方法技术

技术编号:21205961 阅读:32 留言:0更新日期:2019-05-25 03:05
本发明专利技术公开了一种基于后悔度的双连接基站选择方法,以后悔度为核心,将后悔度定义为当前时刻用户所连入基站处得到的吞吐量与之前时刻从其他基站得到的吞吐量的差值,即用户如果选择了其他的基站,是否能产生更大的吞吐量,若是,则产生后悔;而当前时刻计算出的后悔度的大小会决定下一时刻用户选择每个基站的概率,且后悔度越大,则此基站下一时刻被选中的率就越大,本发明专利技术可以减少用户的切换次数并提升用户得到的吞吐量。

A Method of Selecting Double Connected Base Stations Based on Regret Degree

The invention discloses a method for selecting double-connected base stations based on regret degree, which takes regret degree as the core and defines regret degree as the difference between the throughput of the user connected to the base station at the current time and the throughput of other base stations at the previous time, that is, whether the user can generate greater throughput if he chooses other base stations, and if so, regret at the current time; The calculated regret degree determines the probability that the user chooses each base station at the next moment, and the greater the regret degree, the greater the probability that the base station will be selected at the next moment. The invention can reduce the number of handover times of the user and improve the throughput obtained by the user.

【技术实现步骤摘要】
一种基于后悔度的双连接基站选择方法
本专利技术涉及基站选择算法领域,特别是涉及一种5G双连接场景中的基站选择算法。
技术介绍
在过去几年中,学术界和工业界一起参与并讨论了与下一代无线蜂窝网络相关的场景和要求,即第五代移动通信技术(5G)。这些讨论的协议现在开始成为第三代合作伙伴计划(3GPP:3rdgenerationpartnershipproject)的标准,预计到2020年将商业化。在此背景下,国际电信联盟将设想的用例分为以下几组:增强的移动宽带、超可靠和低延迟通信、大规模机器类型通信。为了支持广泛的业务,5G空中接口(NR:newradio)有望在异构场景中与不同技术互通,其中用户设备(UE:userequipment)将具有双连接能力。基于R12标准化的LTE双连接,与传统无线接入技术进行互通,已经作为5G运营要求在在3GPP中提出。3GPP的R14中已经提出了一种5G双连接场景,如图1所示,即LTE作为宏基站,NR基站作为小基站分布于LTE小区内,用户可以同时连入两种基站,以实现双连接。现有技术在基站选择问题上,仅是当前移动终端瞬时的接收信号的强度和已设定好阈值的比较下进行的基站选择。没有考虑历史的数据以及所选基站当前连入的用户数对性能的影响,这样可能导致的结果是用户的吞吐量的降低和频繁的切换。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种5G双连接场景中,用户端的基站选择策略,用于解决现有算法无法应用于5G双连接场景的问题的基于后悔度的双连接基站选择方法。技术方案:为实现上述目的,本专利技术采用的技术方案为:一种基于后悔度的双连接基站选择方法,本专利技术是终端基于强化学习思想,以后悔度为核心进行基站选择,完成强化学习对5G双连接场景下用户侧的基站选择算法的映射:环境映射为LTE小区覆盖范围内所有终端的位置和连接基站的情况,行动映射为每个时刻使用本专利技术的用户的基站选择,回报映射为当前时刻使用本专利技术的用户所连入基站提供的吞吐量。以后悔度为核心,将后悔度定义为当前时刻用户所连入基站处得到的吞吐量与之前时刻从其他基站得到的吞吐量的差值,即用户如果选择了其他的基站,是否能产生更大的吞吐量,若是,则产生后悔;而当前时刻计算出的后悔度的大小会决定下一时刻用户选择每个基站的概率,且后悔度越大,则此基站下一时刻被选中的率就越大。具体包括以下步骤:步骤1:初始化用户本身的各种行动的概率;步骤2:用户和其他用户在随机移动,导致了系统状态发生变化;步骤3:在当前判决时刻,用户根据上一时刻学习到的概率选择基站;步骤4:从基站处得到的吞吐量更新了本次基站选择的后悔度;用户的后悔度为:其中,表示表示用户的后悔度,其值为过去一段时间内,在τ时刻两种行动的平均吞吐量的差值,表示在τ时刻执行行动(u1,v1),其中u1∈{0,1},u1=0表示用户没有接入LTE,u1=1表示用户接入了LTE;v1∈{0,1,2,…,K},v1=k表示用户接入第k个NR基站,k=0表示用户未接入NR基站;表示在τ时刻执行行动(u2,v2),具体同(u1,v1),其中u2∈{0,1},u2=0表示用户没有接入LTE,u2=1表示用户接入了LTE。t表示用户从进入当前LTE小区的时刻到当前判决时刻的总时长,1τ表示在时刻其他用户的行动,表示用户在τ时刻执行动作(u1,v1)且其他用户行动为1τ时本用户获得的瞬时吞吐量,表示用户在τ时刻执行动作(u2,v2)且其他用户行动为1τ时本用户获得的瞬时吞吐量;(2)式中的“用户的后悔度”需要由基于可用信息的计算估计来代替,通过:这种近似的遗憾表示分别执行动作后的平均收益差异;其中,表示过去一段时间内,在τ时刻两种行动的平均吞吐量的差值估计,表示在τ时刻执行动作(u1,v1)的概率,表示在τ时刻执行动作(u2,v2)的概率,表示用户在τ时刻执行动作(u1,v1)且其他用户行动为1τ时本用户获得的平均吞吐量,表示用户在τ时刻执行动作(u2,v2)且其他用户行动为1τ时本用户获得的平均吞吐量;(2)(3)式中,平均吞吐量定义为:其中,带有上标的吞吐量表示该吞吐量是过去一段时间内用户A从该基站处得到的平均吞吐量,用户连入LTE基站的平均吞吐量和连入第v个NR基站的平均吞吐量分别由(5)(6)式计算得出;其中,表示在τ时刻用户从LTE基站处得到的吞吐量,表示在τ时刻用户从第v个NR基站处得到的吞吐量,num_LTE_t表示截止到t时刻为止,用户A连入LTE的次数;num_NR_v_t表示截止到t时刻为止,用户A连入第v个NR基站的次数,若某一判决时刻没有切换基站,当前用户A连入基站的累计次数仍加一;此处的平均吞吐量代替了某一时刻的回报,有效的减少切换次数,并提升决策的回报;(5)(6)式中每个时刻的吞吐量分别由(7)(8)式得到其中,u=0表示用户没有连入LTE,不为0则表示连入LTE,此时吞吐量为用户A的瞬时速率RA,t,LTE与当前LTE基站的用户数nt,LTE的比值;其中,表示所有连入到同NR基站的用户在此NR基站处得到相同的吞吐量,表示用户从第v个NR基站处得到的速率,表示当前连入第v个NR基站的用户数,步骤5:本次行动的后悔度更新了下一判决时刻基站选择的概率;用户在下个时刻用户选择每个行动的概率为:其中,M表示终端所在LTE宏小区内,所有NR基站的数目,而(2M+1)表示所有可能行动的总数,max(|Bt|)表示所有行动的后悔度的绝对值的最大值,用来归一化分子表示在t+1时刻用户选择每个行动的概率,δt=δ/tγ,0<δ<1,δ和γ是人为设定值,解决了强化学习的一个常见问题:“探索”还是“利用”;具体为:智能体(此处为用户)该如何处理探索多种行动并得到回报以改进算法,还是利用当前算法已学习到的知识来行动;δt应随着时间t的增加而减小,因为随着时间的推移,用户应渐渐趋向于选择后悔度最小项,即“利用”现有数据,而不是继续随机“探索”;其中f表示选择因子,其作用和δt类似,当其越大,则本算法更偏向于切换以获取更多行动下的回报,反之本算法更倾向于利用现有回报来进行基站选择;步骤6:等待用户的下一个判决周期,继续从步骤2开始执行。步骤1中每个行动的选择概率初始化为:其中,行动其中A是所有可能行动的集合,共有(2M+1)个元素;u∈{0,1},u=0表示用户没有接入LTE,u=1表示用户接入了LTE;v∈{0,1,2,…,K},v=k表示用户接入第k个NR基站,k=0表示用户未接入NR基站;表示在τ时刻,用户执行动作的概率;M表示终端所在LTE宏小区内,所有NR基站的数目,而(2M+1)表示所有可能行动的总数。优选的:终端单独连入LTE基站或者任一NR基站,或者同时连入LTE基站和任一NR基站。优选的:用户A从LTE基站处得到的速率RA,t,LTE定义为:上式中BLTE为LTE基站的总带宽,transmit_power_LTE为LTE基站的发射功率,为LTE基站的大尺度衰落,noise_LTE为LTE基站的噪声。优选的:用户A从第v个NR基站处得到的速率RA,t,NR,v定义为:BNR表示NR基站的总带宽,transmit_power_NR表示NR基站的发射功率,表示NR基站的大尺本文档来自技高网...

【技术保护点】
1.一种基于后悔度的双连接基站选择方法,其特征在于:以后悔度为核心,将后悔度定义为当前时刻用户所连入基站处得到的吞吐量与之前时刻从其他基站得到的吞吐量的差值,即用户如果选择了其他的基站,是否能产生更大的吞吐量,若是,则产生后悔;而当前时刻计算出的后悔度的大小会决定下一时刻用户选择每个基站的概率,且后悔度越大,则此基站下一时刻被选中的率就越大。

【技术特征摘要】
1.一种基于后悔度的双连接基站选择方法,其特征在于:以后悔度为核心,将后悔度定义为当前时刻用户所连入基站处得到的吞吐量与之前时刻从其他基站得到的吞吐量的差值,即用户如果选择了其他的基站,是否能产生更大的吞吐量,若是,则产生后悔;而当前时刻计算出的后悔度的大小会决定下一时刻用户选择每个基站的概率,且后悔度越大,则此基站下一时刻被选中的率就越大。2.根据权利要求1所述基于后悔度的双连接基站选择方法,其特征在于:包括以下步骤:步骤1:初始化用户本身的各种行动的概率;步骤2:用户和其他用户在随机移动,导致了系统状态发生变化;步骤3:在当前判决时刻,用户根据上一时刻学习到的概率选择基站;步骤4:从基站处得到的吞吐量更新了本次基站选择的后悔度;用户的后悔度为:其中,表示用户的后悔度,其值为过去一段时间内,在τ时刻两种行动的平均吞吐量的差值,表示在τ时刻执行行动(u1,v1),其中u1∈{0,1},u1=0表示用户没有接入LTE,u1=1表示用户接入了LTE;v1∈{0,1,2,…,K},v1=k表示用户接入第k个NR基站,k=0表示用户未接入NR基站;表示在τ时刻执行行动(u2,v2),其中u2∈{0,1},u2=0表示用户没有接入LTE,u2=1表示用户接入了LTE,t表示用户从进入当前LTE小区的时刻到当前判决时刻的总时长,1τ表示在时刻其他用户的行动,表示用户在τ时刻执行动作(u1,v1)且其他用户行动为1τ时本用户获得的瞬时吞吐量,表示用户在τ时刻执行动作(u2,v2)且其他用户行动为1τ时本用户获得的瞬时吞吐量;(2)式中的“用户的后悔度”由基于可用信息的计算估计来代替,通过:其中,表示过去一段时间内,在τ时刻两种行动的平均吞吐量的差值估计,表示在τ时刻执行动作(u1,v1)的概率,表示在τ时刻执行动作(u2,v2)的概率,表示用户在τ时刻执行动作(u1,v1)且其他用户行动为1τ时本用户获得的平均吞吐量,表示用户在τ时刻执行动作(u2,v2)且其他用户行动为1τ时本用户获得的平均吞吐量;(2)(3)式中,平均吞吐量定义为:其中,带有上标的吞吐量表示该吞吐量是过去一段时间内用户A从该基站处得到的平均吞吐量,代替了(2)式中的瞬时吞吐量,用户连入LTE基站的平均吞吐量和连入第v个NR基站的平均吞吐量分别由(5)(6)式计算得出;其中,表示在τ时刻用户从LTE基站处得到的吞吐量,表示在τ时刻用户从第v个NR基站处得到的吞吐量,num_LTE_t表示截止到t时刻为止,用户A连入LTE的次数;num_NR_v_t表示截止到t时刻为止,用户A连入第v个NR基站的次数,若某一判决时刻没有切换基站,当前用户A连入基站的累计次数仍加一;此处的平均吞吐量代替了某一时刻的回报,有...

【专利技术属性】
技术研发人员:陈美娟管铭锋何爱龙孙康
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1