一种小小区动态时分双工结合Q学习的上下行子帧的配置方法技术

技术编号:16841810 阅读:62 留言:0更新日期:2017-12-20 00:26
本发明专利技术公开了一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:1)构建动态时分双工小小区系统模型;2)定义系统模型的状态转移函数P和回报函数R;3)设置上下行子帧重配置周期;4)配置单位周期内小小区上下行子帧;5)构造系统模型目标函数;6)优化目标函数。这种方法能使小小区频谱高效地用在智能终端、能提高小小区频谱效率和能量效率。

A method of configuring up and down subframe in a small cell dynamic time division duplex combined with Q learning

The invention discloses a configuration method of small cell dynamic time division duplex combined with Q learning on the downlink sub frame, and is characterized in comprising the following steps: 1) to construct dynamic TDD small cell system model; 2) P transfer function and reward function definition of R system model; 3) arranged on the downlink sub frame reconfiguration cycle; 4) downlink sub frame small cell configuration period; 5) model of target system structure function; 6) objective function optimization. This method can make the small cell spectrum efficiently used in the intelligent terminal, and can improve the frequency efficiency and energy efficiency of small cell.

【技术实现步骤摘要】
一种小小区动态时分双工结合Q学习的上下行子帧的配置方法
本专利技术涉及无线通信
,具体是一种小小区动态时分双工结合Q学习的上下行子帧的配置方法。
技术介绍
小小区网络技术被认为是一种解决当前移动数据流量爆炸式增长的通信技术手段之一,也是移动通信技术演进及下一代移动通信网络的关键技术之一。但由于小小区网络所服务的移动终端较少,移动终端在小区间的切换较为频繁,导致了小小区网络中数据业务的变化难以计算,上下行业务量很难维持在一个相对比较稳定的比例,因此,传统宏蜂窝小区里的半静态子帧重配置将无法使用,不能满足不同移动终端的业务量需求,造成频谱资源的巨大浪费。如何使小小区网络能够及时有效地调整其子帧配置成为当前急需解决的问题。动态时分双工技术为克服这一问题提供了很好的方向,动态时分双工作为当前热门的移动通信技术,其特点为不需要成对的频率、能使用各种频率资源、适用于不对称的上下行数据传输速率,能明显的表现出频谱资源丰富的优势。
技术实现思路
本专利技术的目的是针对现有技术的不足,而提供一种小小区动态时分双工结合Q学习的上下行子帧的配置方法。这种方法能使小小区频谱高效地用在智能终端、能提高小小区频谱效率和能量效率。实现本专利技术目的的技术方案是:一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,包括如下步骤:1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在这种系统模型场景中,宏蜂窝网络和宏蜂窝网络所连接的移动终端对小小区网络以及小小区网络所连接的移动终端的影响可以忽略不计,为实际应用提供了可能性,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,即一部分小小区处于下行阶段,另一部分小小区处于上行阶段,因此,在这种系统场景下,小小区网络之间不需要保持同步,系统模型中包含(S,A,P,R)四个集合,其中S是环境状态的离散集合,S={s0,s10,LstLs100},每个环境状态的下标表示在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,A是动作状态的离散集合A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数,R={r-5,r-4,LrdLr5},(-5≤d≤5);2)定义系统模型的状态转移函数P和回报函数R:系统模型假设小小区网络不知道状态转移函数P和回报函数R,在系统模型中,小小区网络的任务是学习从环境状态到动作状态的对应,从而获得最佳的回报函数,小小区网络根据其连接的移动终端所反馈的上下行缓存中待传总比特数量,调整子帧的配置方案。每个回报函数的下标表示在固定周期内,小小区网络根据选择的动作动态配置子帧所产生的回报信号,系统中采用的动作模型为无限范围模型,即折扣回报模型或动作序列无限模型,其回报函数R表示为公式(1):式中,γ为折扣因子(0<γ<1),用来调整小小区在系统中的配置周期,当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标为促使小小区获得最佳的回报函数R,小小区与其所连接的移动终端设备的交互行为是马尔科夫决策过程,通过动态规划的方法解决,在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数表示为公式(2):Ptt+1(at)=Pr(Xt+1=st+1|Xt=st,a(t)=at)(2);3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms,越短的重配置周期具有较强适应动态变化的能力,但是所需要的网络开销也越大,区别于传统时分双工的子帧类型,系统中不设置特殊子帧,每个子帧都可以动态变化为上行或下行子帧,转换时的保护间隔可放在下行子帧的最后面或者上行子帧的最前面;4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号rd,rd∈R,即rd表示在状态st时选择动作a后的回报;5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R,即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st):值函数Vπ(st)在状态st,策略π下表示为公式(3):式中,R(st,π(st))定义为系统模型中小小区设备在状态st时采取策略π得到的期望回报,γ为折扣因子,是采取策略π(st)后由状态st转移到状态st+1的概率,假设将π*定义为系统模型的最优策略,则最佳值函数为即为系统模型需要求解的目标函数为公式(4):6)优化目标函数:在系统模型中,优化目标函数采用值迭代方法中的Q学习方法,小小区设备通过优化更新值函数来寻找最优策略,并从反馈函数中通过不断迭代获得值函数的估计值,即值迭代方法,在值迭代方法中,不需要知道详细的策略,只需要了解每个状态的最优值对应的动作状态,Q学习方法即属于值迭代方法中较为常见的一类,假设公式(5)Qπ(st,a)表示在策略π下,状态st时采取动作a后的折扣回报函数,则系统模型中小小区设备执行动作得到回报函数后更新相应的Qπ(s,a)表来评价决策的性能,更新Qπ(s,a)的表达式为公式(6):Qπ(st,a)=Qπ(st,a)+α(R(st,a)+γmaxQ(st+1,ai)-Qπ(st,a))(6),其中α为学习率(0<α<1),γ是折扣因子(0<γ<1),st+1,ai分别表示转移到的下一状态及在状态st+1时可能采取的动作,系统模型中小小区设备为了得到最佳值函数为用Vn(st)表示n次迭代后的值函数估计值,具体值迭代算法步骤为:①对于所有状态集S,初始化值函数V0(st),st∈S;②n≥0,对所有的环境状态st∈S,动作状态a∈A,进行迭代,动作值函数为公式(7):状态值函数公式(8):Vn+1(st)=maxQn+1(st,a)(8)③迭代有限次数后,算法能收敛到最优策略为公式(9):步骤3)中所述的上下行子帧重配置周期为200ms。这种方法设计了一种系统模型:小小区设备采用动态时分双工技术,利用Q学习算法,学习环境状态到动作的映射来获得最佳上下行子帧配置比,当移动终端有更多的下行包需要传送时,小小区设备利用基于Q学习算法的动态时分双工技术让系统自动选择下行子帧较多的配置,当小小区网络中上行包的数量大于下行包的数量时,小小区设备选择上行子帧较多的配置,小小区网络根据自身的业务量状况动态的选择合适的上下行子帧配置,能更加灵活适应业务需求,对降低小小区基站端能耗也有一定作用,动态时分双工上下行子帧配置有两方面的含义:从时间上看,某一个特定小小区设备在一段时间内可能会根据网络情况采用不同的上下行子帧配置;从本文档来自技高网...
一种小小区动态时分双工结合Q学习的上下行子帧的配置方法

【技术保护点】
一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,系统模型中包含(S,A,P,R)四个集合,其中S是环境状态的离散集合,S={s0,s10,L stL s100},每个环境状态的下标表示在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,A是动作状态的离散集合A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数,R={r‑5,r‑4,L rdL r5},(‑5≤d≤5);2)定义系统模型的状态转移函数P和回报函数R:系统模型假设小小区网络不知道状态转移函数P和回报函数R,回报函数R表示为公式(1):

【技术特征摘要】
1.一种小小区动态时分双工结合Q学习的上下行子帧的配置方法,其特征是,包括如下步骤:1)构建动态时分双工小小区系统模型:定义系统模型中,宏蜂窝网络和小小区网络使用不同的频谱,将动态时分双工技术运用在小小区网络中,在固定时刻内,每一个小小区的上下行子帧重配置决策独立于其他小小区,系统模型中包含(S,A,P,R)四个集合,其中S是环境状态的离散集合,S={s0,s10,LstLs100},每个环境状态的下标表示在固定周期内,小小区网络接收到其连接的移动终端所反馈的下行缓存中待传总比特数的百分比,A是动作状态的离散集合A={ai,aj},ai表示小小区网络保持之前的子帧配置不变,aj表示小小区网络改变之前的子帧配置,P是一个状态转移函数:P=S*A*S∈[0,1],R是回报函数,R={r-5,r-4,LrdLr5},(-5≤d≤5);2)定义系统模型的状态转移函数P和回报函数R:系统模型假设小小区网络不知道状态转移函数P和回报函数R,回报函数R表示为公式(1):式中,γ为折扣因子(0<γ<1),用来调整小小区在系统中的配置周期,当γ=0时,表示小小区网络只考虑立即回报;γ越接近1,表示小小区网络考虑了长期回报,系统中的最终目标即为小小区获得最佳的回报函数R,在状态转移函数P中,小小区设备从状态t到状态t+1的转移概率只依赖于状态t的动作,即为一个随机过程X,用At,(At∈A)表示在小小区设备在状态t时的所有可能的动作集,则状态转移概率函数表示为公式(2):Ptt+1(at)=Pr(Xt+1=st+1|Xt=st,a(t)=at)(2);3)设置上下行子帧重配置周期:设置系统模型中动态时分双工技术的上下行子帧重配置周期为10ms-200ms;4)配置单位周期内小小区上下行子帧:在每一个周期内,小小区网络根据连接的移动终端所反馈的业务类型中得到一个环境状态信号st,st∈S,通过这个环境状态信号在动作状态的离散集合中选择一个动作a,a∈A,一旦动作a执行,小小区就针对性的调整上下行子帧配置并产生一个回报信号rd,rd∈R,即rd表示在状态st时选择动作a后的回报;5)构造系统模型目标函数:系统模型的最终的目标是小小区获得最佳的回报函数R。即小小区在固定周期内寻求一个策略π,考量策略的标准是根据策略在未来的折扣回报期望值,即值函数Vπ(st),值函数Vπ(st)在状态st,策略π下表示为公式(3):

【专利技术属性】
技术研发人员:赵峰刘博陈宏滨
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1