一种非协作下基于Q学习的共存方法技术

技术编号:33155079 阅读:19 留言:0更新日期:2022-04-22 14:11
本发明专利技术涉及一种非协作下基于Q学习的共存方法,属于通信技术领域。本发明专利技术包括以下步骤:S1:设置基站智能体的D2D占空比动作集合和状态集合,初始化矩阵为零阶矩阵,基站去探测信道初始状态信息;S2:基站根据ε

【技术实现步骤摘要】
一种非协作下基于Q学习的共存方法


[0001]本专利技术属于通信
,涉及一种非协作下基于Q学习的共存方法。

技术介绍

[0002]近年来,随着移动终端和无线通信事业的高速发展,全球所产生的移动流量 呈爆炸式增长。面对庞大的数据流量需求,即使一些研究学者提出一些关键技术 来缓解授权频谱压力,例如:正交复用技术、Multiple

input

multiple

output(MIMO) 技术、Device

to

device(D2D)技术等,但授权频谱依然处在资源紧缺的状态。鉴 于授权频谱已经达到了很大程度上的利用,所以很难在授权频谱上进行优化资源 分配。
[0003]当两个通信设备离得比较近时,可以采用D2D通信技术来提高频谱利用率, 通过在移动基站的集中管理下来共享移动用户的频谱带。通过缩短D2D对的通 信距离,控制其发射端的功率,D2D通信能够有效地提高系统吞吐量、降低能 耗并减少时延。由于授权频谱资源有限,D2D通信与蜂窝用户通信在授权频谱 中复用信道,会给蜂窝用户带来干扰,因此提出D2D

Unlicensed(D2D

U)技术来 研究D2D工作在免授权频谱上的场景。
[0004]在现有的大多数研究中,都假设D2D

U系统能够完美地了解Wi

Fi系统信 息,具体来说,只有从Wi

Fi系统接收到所需信息之后,例如Wi

Fi流量和Wi

Fi 数目,D2D

U系统才能优化系统内的参数,在Wi

Fi吞吐量或者中断概率方面保 护Wi

Fi系统。然而,在现实中,由于在两个独立系统之间建立专用信道比较困 难,加上Wi

Fi流量通常是时变的,这使得关于Wi

Fi系统的这种信息可能对 D2D

U系统不适用。
[0005]Q学习算法是一种可以确定最优决策策略的强化学习算法,同时也是一种异 步动态规划方法,无需环境模型。将Q学习应用于通信技术中,通过与环境交 互,在环境的奖励或惩罚反馈之下,不断通过试错学习来更新策略,直到产生符 合预期的最优策略。
[0006]不同于其他的模型策略,非协作下基于Q学习的D2D

U与Wi

Fi共存策略 不用预先知道Wi

Fi流量信息,而是根据探测到的信道信息做出实时决策,即根 据基站探测Wi

Fi系统使用信道时,信道处于繁忙状态的时间,即Wi

Fi在传输 和碰撞所占用信道的时间,从而实时地进行快速有效的频谱资源分配。因此,非 协作情况下,引入Q学习来解决D2D

U与Wi

Fi在免授权频谱上的共存问题有 重要的研究价值。

技术实现思路

[0007]有鉴于此,本专利技术提供了一种在非协作下基于Q学习的共存方法,以实现 在免授权频谱上非协作共存时的吞吐量最大化。
[0008]为达到上述目的,本专利技术提供如下技术方案:
[0009]一种非协作下基于Q学习的共存方法,包括以下步骤:
[0010]S1:设置D2D占空比的动作集合A={T
Dmin
,T
Dmin
+X,T
Dmin
+2X,...,T
Dmax
}; 和状态集合S={S1,S2,S3},初始化矩阵为零阶矩阵,基站去探测信道初始状态信 息;
[0011]S2:基站根据ε

greedy选择策略选择一个动作A
t
,A
t
∈A;
[0012]S3:基站通过执行动作A
t
同时在Wi

Fi系统使用的时间段去探测信道使用情 况,即在一个时间周期内Wi

Fi系统使用信道时,其信道处于繁忙状态的时间, 从而计算出当前动作下系统的吞吐量和频谱利用率,并获取当前选择的动作A
t
的 奖励r(S
t
,A
t
);
[0013]S4:根据Q学习的Q表公式来更新Q表,基站进入下一个状态;
[0014]S5:重复执行S2~S4,直到选择的动作达到目标状态,结束一次迭代;
[0015]S6:令t

t+1,重复执行步骤S2~S5,直至Q矩阵收敛,根据Q矩阵选 择出最优的D2D占空比分配序列。
[0016]进一步,在步骤S1中对于动作集合A={T
Dmin
,T
Dmin
+X,T
Dmin
+2X,...,T
Dmax
}, 该集合中每一个动作元素表示不同的D2D占空比,其中T
Dmin
和T
Dmax
分别表示 D2D占空比最小阈值和最大阈值,X表示步长,X越大表示动作集合A中元素 之间取值跨度越大,同时动作集合A中元素个数越少,与此相反,X越小表示 动作集合A中元素之间取值跨度越小,同时动作集合A中元素个数越多,这里X 的取值与周期长度和D2D占空比阈值有关,X∈(0,T
Dmax

T
Dmin
],同时还应满足其中Z为整数。
[0017]对于状态集合S={S1,S2,S3},每一个状态S
t
都是由吞吐量R
t
和频谱利用率F
t
组成,对于状态S
t
中的吞吐量R
t
,表示D2D系统与Wi

Fi系统的吞吐量之和, 其定义为:
[0018]R
t
=R
D2D
+R
WiFi
[0019][0020][0021]其中,R
D2D
和R
WiFi
分别表示D2D和Wi

Fi的吞吐量,T
D
表示在一个周期时 间资源T
F
中D2D所占用的时间,T
WB
表示在Wi

Fi系统使用的时间资源T
W
里, 信道处于繁忙的时间,T
W
表示智能体基站分配给Wi

Fi系统所用的时间资源。
[0022]对于状态S
t
中的频谱利用率F
t
,定义频谱利用率函数定义为:
[0023][0024]其中T
W
表示智能体基站分配给Wi

Fi系统所用的时间资源。
[0025]根据预定义的吞吐量和频谱利用率阈值,将所得到的状态本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非协作下基于Q学习的共存方法,其特征在于:具体步骤如下:S1:设置D2D占空比的动作集合A={T
Dmin
,T
Dmin
+X,T
Dmin
+2X,...,T
Dmax
};和状态集合S={S1,S2,S3},初始化矩阵为零阶矩阵,基站去探测信道初始状态信息;S2:基站根据ε

greedy选择策略选择一个动作A
t
,A
t
∈A;S3:基站通过执行动作A
t
同时在Wi

Fi系统使用阶段去探测信道使用情况,即在一个周期内信道处于繁忙状态时间,从而计算出当前动作下的系统的吞吐量和频谱利用率,获取当前选择的动作A
t
的奖励r(S
t
,A
t
);S4:根据Q学习的Q表公式来更新Q表,基站进入下一个状态;S5:重复执行S2~S4,直到选择的动作达到目标状态,结束一次迭代;S6:令t

t+1,重复执行步S2~S5,直至Q矩阵收敛,根据Q矩阵选择出最优的D2D占空比分配序列。2.根据权利要求1所述的一种非协作下基于Q学习的共存方法,其特征在于:在步骤S1中对于动作集合A={T
Dmin
,T
Dmin
+X,T
Dmin
+2X,...,T
Dmax
},该集合中每一个动作元素表示不同的D2D占空比,其中T
Dmin
和T
Dmax
分别表示D2D占空比最小阈值和最大阈值,X表示步长,X越大表示动作集合A中元素之间取值跨度越大,同时动作集合A中元素个数越少,与此相反,X越小表示动作集合A中元素之间取值跨度越小,同时动作集合A中元素个数越多,这里X的取值与周期长度和D2D占空比阈值有关,X∈(0,T
Dmax

T
Dmin
],同时还应满足其中Z为整数。对于状态集合S={S1,S2,S3},集合中每一个状态S
t
都是由吞吐量R
t
和频谱利用率F
t
组成,对于状态S
t
中的吞吐量R
t
,表示D2D系统和Wi

Fi系统吞吐量之和,其定义为:R
t
=R
D2D
+R
WiFiiFi
其中,R
D2D
和R
WiFi
分别表示D2D和Wi

Fi的吞吐量,T
D
表示在一个周期时间资源T
F
中D2D所占用的时间,T
WB

【专利技术属性】
技术研发人员:裴二荣柳祚勇陈俊林陈新虎倪剑雄
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1