【技术实现步骤摘要】
一种非协作下基于Q学习的共存方法
[0001]本专利技术属于通信
,涉及一种非协作下基于Q学习的共存方法。
技术介绍
[0002]近年来,随着移动终端和无线通信事业的高速发展,全球所产生的移动流量 呈爆炸式增长。面对庞大的数据流量需求,即使一些研究学者提出一些关键技术 来缓解授权频谱压力,例如:正交复用技术、Multiple
‑
input
–
multiple
‑
output(MIMO) 技术、Device
‑
to
‑
device(D2D)技术等,但授权频谱依然处在资源紧缺的状态。鉴 于授权频谱已经达到了很大程度上的利用,所以很难在授权频谱上进行优化资源 分配。
[0003]当两个通信设备离得比较近时,可以采用D2D通信技术来提高频谱利用率, 通过在移动基站的集中管理下来共享移动用户的频谱带。通过缩短D2D对的通 信距离,控制其发射端的功率,D2D通信能够有效地提高系统吞吐量、降低能 耗并减少时延。由于授权频谱资源有限,D2D通信与蜂窝用户通信在授权频谱 中复用信道,会给蜂窝用户带来干扰,因此提出D2D
‑
Unlicensed(D2D
‑
U)技术来 研究D2D工作在免授权频谱上的场景。
[0004]在现有的大多数研究中,都假设D2D
‑
U系统能够完美地了解Wi
‑
Fi系统信 息,具体来说,只有从Wi
‑
Fi系统接收到所需 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种非协作下基于Q学习的共存方法,其特征在于:具体步骤如下:S1:设置D2D占空比的动作集合A={T
Dmin
,T
Dmin
+X,T
Dmin
+2X,...,T
Dmax
};和状态集合S={S1,S2,S3},初始化矩阵为零阶矩阵,基站去探测信道初始状态信息;S2:基站根据ε
‑
greedy选择策略选择一个动作A
t
,A
t
∈A;S3:基站通过执行动作A
t
同时在Wi
‑
Fi系统使用阶段去探测信道使用情况,即在一个周期内信道处于繁忙状态时间,从而计算出当前动作下的系统的吞吐量和频谱利用率,获取当前选择的动作A
t
的奖励r(S
t
,A
t
);S4:根据Q学习的Q表公式来更新Q表,基站进入下一个状态;S5:重复执行S2~S4,直到选择的动作达到目标状态,结束一次迭代;S6:令t
←
t+1,重复执行步S2~S5,直至Q矩阵收敛,根据Q矩阵选择出最优的D2D占空比分配序列。2.根据权利要求1所述的一种非协作下基于Q学习的共存方法,其特征在于:在步骤S1中对于动作集合A={T
Dmin
,T
Dmin
+X,T
Dmin
+2X,...,T
Dmax
},该集合中每一个动作元素表示不同的D2D占空比,其中T
Dmin
和T
Dmax
分别表示D2D占空比最小阈值和最大阈值,X表示步长,X越大表示动作集合A中元素之间取值跨度越大,同时动作集合A中元素个数越少,与此相反,X越小表示动作集合A中元素之间取值跨度越小,同时动作集合A中元素个数越多,这里X的取值与周期长度和D2D占空比阈值有关,X∈(0,T
Dmax
‑
T
Dmin
],同时还应满足其中Z为整数。对于状态集合S={S1,S2,S3},集合中每一个状态S
t
都是由吞吐量R
t
和频谱利用率F
t
组成,对于状态S
t
中的吞吐量R
t
,表示D2D系统和Wi
‑
Fi系统吞吐量之和,其定义为:R
t
=R
D2D
+R
WiFiiFi
其中,R
D2D
和R
WiFi
分别表示D2D和Wi
‑
Fi的吞吐量,T
D
表示在一个周期时间资源T
F
中D2D所占用的时间,T
WB
技术研发人员:裴二荣,柳祚勇,陈俊林,陈新虎,倪剑雄,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。