一种非协作下基于Q学习的共存方法技术

技术编号：33155079 阅读：19 留言：0更新日期：2022-04-22 14:11

本发明专利技术涉及一种非协作下基于Q学习的共存方法，属于通信技术领域。本发明专利技术包括以下步骤：S1：设置基站智能体的D2D占空比动作集合和状态集合，初始化矩阵为零阶矩阵，基站去探测信道初始状态信息；S2：基站根据ε

全部详细技术资料下载

【技术实现步骤摘要】
一种非协作下基于Q学习的共存方法

[0001]本专利技术属于通信
，涉及一种非协作下基于Q学习的共存方法。

技术介绍

[0002]近年来，随着移动终端和无线通信事业的高速发展，全球所产生的移动流量呈爆炸式增长。面对庞大的数据流量需求，即使一些研究学者提出一些关键技术来缓解授权频谱压力，例如：正交复用技术、Multiple
‑
input
–
multiple
‑
output(MIMO) 技术、Device
‑
to
‑
device(D2D)技术等，但授权频谱依然处在资源紧缺的状态。鉴于授权频谱已经达到了很大程度上的利用，所以很难在授权频谱上进行优化资源分配。
[0003]当两个通信设备离得比较近时，可以采用D2D通信技术来提高频谱利用率，通过在移动基站的集中管理下来共享移动用户的频谱带。通过缩短D2D对的通信距离，控制其发射端的功率，D2D通信能够有效地提高系统吞吐量、降低能耗并减少时延。由于授权频谱资源有限，D2D通信与蜂窝用户通信在授权频谱中复用信道，会给蜂窝用户带来干扰，因此提出D2D
‑
Unlicensed(D2D
‑
U)技术来研究D2D工作在免授权频谱上的场景。
[0004]在现有的大多数研究中，都假设D2D
‑
U系统能够完美地了解Wi
‑
Fi系统信息，具体来说，只有从Wi
‑
Fi系统接收到所需...

【技术保护点】

【技术特征摘要】
1.一种非协作下基于Q学习的共存方法，其特征在于：具体步骤如下：S1：设置D2D占空比的动作集合A＝{T
Dmin
，T
Dmin
+X,T
Dmin
+2X,...,T
Dmax
}；和状态集合S＝{S1,S2,S3}，初始化矩阵为零阶矩阵，基站去探测信道初始状态信息；S2：基站根据ε
‑
greedy选择策略选择一个动作A
t
，A
t
∈A；S3：基站通过执行动作A
t
同时在Wi
‑
Fi系统使用阶段去探测信道使用情况，即在一个周期内信道处于繁忙状态时间，从而计算出当前动作下的系统的吞吐量和频谱利用率，获取当前选择的动作A
t
的奖励r(S
t
,A
t
)；S4：根据Q学习的Q表公式来更新Q表，基站进入下一个状态；S5：重复执行S2～S4，直到选择的动作达到目标状态，结束一次迭代；S6：令t
←
t+1，重复执行步S2～S5，直至Q矩阵收敛，根据Q矩阵选择出最优的D2D占空比分配序列。2.根据权利要求1所述的一种非协作下基于Q学习的共存方法，其特征在于：在步骤S1中对于动作集合A＝{T
Dmin
，T
Dmin
+X,T
Dmin
+2X,...,T
Dmax
}，该集合中每一个动作元素表示不同的D2D占空比，其中T
Dmin
和T
Dmax
分别表示D2D占空比最小阈值和最大阈值，X表示步长，X越大表示动作集合A中元素之间取值跨度越大，同时动作集合A中元素个数越少，与此相反，X越小表示动作集合A中元素之间取值跨度越小，同时动作集合A中元素个数越多，这里X的取值与周期长度和D2D占空比阈值有关，X∈(0,T
Dmax
‑
T
Dmin
]，同时还应满足其中Z为整数。对于状态集合S＝{S1,S2,S3}，集合中每一个状态S
t
都是由吞吐量R
t
和频谱利用率F
t
组成，对于状态S
t
中的吞吐量R
t
，表示D2D系统和Wi
‑
Fi系统吞吐量之和，其定义为：R
t
＝R
D2D
+R
WiFiiFi
其中，R
D2D
和R
WiFi
分别表示D2D和Wi
‑
Fi的吞吐量，T
D
表示在一个周期时间资源T
F
中D2D所占用的时间，T
WB

【专利技术属性】
技术研发人员：裴二荣，柳祚勇，陈俊林，陈新虎，倪剑雄，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人