【技术实现步骤摘要】
一种模型训练、上行资源占用方法、装置、设备及介质
[0001]本申请涉及无线通信
,具体而言,涉及一种模型训练、上行资源占用方法、装置、设备及介质。
技术介绍
[0002]目前基于闭环通信的移动通信移动尽管采取了许多技术压缩时延,但是时延最主要来源于复杂闭环控制信令交互。因此必须从根本上改变闭环网络架构。主动式开环网络在架构中取消了全部的直接控制信令交互过程,得以实现极致化时延通信,以支持更多5G甚至6G垂直应用。
[0003]但是,主动式开环网络由于取消了所有控制信令交互,上行传输中发送方无法实时准确获取信道状态反馈等信息从而无法进行合理的资源占用,导致传输可靠性降低。
技术实现思路
[0004]本申请解决的问题是主动式开环网络中上行传输发送方无法实时准确获取信道状态反馈等信息从而无法进行合理的资源占用的问题。
[0005]为解决上述问题,本申请第一方面提供了一种模型训练方法,包括:
[0006]基于马尔科夫决策对主动式网络架构进行建模,确定主动式网络架构中用户设备的状态模型、 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:基于马尔科夫决策对主动式网络架构进行建模,确定主动式网络架构中用户设备的状态模型、动作模型和奖励模型;通过多智能体强化学习策略对主动式网络架构中用户设备的状态模型、动作模型和奖励模型构建的网络模型进行训练,得到训练后的用户设备的Actor网络和Critic网络。2.根据权利要求1所述的方法,其特征在于,所述通过多智能体强化学习策略对主动式网络架构中用户设备的状态模型、动作模型和奖励模型构建的网络模型进行训练,包括:构建用户设备的Actor网络、Critic网络、目标Actor网络和目标Critic网络;初始化Actor网络、Critic网络、目标Actor网络、目标Critic网络的网络参数,经验回放池和最大训练次数;随机确定每个用户设备的初始状态;在每个时隙内,对于每个用户设备,在当前的状态下执行动作,确定获取的回报值和下一状态;将所述当前的状态、所述动作、所述回报值和所述下一状态存入所述经验回放池;并将当前的状态更新为所述下一状态;对每个用户设备,从所述经验回放池随机采样多个样本,基于所述样本确定每个用户设备的目标网络估计值;基于所述目标网络估计值更新用户设备的Actor网络和Critic网络;在所有用户设备的Actor网络和Critic网络更新后,软更新用户设备的目标Actor网络和目标Critic网络;重复执行所述在每个时隙内,对于每个用户设备,在当前状态下执行当前动作,确定获取的回报值和下一状态,直至达到所述最大训练次数为止。3.根据权利要求1或2所述的方法,其特征在于,所述用户设备的状态模型为:其中,L
t
为用户设备的位置集合,RB为无线资源块,N
b
为时隙内所有信道可以提供的无线资源块的数量。4.根据权利要求1或2所述的方法,其特征在于,所述用户设备的动作模型为:A
i
(t)={a1(t),a2(t),...,a
N
(t)}a
i
(t)={p
i,c
,U
i
,s
i,c,m
}其中,U
i
为第i个用户设备关联的接入点集合,s
ti,c,m
为第c个子信道的第m个无线资源块是否被第i个用户设备占用,p
i,c
是第i个用户设备为...
【专利技术属性】
技术研发人员:崔琪楣,王英泽,李雄,陈宇,陶小峰,张平,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。