低轨卫星网络随机接入中回退资源的动态配置方法技术

技术编号:33733618 阅读:74 留言:0更新日期:2022-06-08 21:29
本发明专利技术提供了一种低轨卫星网络随机接入中回退资源的动态配置方法、装置和计算机可读介质。该方法包括构建用户业务模型,用于提供用户终端的接入需求等;构建网络系统模型,包括在SSB广播周期内可被分配为回退资源的时隙等;构建深度强化学习模型,包括RO的对应波位在一个SSB广播周期的状态、动作和奖励,状态包括RO的对应波位在SSB广播周期的需要回退的用户终端数量等;奖励包括RO的对应波位的用户终端在SSB广播周期中被分配到回退资源并经历整个所述SSB广播周期后所获得的奖励;训练深度强化学习模型;将目标RO的对应波位的状态输入经训练的深度强化学习模型,输出目标动作;根据目标动作为每个目标RO的对应波位分配目标回退资源。回退资源。回退资源。

【技术实现步骤摘要】
低轨卫星网络随机接入中回退资源的动态配置方法


[0001]本专利技术主要涉及低轨卫星通信领域,尤其涉及一种低轨卫星网络随机接入中回退资源的动态配置方法、装置和计算机可读介质。

技术介绍

[0002]随着地面网络技术的不断发展,第五代蜂窝通信系统提出了全球无缝覆盖的目标,而低轨卫星由于其广覆盖、低延时等特性,与5G网络快速融合,为打造覆盖全球的立体、多层次、全方位和全天候的信息网络提供了有力支持。为了享受网络服务,用户终端需要在与网络连接前完成随机接入流程,实现与网络的同步,并获得网络的专属参考标识。
[0003]一个低轨卫星用少量相控阵跳波束进行小区覆盖并传输随机接入信令,在一段时间内卫星覆盖的小区范围视为静止,每个信令波束覆盖一个区域,由于低轨卫星波束覆盖面很大,一个区域内有数百个波位,每个信令波束以固定的SSB广播周期按需覆盖每个波位,实施每个波位的随机接入流程,广播同步信号、主信息块及相关的系统信息块。
[0004]为了满足5G网络中越来越多的低时延需求业务,进一步缩短网络的整体接入时延,3GPP R16在2019年提出了两步随机接入方法,将前导码和有效载荷一起传输,并将随机接入响应和冲突解决一起传输,这样只需要一次基站和终端间的交互就可以完成随机接入,相比之前的四步随机接入方式在时延性能上有了显著的提升,同时在信令开销和功耗方面也有一定的增益。这种随机接入增强技术显然在低轨卫星通信这种大时延场景下能得到很好的系统增益,相比四步随机接入中一个用户发起接入需要经历至少四次星地传播时延,采用两步随机接入最少只需要经历两次。
[0005]在两步随机接入中,MsgA中的前导码和有效载荷分别在PRACH和PUSCH的RO(PRACH Occasion)和PO(PUSCH Occasion)上传输,并且两者存在一对一或一对多的映射关系。
[0006]在一些情况下,用户终端由于在同一PO上发送有效载荷导致PUSCH信道碰撞而无法被成功监测,因此需要为其分配PUSCH回退资源再次发送有效载荷。由于低轨卫星的覆盖范围大,每个信令波束要遍历数百个波位,在两步接入流程中平均能分配给每个波位的用于回退的时间资源有限;不同波位接入需求差距大,因此每个波位因PUSCH信道碰撞而回退的终端数量也会有较大差距。每个波位中的接入需求具有时变性且覆盖用户多,低轨卫星相对地面快速移动,导致每个波位接入需求差距大,变化快,因此,需要灵活的PUSCH回退资源动态配置策略以适应上述问题。
[0007]另一方面,在通信网络,尤其是5G网络中,不同类型的接入终端有不同的时延要求,需要将终端分为不同的优先级,基于用户的优先级为用户分配PUSCH回退资源,以满足其QoS(Quality of Service,服务质量)需求,若将所有终端一视同仁,以相同的概率分配资源,将很难满足高优先级终端的时延需求。

技术实现思路

[0008]本专利技术要解决的技术问题是提供一种灵活、高效地回退资源的分配方式。
[0009]为解决上述技术问题,本专利技术提供了一种低轨卫星网络随机接入中回退资源的动态配置方法,所述低轨卫星网络包括多颗低轨卫星,其特征在于,包括:构建用户业务模型,所述用户业务模型用于提供基于地理位置和时间所生成的用户终端的接入需求,所述接入需求包括多个所述用户终端的优先级;构建网络系统模型,所述网络系统模型参数包括一个SSB广播周期的长度、在所述SSB广播周期内卫星的覆盖区域、在所述SSB广播周期内的RO及其对应波位、在所述SSB广播周期内可被分配为回退资源的时隙,其中,每个所述RO的对应波位具有相应的所述接入需求;构建深度强化学习模型,所述深度强化学习模型的模型参数包括:RO的对应波位在一个SSB广播周期的状态、动作和奖励,所述状态包括所述SSB广播周期、卫星的覆盖区域、所述RO的对应波位、所述RO的对应波位在所述SSB广播周期的需要回退的用户终端数量、在所述SSB广播周期接收到所述RO的MsgA后可分配为回退资源的空闲时隙的占用情况,其中,所述用户终端具有对应的优先级;所述动作包括根据所述状态为所述RO的对应波位分配的回退资源;所述奖励包括所述RO的对应波位的用户终端在所述SSB广播周期中被分配到所述回退资源并经历整个所述SSB广播周期后所获得的奖励;获取训练数据,所述训练数据包括每颗低轨卫星在每个SSB广播周期内的每个RO的所述状态、所述动作和所述奖励,根据所述训练数据训练所述深度强化学习模型,获得经训练的深度强化学习模型;获取当前SSB广播周期内每颗所述低轨卫星的每个目标RO的对应波位的当前状态,将所述当前状态输入所述经训练的深度强化学习模型,所述经训练的深度强化学习模型输出所述当前状态对应的目标动作;以及根据所述目标动作为所述每个目标RO的对应波位分配目标回退资源。
[0010]在本专利技术的一实施例中,还包括:根据所述用户终端的优先级为与所述RO相关联的前导码分组。
[0011]在本专利技术的一实施例中,根据所述目标动作为所述每个目标RO的对应波位分配目标回退资源的步骤包括:按照所述目标RO的对应波位内的需要回退的用户终端的优先级的高低,从高到低依次为多个所述用户终端分配所述目标回退资源。
[0012]在本专利技术的一实施例中,所述构建深度强化学习模型的步骤包括:初始化所述深度强化学习模型中的评估网络和目标网络,所述评估网络包括第一网络参数,所述目标网络包括第二网络参数,所述评估网络用于根据所述RO的对应波位在一个SSB广播周期的状态、动作和所述第一网络参数获得所述RO的对应波位在当前SSB广播周期的状态的动作的第一估值函数,所述目标网络用于根据所述RO的对应波位在下一个SSB广播周期中的状态、动作和所述第二网络参数选择所述RO的对应波位在下一个SSB广播周期的状态的最大动作的第二估值函数。
[0013]在本专利技术的一实施例中,根据所述训练数据训练所述深度强化学习模型的步骤包括:
[0014]步骤S51:将所述RO的对应波位在一个SSB广播周期的状态输入所述评估网络,从动作空间中为所述状态选择所述动作;
[0015]步骤S52:根据所述动作计算所述奖励;
[0016]步骤S53:根据在所述SSB广播周期内所述RO的对应波位的所述状态和所述动作,获得所述RO的对应波位在下一个SSB广播周期的状态,存储所述RO的对应波位在所述SSB广播周期的所述状态、所述动作、所述奖励和在下一个SSB广播周期所述RO的对应波位的状态
作为经验池的一组历史数据;
[0017]步骤S54:从所述经验池中随机抽取L组历史数据,计算每组历史数据的第一估值函数和第二估值函数,L是大于1的正整数;
[0018]步骤S55:根据所述第一估值函数和第二估值函数更新所述第一网络参数;
[0019]步骤S56:重复迭代K次所述评估网络后,使所述第二网络参数等于所述第一网络参数,K是大于1的正整数;
[0020]步骤S57:重复上述步骤S51

S56,当所述第一网络参数的损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种低轨卫星网络随机接入中回退资源的动态配置方法,所述低轨卫星网络包括多颗低轨卫星,其特征在于,包括:构建用户业务模型,所述用户业务模型用于提供基于地理位置和时间所生成的用户终端的接入需求,所述接入需求包括多个所述用户终端的优先级;构建网络系统模型,所述网络系统模型参数包括一个SSB广播周期的长度、在所述SSB广播周期内卫星的覆盖区域、在所述SSB广播周期内的RO及其对应波位、在所述SSB广播周期内可被分配为回退资源的时隙,其中,每个所述RO的对应波位具有相应的所述接入需求;构建深度强化学习模型,所述深度强化学习模型的模型参数包括:RO的对应波位在一个SSB广播周期的状态、动作和奖励,所述状态包括所述SSB广播周期、卫星的覆盖区域、所述RO的对应波位、所述RO的对应波位在所述SSB广播周期的需要回退的用户终端数量、在所述SSB广播周期接收到所述RO的MsgA后可分配为回退资源的空闲时隙的占用情况,其中,所述用户终端具有对应的优先级;所述动作包括根据所述状态为所述RO的对应波位分配的回退资源;所述奖励包括所述RO的对应波位的用户终端在所述SSB广播周期中被分配到所述回退资源并经历整个所述SSB广播周期后所获得的奖励;获取训练数据,所述训练数据包括每颗低轨卫星在每个SSB广播周期内的每个RO的所述状态、所述动作和所述奖励,根据所述训练数据训练所述深度强化学习模型,获得经训练的深度强化学习模型;获取当前SSB广播周期内每颗所述低轨卫星的每个目标RO的对应波位的当前状态,将所述当前状态输入所述经训练的深度强化学习模型,所述经训练的深度强化学习模型输出所述当前状态对应的目标动作;以及根据所述目标动作为所述每个目标RO的对应波位分配目标回退资源。2.如权利要求1所述的动态配置方法,其特征在于,还包括:根据所述用户终端的优先级为与所述RO相关联的前导码分组。3.如权利要求1所述的动态配置方法,其特征在于,根据所述目标动作为所述每个目标RO的对应波位分配目标回退资源的步骤包括:按照所述目标RO的对应波位内的需要回退的用户终端的优先级的高低,从高到低依次为多个所述用户终端分配所述目标回退资源。4.如权利要求1所述的动态配置方法,其特征在于,所述构建深度强化学习模型的步骤包括:初始化所述深度强化学习模型中的评估网络和目标网络,所述评估网络包括第一网络参数,所述目标网络包括第二网络参数,所述评估网络用于根据所述RO的对应波位在一个SSB广播周期的状态、动作和所述第一网络参数获得所述RO的对应波位在当前SSB广播周期的状态的动作的第一估值函数,所述目标网络用于根据所述RO的对应波位在下一个SSB广播周期中的状态、动作和所述第二网络参数选择所述RO的对应波位在下一个SSB广播周期的状态的最大动作的第二估值函数。5.如权利要求4所述的动态配置方法,其特征在于,根据所述训练数据训练所述深度强化学习模型的步骤包括:步骤S51:将所述RO的对应波位在一个SSB广播周期的状态输入所述评估网络,从动作空间中为所述状态选择所述动作;步骤S52:根据所述动作计算所述奖励;
步骤S53:根据在所述SSB广播周期内所述RO的对应波位的所述状态和所述动作,获得所述RO的对应波位在下一个SSB广播周期的状态,存储所述RO的对应波位在所述SSB广播周期的所述状态、所述动作、所述奖励和在下一个SSB广播周期所述RO的对应波位的状态作为经验池的一组历史数据;步骤S54:从所述经验池中随机抽取L组历史数据,计算每组历史数据的第一估值函数和第二估值函数,L是大于1的正整数;步骤S55:根据所述第一估值...

【专利技术属性】
技术研发人员:谢卓辰韩欣洋李宗旺
申请(专利权)人:上海微小卫星工程中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1