一种面向天地一体化场景的智能时隙分配方法及系统技术方案

技术编号:36185934 阅读:37 留言:0更新日期:2022-12-31 20:49
本发明专利技术公开了一种面向天地一体化场景的智能时隙分配方法及系统,本发明专利技术面向空地一体化场景下的复杂多变环境和多样化业务需求,以及不同的业务的传输时延和接入率的严格需求;该方法包括:不同用户根据业务需求实时向基站发送时隙请求信息,所述业务需求包括业务负载需求、业务类型需求和业务时延需求;基站基于收到所有用户的时隙请求信息和当前网络的时隙状态信息,采用基于强化学习的智能时隙分配法对所有用户的时隙请求信息进行时隙分配,得到用户的时隙分配策略;并将得到的时隙分配策略下发至相应用户,同时更新时隙状态信息。本发明专利技术在满足不同业务的灵活需求的条件下最大化系统吞吐量,实现资源的高效利用。实现资源的高效利用。实现资源的高效利用。

【技术实现步骤摘要】
一种面向天地一体化场景的智能时隙分配方法及系统


[0001]本专利技术涉及时隙分配
,具体涉及一种面向天地一体化场景的智能时隙分配方法及系统。

技术介绍

[0002]近年来,随着航空技术和无人机技术的高速发展,借助高空平台进行数据传输的空地一体化通信技术引起了学术界和工业界的广泛关注。空地一体化系统使用固定翼飞机或无人机作为升空基站,与地面网络融合,共同为用户提供应急通信服务。与卫星通信系统相比,它具有费用低,延迟小、架设快、容量大的优势;与地面通信系统相比,它具有多径衰落小、覆盖面积大、抗毁性强的优势。
[0003]但空地一体化网络所面临的网络架构和无线环境更为复杂,环境和业务的动态性和差异性也更为明显。一方面,不同于基于固定基站部署的地面通信技术,空地一体化网络的基站具有移动性。另一方面,地面、空中基站台联合为混合组网内的地面、空中移动台提供无缝接入服务,这些移动台共享无线资源,不同覆盖范围的小区形成了复杂异构的接入网。同时,网络中的业务负载种类繁多,包括话音、短报文、文件、视频等,各个业务在到达时间和空间上也存在明显差异,不同业务对于服务质量及传输时延的需求也显著不同。如何在高动态、复杂异构的空地一体化网络中,通过对有限的MAC资源进行智能高效的灵活分配,在保证业务的服务质量需求及传输时延限制的情况下,最大化网络吞吐量和用户接入率,将是空地一体化通信技术迫切需要解决的问题。
[0004]目前MAC协议主要分为随机竞争型、分配调度型和前两者混合型协议。随机竞争型来源于ALOHA、CSMA/CA等经典接入协议,原理是依靠异步竞争来获取信道的占用权,通过随机退避来缓解碰撞问题。然而,随着网络负载增大,碰撞增多,会导致传输速率和时延性能严重下降。TDMA是一种基于分配调度型的典型算法,TDMA协议将信道划分为若干个固定长度时隙,节点按照一定的分配规则在相应时隙进行分组传输。相较于随机竞争的MAC协议,TDMA协议在吞吐量、传输时延等方面具有更好的保证。因此空地一体化系统中的MAC层多采用TDMA技术。
[0005]现有的TDMA时隙分配方法大致可以分为3类:固定时隙分配方法、动态时隙分配方法和固定与动态相结合的混合时隙分配方法。其中,根据方法的实现方式,基于动态分配方法的TDMA协议又可以分为集中式和分布式;分布式动态TDMA协议还可依据时隙分配时是否需要拓扑信息从而再分为拓扑依赖和拓扑透明2种类型。
[0006]采用固定时隙分配策略的TDMA协议可以保证每个节点得到固定的时隙资源,能够有效保证用户间的公平性,较好地满足时延的要求,但是随着网络中节点数量的增加,信道利用率将会明显下降,网络的吞吐量也会有所限制。在空地一体化网络中,由于节点的业务量分布不均,可能会在某个时刻出现某些节点需要发送的数据量较多,而某些节点没有业务需要发送。针对这种情况,采用固定时隙分配策略的TDMA协议可能会导致信道利用率低,业务传输时延过高,因此需要考虑更加动态的时隙分配方案。
[0007]但目前的动态时隙分配方法普遍存在着接入时延大,灵活性差,传输时延高,信道利用率低,无法根据不同的业务需求动态调整时隙分配方式,从而造成一定的时隙资源浪费等不足。

技术实现思路

[0008]本专利技术所要解决的技术问题是现有技术中的时隙分配方法普遍存在着接入时延大,灵活性差,传输时延高,信道利用率低,无法根据不同的业务需求动态调整时隙分配方式,从而造成一定的时隙资源浪费等缺陷。
[0009]面向空地一体化场景下的复杂多变环境和多样化业务需求,以及不同的业务的传输时延和接入率的严格需求,本专利技术目的在于提供一种面向天地一体化场景的智能时隙分配方法及系统,本专利技术是一种基于强化学习的智能TDMA时隙分配法,在满足不同业务的灵活需求的条件下最大化系统吞吐量,实现资源的高效利用。
[0010]本专利技术通过下述技术方案实现:
[0011]第一方面,本专利技术提供了一种面向天地一体化场景的智能时隙分配方法,该方法包括:
[0012]不同用户根据业务需求实时向基站(空中基站或地面基站)发送时隙请求信息,所述业务需求包括业务负载需求、业务类型需求和业务时延需求;
[0013]基站(空中基站或地面基站)基于收到所有用户的时隙请求信息和当前网络的时隙状态信息,采用基于强化学习的智能时隙分配法对所有用户的时隙请求信息进行时隙分配,得到用户的时隙分配策略;并将得到的时隙分配策略下发至相应用户,同时更新时隙状态信息。
[0014]进一步地,该方法还包括:
[0015]基站(空中基站或地面基站)周期性地更新与维护基站目前所属范围内所有用户的时隙状态信息和时隙请求信息。
[0016]进一步地,所述基于强化学习的智能时隙分配法对所有用户的时隙请求信息进行时隙分配的具体步骤为:
[0017]搭建基于时隙分配的马尔可夫决策模型MDP,定义马尔可夫决策模型MDP的状态、动作、回报函数、转移概率集合、折扣因子、状态值函数和状态行为值函数;其中,所述马尔可夫决策模型MDP中以基站作为实体自主地收集环境状态信息,并根据用户的时隙请求信息决定时隙分配策略;
[0018]在马尔可夫决策模型MDP中搭建基于强化学习的时隙分配算法,搜索使全局回报函数最大化的最佳动作,以得到最优的时隙分配策略。
[0019]进一步地,所述马尔可夫决策模型MDP的状态为用户的时隙请求信息和目前可用时隙状态信息,所述马尔可夫决策模型MDP的动作为每种业务被分配的时隙个数;所述马尔可夫决策模型MDP的动作向量构成动作空间,所述马尔可夫决策模型MDP采用回报函数来评价动作,优化目标是在满足不同业务需求的条件下最大化业务接入总数,从而最大化网络吞吐量。
[0020]进一步地,在马尔可夫决策模型MDP中搭建基于强化学习的时隙分配算法,搜索使全局回报函数最大化的最佳动作,以得到最优的时隙分配策略,包括:
[0021]建立基于深度强化学习的智能时隙分配神经网络模型,并初始化模型参数;
[0022]根据所述马尔可夫决策模型MDP和所有用户的时隙状态请求信息,收集网络中时隙的状态、动作和奖励信息,并将网络中时隙的状态、动作和奖励信息作为模型训练数据;
[0023]使用模型训练数据训练所述基于深度强化学习的智能时隙分配神经网络模型,并基于AC算法搜索全局动作空间,输出使回报函数最大的时隙分配策略作为最优的时隙分配策略;
[0024]根据所述最优的时隙分配策略,提取出每种业务被分配的总时隙个数;根据每种业务的时限请求信息得到可分配的用户数;以及根据业务到达时间,优先将时隙分配给等待时间更长的用户,得到每个用户的时隙分配结果;
[0025]基站广播每个用户的时隙分配结果,并根据所述时隙分配结果更新时隙状态。
[0026]进一步地,所述可分配的用户数的计算公式为:
[0027]a.若业务类型不支持频分复用(例如视频、文件等业务),则该业务可分配的用户数为=Z/t,Z为根据基于强化学习的时隙分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向天地一体化场景的智能时隙分配方法,其特征在于,该方法包括:不同用户根据业务需求实时向基站发送时隙请求信息,所述业务需求包括业务负载需求、业务类型需求和业务时延需求;基站基于收到所有用户的时隙请求信息和当前网络的时隙状态信息,采用基于强化学习的智能时隙分配法对所有用户的时隙请求信息进行时隙分配,得到用户的时隙分配策略;并将得到的时隙分配策略下发至相应用户,同时更新时隙状态信息。2.根据权利要求1所述的一种面向天地一体化场景的智能时隙分配方法,其特征在于,该方法还包括:基站周期性地更新与维护基站目前所属范围内所有用户的时隙状态信息和时隙请求信息。3.根据权利要求1所述的一种面向天地一体化场景的智能时隙分配方法,其特征在于,所述基于强化学习的智能时隙分配法对所有用户的时隙请求信息进行时隙分配的具体步骤为:搭建基于时隙分配的马尔可夫决策模型MDP,定义马尔可夫决策模型MDP的状态、动作、回报函数、转移概率集合、折扣因子、状态值函数和状态行为值函数;其中,所述马尔可夫决策模型MDP中以基站作为实体自主地收集环境状态信息,并根据用户的时隙请求信息决定时隙分配策略;在马尔可夫决策模型MDP中搭建基于强化学习的时隙分配算法,搜索使全局回报函数最大化的最佳动作,以得到最优的时隙分配策略。4.根据权利要求3所述的一种面向天地一体化场景的智能时隙分配方法,其特征在于,所述马尔可夫决策模型MDP的状态为用户的时隙请求信息和目前可用时隙状态信息,所述马尔可夫决策模型MDP的动作为每种业务被分配的时隙个数;所述马尔可夫决策模型MDP的动作向量构成动作空间,所述马尔可夫决策模型MDP采用回报函数来评价动作,优化目标是在满足不同业务需求的条件下最大化业务接入总数,从而最大化网络吞吐量。5.根据权利要求3所述的一种面向天地一体化场景的智能时隙分配方法,其特征在于,在马尔可夫决策模型MDP中搭建基于强化学习的时隙分配算法,搜索使全局回报函数最大化的最佳动作,以得到最优的时隙分配策略,包括:建立基于深度强化学习的智能时隙分配神经网络模型,并初始化模型参数;根据所述马尔可夫决策模型MDP和所有用户的时隙状态请求信息,收集网络中时隙的状态、动作和奖励信息,并将网络中时隙的状态、动作和奖励信息作为模型训练数据;使用模型训练数据训练所述基于深度强化学习的智能时隙分配神经网络模型,并基于AC算法搜索全局动作空间,输出使回报函数最大的时隙分配策略作为最优的时隙分配策略;根据所述最优的时隙分配策略,提取出每种业务被分配的总时隙个数;根据每种业务的时限请求信息得到可分配的用户数;以及根据业务到达时间,优先将时隙分配给等待...

【专利技术属性】
技术研发人员:李晓倩徐孟颖秦爽冯钢
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1