【技术实现步骤摘要】
一种基于多智能体强化学习的低轨卫星网络流路由方法
[0001]本专利技术属于计算机网络与通信
,特别是涉及低轨卫星网络中一种基于多智能体(Multi
‑
agent)强化学习(Deep Reinforcement Learning,DRL)的流路由(Flow
‑
based routing)方法。
技术介绍
[0002]近年来,随着人类对泛在通信需求的快速增加、各类创新应用不断涌现,大规模低地球轨道(Low Earth Orbit,LEO)卫星网络,如SpaceX提出的Starlink星座,已成为工业界和学术界的研究热点。低轨卫星宽带网络(LEO Satellite Broadband Network,LSBN)被广泛地视为未来地面网络的一种重要补充,并将在即将到来的第六代(6G)移动通信网络系统中发挥关键作用。相比传统高轨道卫星网络,低轨卫星宽带网络具在地球表面上无缝覆盖、点到点通信延迟小和通信传输功耗低的优势。然而,低轨卫星的高动态性和高移动性,导致间歇性的链路连接和动态的网络拓扑,这使得为地面网络设计的传统路由算法无法直接适用于大规模低轨卫星宽带网络。
[0003]另一方面,基于深度强化学习(DRL)的人工智能技术在许多科研领域中得到了越来越多的应用。研究人员已经利用深度强化学习方法来实现对传统地面网络中的数据包进行路由和交换转发。学术界近期已经开始研究基于深度强化学习的低轨卫星宽带网络路由方法。初步的实验评估结果显示,基于深度强化学习的路由方法在低轨卫星宽带网络中
【技术保护点】
【技术特征摘要】
1.一种基于多智能体强化学习的低轨卫星网络流路由方法,该方法包括训练阶段和执行阶段;所述训练阶段包括:步骤A1:构建低轨星座宽带网络分布式星间路由模型;低轨卫星网络包含N
orbit
条轨道,每个轨道都有N
Sat_orbit
颗均匀分布的低轨卫星,低轨卫星被表示为Sat
i
,i∈{1,2,
…
,total},total表示LEO卫星的总数,每个卫星都可以建立四条星间链路,用于与其相邻的四颗低轨卫星进行通信。这些链路分别与同一轨道的上下两方卫星相连,以及相邻两个轨道上的左右两侧卫星相连。以link
i,j
来表示Sat
i
到Sat
j
的星间链路,其中i表示发送端卫星的编号,j表示接收端卫星的编号;步骤A2:构建地面用户分布模型,并根据用户行为模型生成通信请求;将地面划分为用户分布不均的M个连续的区域,每个区域内的用户位置呈均匀分布;设所有用户行为独立且周期性地向接入卫星发送数据包;步骤A3:数据包发送至卫星,卫星获取局部状态信息观测量;将卫星定义为相互独立的智能体,根据局部观测信息来决定数据包路由决策;对于每一颗卫星,在接收到数据包后,其局部观测状态空间定义为其中其中是卫星Sat
i
的四个相邻卫星到当前数据包k的目标卫星的空间距离;表示四个连接Sat
i
的星间链路的网络可用带宽,为Sat
i
上四个转发队列的当前流量负荷,为Sat
i
的四个相邻卫星上的决策队列的负载;归一化步骤A3中上述要素数值;步骤A4:卫星依赖步骤A3获取的局部状态观测量,利用深度强化学习模型中的策略网络选择最优动作,执行数据包路由决策;每个卫星智能体在接收到数据包并得到局部信息观测量之后,需对数据包进行路由决策,智能体从动作空间中选一个动作进行数据包路由,其中,和分别表示将数据包传递至四个相邻卫星中的一个作为下一跳;步骤A5:计算低轨星座宽带网络节点数据包路由延迟;当一个低轨卫星接收到一个数据包时,它将通过步骤A4中得到的路由决策,选择下一个跳卫星来处理这个数据包,并通过星间链路将数据包转发到下一个跳卫星;这个路由过程需要一定的时间延迟,包括决策延迟和转发延迟;决策延迟是指从接收数据包到做出路由决策的时间延迟,而转发延迟是指从做出路由决策到下一个跳卫星接收数据包的时间延迟;对于在一个低轨卫星宽带网络上路由的数据包k,决策延迟包括两个部分:决策排队延迟和决策制定延迟决策排队延迟是指在卫星中排队等待路由决策所需要的时间,而决策制定延迟是指卫星做出路由决策所需要的时间,在数据包转发过程中,转
发延迟也包括多个部分:转发排队延迟传输延迟和传播延迟转发排队延迟是指在卫星中排队等待转发所需要的时间,传输延迟是指数据包通过星间链路传输所需要的时间,传播延迟则是指数据沿星间链路从一个卫星到另一个卫星所需要的时间;若在link
i,j
上分配了带宽用于传输数据包k,则该链路上传输延迟可以通过公式:进行计算;其中,S
k
是数据包k的大小,如果link
i,j
上暂时没有空闲的带宽,那么数据包k将被暂存到一个link
i,j
的转发队列缓存中,这将引入转发排队延迟当缓存达到最大容量时,后续的数据包将被丢弃;另一方面,假设时间t时刻Sat
i
和Sat
j
的空间坐标分别为(x
i,t
,y
i,t
,z
i,t
)和(x
j,t
,y
j,t
,z
j,t
),这两个卫星之间的空间距离通过公式:进行计算;若假设link
i,j
的传播距离为则可用公式:来计算信号传播延迟其中c为真空中光速;综上所述,在Sat
i
上路由的数据包k,其总延迟可以通过:来计算;如果下一跳的卫星不是目标节点,则上述过程将在下一跳的卫星上再一次被执行;步骤A6:计算智能体进行路由决策的奖励值;若当前数据包被转发到邻居卫星,则根据步骤5中计算得到的延迟给予智能体的对应的奖励;每个智能体的目标是学习最优路由策略以提升路由性能,为了确保每个智能体学习最优路由决策,Sat
i
在时间t对数据包k进行路由的奖励函数定义如下:其中,ψ为数据包丢失时给智能体的惩罚值,Dis
j,k
表示下一跳卫星Sat
j
和目标卫星之间的归一化空间距离,是数据包k的归一化转发延迟,是路由数据包k在Sat
j
上的归一化决策延迟,κ1,κ2和κ3是用于平衡上述因素的权重,累积折扣奖励由计算,其中γ∈[0,1]表示折扣因子;步骤7:对每个智能体的强化学习模型的策略网络进行训练;每个卫星都包含两个深度神经网络:估计Q网络Q
i
...
【专利技术属性】
技术研发人员:赖俊宇,刘华烁,徐国尧,朱俊宏,甘炼强,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。