一种基于多智能体强化学习的低轨卫星网络流路由方法技术

技术编号:39406013 阅读:8 留言:0更新日期:2023-11-19 15:58
该发明专利技术公开了一种基于多智能体强化学习的低轨卫星网络流路由方法,属于计算机网络与通信技术领域。本发明专利技术综合利用了“强化学习”和“基于数据流的路由”技术。能够有效减少针对低轨卫星宽带网络数据包进行深度神经网络模型推理的次数,显著减少深度神经网络模型推断所花费的累积时间。并能够有效改善和提升大规模低轨卫星宽带网络的路由性能,从而更好地满足其网络性能需求。其网络性能需求。其网络性能需求。

【技术实现步骤摘要】
一种基于多智能体强化学习的低轨卫星网络流路由方法


[0001]本专利技术属于计算机网络与通信
,特别是涉及低轨卫星网络中一种基于多智能体(Multi

agent)强化学习(Deep Reinforcement Learning,DRL)的流路由(Flow

based routing)方法。

技术介绍

[0002]近年来,随着人类对泛在通信需求的快速增加、各类创新应用不断涌现,大规模低地球轨道(Low Earth Orbit,LEO)卫星网络,如SpaceX提出的Starlink星座,已成为工业界和学术界的研究热点。低轨卫星宽带网络(LEO Satellite Broadband Network,LSBN)被广泛地视为未来地面网络的一种重要补充,并将在即将到来的第六代(6G)移动通信网络系统中发挥关键作用。相比传统高轨道卫星网络,低轨卫星宽带网络具在地球表面上无缝覆盖、点到点通信延迟小和通信传输功耗低的优势。然而,低轨卫星的高动态性和高移动性,导致间歇性的链路连接和动态的网络拓扑,这使得为地面网络设计的传统路由算法无法直接适用于大规模低轨卫星宽带网络。
[0003]另一方面,基于深度强化学习(DRL)的人工智能技术在许多科研领域中得到了越来越多的应用。研究人员已经利用深度强化学习方法来实现对传统地面网络中的数据包进行路由和交换转发。学术界近期已经开始研究基于深度强化学习的低轨卫星宽带网络路由方法。初步的实验评估结果显示,基于深度强化学习的路由方法在低轨卫星宽带网络中可以胜过传统路由算法的性能。然而,大多数现有研究,仅仅假设数据包的路由决策过程可以在路由器接收到一个数据包后立即进行并完成,上述对决策过程的假定过于理想化,忽略了在实际网络环境中进行数据包路由决策时深度神经网络(DNN)模型推理所需的时间。考虑到低轨卫星上的有限计算资源,不能忽视深度神经网络模型推理所需时间。这将增加网络中数据包的传输延迟、增大数据包丢失率,最终限制低轨卫星宽带网络中的网络流量的吞吐量。因此,忽略深度神经网络模型推理时间将会威胁到这些已有研究工作所得出结论的正确性。

技术实现思路

[0004]为了消除深度神经网络模型推理时间对路由性能所带来的负面影响,本专利技术提出一种基于多智能体强化学习(Multi

agent Deep Reinforcement Learning,MADRL)的流路由(Flow

based routing)方法,该方法为网络数据流而不是每个单独的数据包做出路由决策。流路由被形式化为基于部分可观察马尔可夫决策过程(POMDP)的多智能体决策问题。每个低轨卫星作为一个智能体(Agent)可以根据自己的策略(Policy)将一个网络数据流转发给其邻近的卫星之一。需要强调的是,智能体上的深度神经网络模型仅在其路由特定数据流中的第一个数据包时进行推理,该数据流中的后续数据包按照与第一个数据包相同的路由决策进行转发。由于低轨卫星宽带网络的拓扑动态性会导致路由失效,从而影响流路由性能,本专利技术进一步提出一种自适应数据流路由更新方法,自动对路由决策进行更新、适应
动态变化的网络拓扑,以增强所提出的流路由方法的性能。
[0005]本专利技术所采用的技术方案如下:一种基于多智能体强化学习的低轨卫星网络流路由方法,该方法包括:
[0006]A1:构建低轨星座宽带网络分布式星间路由模型;
[0007]本专利技术首先进行低轨星座网络路由模型构建;该模型包括星间通信链路、卫星运动轨迹、星座网络拓扑结构、用户分布等关键要素的建模;通过对目标系统架构和特性的深入分析,构建准确的低轨星座网络路由模型;
[0008]低轨卫星表示为Sat
i
,i∈{1,2,

,total},total表示低轨卫星总数;假设每颗卫星都建立n条星间链路,与其相邻卫星进行通信;上述链路分别与同一轨道上的前后两颗卫星相连,以及与相邻轨道上的左右两侧卫星相连;link
i,j
表示Sat
i
到Sat
j
的星间链路,其中i表示发送端卫星的编号,j表示接收端卫星的编号;
[0009]当低轨卫星接收到一个数据包时,将根据其上路由算法选择下一跳卫星,并通过星间链路将数据包转发到下一跳卫星;这个过程将会引入时间延迟,包括决策延迟和转发延迟:决策延迟指从接收数据包到做出路由决策的时间延迟;转发延迟指从做出路由决策到下一跳卫星接收到数据包的时间延迟;具体地,对于数据包k,决策延迟包括两个部分:决策排队延迟和决策制定延迟决策排队延迟是指在某低轨卫星上排队等待进行路由决策所需要的排队等候时间,而决策制定延迟是指卫星做出路由决策所需时间;在数据包转发过程中,转发延迟包括多个部分:转发排队延迟传输延迟和传播延迟转发排队延迟指数据包在某低轨卫星中排队等待转发所需时间,传输延迟指数据包通过星间链路传输所需时间,传播延迟则是指信号沿星间链路从一个卫星到另一个卫星所需时间;
[0010]设在上分配带宽用于传输数据包k,则该链路上传输延迟通过如下公式计算:
[0011][0012]其中,S
k
是数据包k的大小;如果link
i,j
上暂时没有空闲带宽,数据包k将被暂存到link
i,j
的转发队列缓存中,将引入转发排队延迟当缓存达到最大容量时,后续到来的数据包将被丢弃;另一方面,假设时间t时刻Sat
i
和Sat
j
的空间坐标分别为(x
i,t
,y
i,t
,z
i,t
)和(x
j,t
,y
j,t
,z
j,t
);这两个卫星之间的空间距离通过如下公式计算:
[0013][0014]若假设link
i,j
的传播距离为则可用公式:
[0015][0016]来计算信号传播延迟其中c为真空中光速;
[0017]计算低轨卫星Sat
i
上路由数据包k的总延迟D
i,k

[0018][0019]如果下一跳的低轨卫星不是目标节点,则上述过程将在下一跳低轨卫星上再一次被执行;
[0020]A2:将路由问题建模为局部可观测马尔可夫决策过程;
[0021]将低轨星座宽带网络的路由性能优化问题转化为局部可观测马尔可夫决策过程,以更好地描述系统不确定性和随机性,有效处理复杂决策问题;该过程P由以下具有6元组描述:
[0022]P=(S,A,T,R,O,γ)
[0023]其中,S是环境的全局状态空间,A是智能体共享的动作集合,T是环境的状态转移函数,R=S
×
A是智能体共享的全局奖励函数,O表示智能体的局部观测状态空间,γ∈[0,1]是用来平衡长短期奖励的折扣因子;局部观测状态,动作和奖励函数更具体的定义为:...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的低轨卫星网络流路由方法,该方法包括训练阶段和执行阶段;所述训练阶段包括:步骤A1:构建低轨星座宽带网络分布式星间路由模型;低轨卫星网络包含N
orbit
条轨道,每个轨道都有N
Sat_orbit
颗均匀分布的低轨卫星,低轨卫星被表示为Sat
i
,i∈{1,2,

,total},total表示LEO卫星的总数,每个卫星都可以建立四条星间链路,用于与其相邻的四颗低轨卫星进行通信。这些链路分别与同一轨道的上下两方卫星相连,以及相邻两个轨道上的左右两侧卫星相连。以link
i,j
来表示Sat
i
到Sat
j
的星间链路,其中i表示发送端卫星的编号,j表示接收端卫星的编号;步骤A2:构建地面用户分布模型,并根据用户行为模型生成通信请求;将地面划分为用户分布不均的M个连续的区域,每个区域内的用户位置呈均匀分布;设所有用户行为独立且周期性地向接入卫星发送数据包;步骤A3:数据包发送至卫星,卫星获取局部状态信息观测量;将卫星定义为相互独立的智能体,根据局部观测信息来决定数据包路由决策;对于每一颗卫星,在接收到数据包后,其局部观测状态空间定义为其中其中是卫星Sat
i
的四个相邻卫星到当前数据包k的目标卫星的空间距离;表示四个连接Sat
i
的星间链路的网络可用带宽,为Sat
i
上四个转发队列的当前流量负荷,为Sat
i
的四个相邻卫星上的决策队列的负载;归一化步骤A3中上述要素数值;步骤A4:卫星依赖步骤A3获取的局部状态观测量,利用深度强化学习模型中的策略网络选择最优动作,执行数据包路由决策;每个卫星智能体在接收到数据包并得到局部信息观测量之后,需对数据包进行路由决策,智能体从动作空间中选一个动作进行数据包路由,其中,和分别表示将数据包传递至四个相邻卫星中的一个作为下一跳;步骤A5:计算低轨星座宽带网络节点数据包路由延迟;当一个低轨卫星接收到一个数据包时,它将通过步骤A4中得到的路由决策,选择下一个跳卫星来处理这个数据包,并通过星间链路将数据包转发到下一个跳卫星;这个路由过程需要一定的时间延迟,包括决策延迟和转发延迟;决策延迟是指从接收数据包到做出路由决策的时间延迟,而转发延迟是指从做出路由决策到下一个跳卫星接收数据包的时间延迟;对于在一个低轨卫星宽带网络上路由的数据包k,决策延迟包括两个部分:决策排队延迟和决策制定延迟决策排队延迟是指在卫星中排队等待路由决策所需要的时间,而决策制定延迟是指卫星做出路由决策所需要的时间,在数据包转发过程中,转
发延迟也包括多个部分:转发排队延迟传输延迟和传播延迟转发排队延迟是指在卫星中排队等待转发所需要的时间,传输延迟是指数据包通过星间链路传输所需要的时间,传播延迟则是指数据沿星间链路从一个卫星到另一个卫星所需要的时间;若在link
i,j
上分配了带宽用于传输数据包k,则该链路上传输延迟可以通过公式:进行计算;其中,S
k
是数据包k的大小,如果link
i,j
上暂时没有空闲的带宽,那么数据包k将被暂存到一个link
i,j
的转发队列缓存中,这将引入转发排队延迟当缓存达到最大容量时,后续的数据包将被丢弃;另一方面,假设时间t时刻Sat
i
和Sat
j
的空间坐标分别为(x
i,t
,y
i,t
,z
i,t
)和(x
j,t
,y
j,t
,z
j,t
),这两个卫星之间的空间距离通过公式:进行计算;若假设link
i,j
的传播距离为则可用公式:来计算信号传播延迟其中c为真空中光速;综上所述,在Sat
i
上路由的数据包k,其总延迟可以通过:来计算;如果下一跳的卫星不是目标节点,则上述过程将在下一跳的卫星上再一次被执行;步骤A6:计算智能体进行路由决策的奖励值;若当前数据包被转发到邻居卫星,则根据步骤5中计算得到的延迟给予智能体的对应的奖励;每个智能体的目标是学习最优路由策略以提升路由性能,为了确保每个智能体学习最优路由决策,Sat
i
在时间t对数据包k进行路由的奖励函数定义如下:其中,ψ为数据包丢失时给智能体的惩罚值,Dis
j,k
表示下一跳卫星Sat
j
和目标卫星之间的归一化空间距离,是数据包k的归一化转发延迟,是路由数据包k在Sat
j
上的归一化决策延迟,κ1,κ2和κ3是用于平衡上述因素的权重,累积折扣奖励由计算,其中γ∈[0,1]表示折扣因子;步骤7:对每个智能体的强化学习模型的策略网络进行训练;每个卫星都包含两个深度神经网络:估计Q网络Q
i
...

【专利技术属性】
技术研发人员:赖俊宇刘华烁徐国尧朱俊宏甘炼强
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1