一种基于强化学习的流量预测卫星路径选择方法及系统技术方案

技术编号:38904056 阅读:12 留言:0更新日期:2023-09-22 14:22
本发明专利技术涉及一种基于强化学习的流量预测卫星路径选择方法及系统,方法包括:S1、根据卫星节点及星间链路的位置关系构建初始卫星网络图;S2、卫星流量监控设施获取信息数据;S3、构建基于时空切比雪夫图神经网络的流量预测模型;S4、将卫星路径规划问题转化为多智能体深度确定性策略梯度算法学习问题,并进行马尔可夫决策过程问题的转化定义;S5、根据问题的转化定义和多智能体深度确定性策略梯度算法,进行算法的强化学习,依据多个卫星输出的最大概率动作值规划卫星数据包的最优路径。本发明专利技术解决了低轨卫星网络星间链路业务流量拥堵问题,更加合理、灵活,且能有效得到最优传输路径,提升系统总体性能。提升系统总体性能。提升系统总体性能。

【技术实现步骤摘要】
一种基于强化学习的流量预测卫星路径选择方法及系统


[0001]本专利技术属于卫星通信
,具体涉及一种基于强化学习的流量预测卫星路径选择方法及系统。

技术介绍

[0002]为了满足人们日益增长的通信需求,近年来卫星通信网络发展迅速。卫星通信网络是对地面通信系统的补充和延伸,其具有覆盖范围广,通信距离远,通信线路稳定可靠,不受地形、地物等自然条件影响等优势。
[0003]然而,由于用户在卫星覆盖区域中不均匀分布,导致一些卫星的星间链路(ISL)承载大量数据包,而其他ISL未得到充分利用,从而造成链路的拥塞。同时,由于星间距离大,路由路径多跳,数据包具有较大的通信时延。因此,在路由协议中,应选择较短的路径来路由数据包。因此,要求路由策略考虑流量覆盖特性,均衡星间链路间的流量具有重要意义。
[0004]现有的流量预测方法主要使用各种数学统计拟合模型、机器学习相关模型等。虽然基于统计模型的卫星流量预测方法具有较高的预测准确度和稳定性,但由于卫星通信具有时变性、异质性等特点,这种方法在某些情况下可能存在一定的误差。此外,大多数的机器学习算法虽然在时序预测上有较好的表现,但在经过多次训练后极其容易陷入过拟合的情况,从而容易陷入局部最优和训练速度缓慢的缺陷。因此,需要结合其他方法进行流量预测。在路径选择的过程中,从负载均衡的角度出发,为使星间链路得到更平均的利用,提出了单路径流量均衡算法的路由策略,但它们都有一个明显的缺点即只能在流量过大时将过多的流量分配到其他代价最低的路径上,并不能真正地消除拥塞。而部分多路径流量均衡路由算法由于其较随意分配流量,很难得到最理想的流量均衡效果,没有考虑多组被分割的流量叠加后仍然可能会导致链路拥塞的情况。并且,目前没有将流量预测和路由策略结合起来的方法。

技术实现思路

[0005]针对上述问题,本专利技术提出了一种基于强化学习的流量预测卫星路径选择方法和系统,目的在于解决现有技术存在的问题,以实现对现有的低轨卫星网络中流量的优化和路径选择的合理规划,以提升链路传输速率和低轨卫星网络资源利用率。
[0006]为了实现以上目的,本专利技术采用如下技术方案:
[0007]一种基于强化学习的流量预测卫星路径选择方法包括以下步骤:
[0008]S1、根据卫星节点及星间链路的位置关系构建初始卫星网络图;
[0009]S2、卫星流量监控设施获取信息数据;
[0010]优选的,信息数据包括:缓存队列的占用率、卫星速度以及业务流量;
[0011]S3、构建基于时空切比雪夫图神经网络(Spatial

Temporal Chebyshev Graph Neural Network,ST

ChebNet)的流量预测模型,将步骤S2中获取到的信息数据输入到模型中,得到预测结果,即对于卫星流量未来一段时间的预测结果;
[0012]S4、将卫星路径规划问题转化为多智能体深度确定性策略梯度(MADDPG,Multi

Agent Deep Deterministic Policy Gradient)算法学习问题,并进行马尔可夫决策过程(POMDP)问题的转化定义;
[0013]S5、根据问题的转化定义和MADDPG算法,进行MADDPG算法的强化学习,依据多个卫星输出的最大概率动作值规划卫星数据包的最优路径;
[0014]作为优选方案,所述步骤S1中,对于构建初始卫星网络图,包括:
[0015]将低轨卫星网络建模为一个图G=(V,E,A),其中V表示卫星节点集合,E表示星间链路集合,A是邻接矩阵表示网络的连接状况,A=(a
i,j
),a
i,j
=1即表示节点N
i
和节点N
j
之间存在星间链路,a
i,j
=0即表示节点N
i
和节点N
j
之间不存在星间链路;
[0016]作为优选方案,所述步骤S3中,构建基于时空切比雪夫图神经网络的流量预测模型,具体包括:
[0017]S31、对输入的数据进行数据处理,包括对于数据空缺值的填充,以及对于数据的归一化处理。归一化可以表示为:
[0018][0019]S32、将步骤S31中划分后的卫星流量数据分别输入到ST

CHEBENT模型中,首先通过一个全连接层,将每个节点上的这三个特征融合成一个新特征,该新特征被表示为然后,为这三个特征分配不同的权重w,并通过下面的公式执行加权求和,生成矩阵V=(n,N,X'),其中,n为观察样本数,N表示节点,X'表示新特征,
[0020][0021]其中,和分别表示在时间t节点i上的第c个特征的权重及其值。此外,b
t
表示时间t处的偏差;
[0022]S33、将节点特征融合步骤S32中所获得的矩阵V输入LSTM模型,该模型将输出矩阵为V'。LSTM模型包括四层,即一个输入层、两个隐藏层和一个输出层,两个隐藏层相互连接,用于捕捉时间序列的特征。LSTM模块可以表示为:
[0023]f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0024]i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0025][0026][0027]o
t
=σ(W
o
·
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0028]h
t
=o
t
·
tanh(C
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0029]其中,f
t
表示遗忘门,i
t
表示输入门,表示单元状态更新值,C
t
‑1表示上一时刻的单元状态,C
t
表示更新后的新的单元状态,o
t
表示输出门,σ表示采用Sigmoid函数作为激活函数;W
f
和b
f
分别为遗忘门f
t
对应的权值矩阵和偏置项,W
i
和b
i
分别为输入门i
t
对应的权值矩阵和偏置项,W
C
和b
C
分别为神经元中记忆细胞C对应的权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的流量预测卫星路径选择方法,其特征在于,包括以下步骤:S1、根据卫星节点及星间链路的位置关系构建初始卫星网络图;S2、卫星流量监控设施获取信息数据;S3、构建基于时空切比雪夫图神经网络的流量预测模型,将步骤S2中获取的信息数据输入流量预测模型中,得到预测结果;S4、将卫星路径规划问题转化为多智能体深度确定性策略梯度算法学习问题,并进行马尔可夫决策过程问题的转化定义;S5、根据马尔可夫决策过程问题的转化定义和多智能体深度确定性策略梯度算法,进行多智能体深度确定性策略梯度算法的强化学习,依据多个卫星输出的最大概率动作值规划卫星数据包的最优路径。2.根据权利要求1所述的一种基于强化学习的流量预测卫星路径选择方法,其特征在于,步骤S1中,构建初始卫星网络图,包括:将低轨卫星网络建模为一个图G=(V,E,A),其中V表示卫星节点集合,E表示星间链路集合,A是邻接矩阵表示网络的连接状况,A=(a
i,j
),a
i,j
=1即表示节点N
i
和节点N
j
之间存在星间链路,a
i,j
=0即表示节点N
i
和节点N
j
之间不存在星间链路。3.根据权利要求1所述的一种基于强化学习的流量预测卫星路径选择方法方法,其特征在于,步骤S2中,所述的信息数据包括:缓存队列的占用率、卫星速度以及业务流量。4.根据权利要求1所述的一种基于强化学习的流量预测卫星路径选择方法方法,其特征在于,步骤S3中,构建基于时空切比雪夫图神经网络的流量预测模型,具体包括:S31、对输入的数据进行数据处理,包括对于数据空缺值的填充,以及对于数据的归一化处理,归一化表示为:S32、将步骤S31中划分后的卫星流量数据分别输入到ST

ChebNet模型中,首先通过一个全连接层,将每个节点上的这三个特征融合成一个新特征,该新特征被表示为然后为这三个特征分配不同的权重w,并通过公式(2)执行加权求和,生成矩阵V=(n,N,X'),其中,n为观察样本数,N表示节点,X'表示新特征,其中,和分别表示在时间t节点i上的第c个特征的权重及其值,b
t
表示时间t处的偏差;S33、将节点特征融合步骤S32中所获得的矩阵V输入长短期记忆网络LSTM模型,该模型将输出矩阵为V';LSTM模型包括四层,即一个输入层、两个隐藏层和一个输出层,两个隐藏层相互连接,用于捕捉时间序列的特征;LSTM模型表示为:f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
o
t
=σ(W
o
·
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)h
t
=o
t
·
tanh(C
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中,f
t
表示遗忘门,i
t
表示输入门,表示单元状态更新值,C
t
‑1表示上一时刻的单元状态,C
t
表示更新后的新的单元状态,o
t
表示输出门,σ表示采用Sigmoid函数作为激活函数;W
f
和b
f
分别为遗忘门f
t
对应的权值矩阵和偏置项,W
i
和b
i
分别为输入门i
t
对应的权值矩阵和偏置项,W
C
和b
C
分别为神经元中记忆细胞C对应的权值矩阵和偏置项,W
o
和b
o
分别为输出门o
t
对应的权值矩阵和偏置项,均为可学习的参数;x
t
和h
t
‑1是每一层的输...

【专利技术属性】
技术研发人员:李沛陈丽萍苏义炯梁雪松许晓荣
申请(专利权)人:浙江省瑞安市塘下职业中等专业学校
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1