一种低轨道卫星网络拥塞控制方法和装置制造方法及图纸

技术编号：39660885 阅读：12 留言：0更新日期：2023-12-11 18:23

本发明专利技术提供一种低轨道卫星网络拥塞控制方法和装置，所述方法包括：在离线状态下，获取网络数据训练集对目标智能体进行强化学习

全部详细技术资料下载

【技术实现步骤摘要】
一种低轨道卫星网络拥塞控制方法和装置

[0001]本专利技术涉及通信
，尤其涉及一种低轨道卫星网络拥塞控制方法和装置
。

技术介绍

[0002]随着多接口设备的发展，多路径传输控制协议
(MPTCP)
变得越来越重要
。MPTCP
通过将发送的流量划分为更多的子流，并为每个子流建立单独的端到端会话，然后远程将接收到的子流重新整合为单个流
。
尤其在低地球轨道
(low earth orbit
，
LEO)
卫星网络领域，
MPTCP
被广泛应用
。
然而，
LEO
卫星网络具有高度动态性，包括路由变化
、
延迟变化以及频繁的丢包率波动，这导致现有的
MPTCP
拥塞控制
(congestion control
，
CC)
方案的性能急剧下降
。
因此，为
LEO
卫星网络设计一种能够快速适应新的网络条件的
MPTCP
拥塞控制方案十分必要
。
[0003]现有技术提出了几种针对卫星网络的
MPTCP
拥塞控制方案
。
这些方案需要预先设置合适的往返时间
(RTT)
和带宽阈值，以确定网络中是否发生了拥塞事件
。
与时延相对固定的高轨卫星网络不同，
LEO
卫星网络非常动态，

【技术保护点】

【技术特征摘要】
1.
一种低轨道卫星网络拥塞控制方法，其特征在于，包括：在离线状态下，获取网络数据训练集，所述网络数据训练集为记载各时刻对应状态
、
动作
、
下一时刻状态和奖励值的时序数据；所述状态包括低轨道卫星网络的吞吐
、
拥塞窗口
、
往返时延以及往返时延的平均偏差；所述动作为数值参数并与拥塞窗口构成映射；在强化学习过程中，由智能体预设策略函数执行动作选择，预设目标动作值函数
、
估计动作值函数
、
状态值函数计算预期累计回报；基于所述奖励值
、
所述目标动作值函数和所述估计动作值函数，引入期望分位数回归函数构建
TD
损失函数；基于所述状态值函数和所述目标动作值函数的均方误差，构建第一损失函数；基于所述估计动作值函数和所述目标动作值函数的均方误差，构建第二损失函数；基于所述状态值函数和所述目标动作值函数，构建所述策略函数的优化函数；初始化所述状态值函数
、
所述估计动作值函数
、
所述目标动作值函数以及所述策略函数的参数后，通过梯度下降法最小化所述
TD
损失函数
、
所述第一损失函数
、
所述第二损失函数以及所述策略函数的优化函数，对参数进行更新迭代，得到用于进行低轨道卫星网络拥塞控制的目标智能体；在线状态下，部署所述目标智能体，基于在线状态下目标智能体得到的各时刻对应状态
、
动作
、
下一时刻状态和奖励值的时序数据，更新所述网络数据训练集；利用更新后的所述网络数据训练集，执行所述强化学习过程，并对所述目标智能体的参数进行微调和优化
。2.
根据权利要求1所述的低轨道卫星网络拥塞控制方法，其特征在于，所述动作为数值参数并与拥塞窗口构成映射中，映射关系式为：其中，
c
t
表示
t
时刻的拥塞窗口，
a
t
表示
t
时刻的动作
。3.
根据权利要求1所述的低轨道卫星网络拥塞控制方法，其特征在于，所述奖励值的计算式为：其中，表示子流
i
在
t
时刻的网络吞吐
。4.
根据权利要求1所述的低轨道卫星网络拥塞控制方法，其特征在于，所述
TD
损失函数表达式为：其中，
θ
表示所述
TD
损失函数
L(
θ
)
的参数，
s
表示网络环境的当前状态，
a
表示当前状态下采取的动作，
s
′
表示下一个状态，
a
′
表示下一个状态对应的动作，
D
表示存放所述网络数据训练集的经验回放缓冲区，
E
(s
，
a
，
s
′
，
a
′
)
～
D
表示对所述经验回放缓冲区中的样本进行期望操作，表示期望分位数回归函数，
r(s
，
a)
表示状态
s
下采取动作
a
获得的即时奖励，表示所述目标动作值函数，
Q
θ
(s
，
a)
表示状态
s
下采取动作
a
所对应的
Q
值，即所述估计动作值函数，
γ
表示折...

【专利技术属性】
技术研发人员：张娇，王子涵，刘远捷，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人