一种低轨道卫星网络拥塞控制方法和装置制造方法及图纸

技术编号:39660885 阅读:12 留言:0更新日期:2023-12-11 18:23
本发明专利技术提供一种低轨道卫星网络拥塞控制方法和装置,所述方法包括:在离线状态下,获取网络数据训练集对目标智能体进行强化学习

【技术实现步骤摘要】
一种低轨道卫星网络拥塞控制方法和装置


[0001]本专利技术涉及通信
,尤其涉及一种低轨道卫星网络拥塞控制方法和装置


技术介绍

[0002]随着多接口设备的发展,多路径传输控制协议
(MPTCP)
变得越来越重要
。MPTCP
通过将发送的流量划分为更多的子流,并为每个子流建立单独的端到端会话,然后远程将接收到的子流重新整合为单个流

尤其在低地球轨道
(low earth orbit

LEO)
卫星网络领域,
MPTCP
被广泛应用

然而,
LEO
卫星网络具有高度动态性,包括路由变化

延迟变化以及频繁的丢包率波动,这导致现有的
MPTCP
拥塞控制
(congestion control

CC)
方案的性能急剧下降

因此,为
LEO
卫星网络设计一种能够快速适应新的网络条件的
MPTCP
拥塞控制方案十分必要

[0003]现有技术提出了几种针对卫星网络的
MPTCP
拥塞控制方案

这些方案需要预先设置合适的往返时间
(RTT)
和带宽阈值,以确定网络中是否发生了拥塞事件

与时延相对固定的高轨卫星网络不同,
LEO
卫星网络非常动态,链路切换频繁,每次切换都会引起链路时延的变化,因此难以设置合适的阈值

[0004]除了预设阈值的方法外,还有经典的
MPTCP
拥塞控制算法和基于学习的
MPTCP
拥塞控制算法

经典的算法大多是单路径
TCP
算法在多路径上扩展,无法适应不断变换的网络场景和对随机丢包的错误反应等,从而难以实现一致的高吞吐量和适应性

基于学习的算法可以提供比经典算法更高的性能,然而这些算法存在着迁移的问题,即在新的网络环境中它们的性能会大幅下降,不能适应快速变化的网络状况


技术实现思路

[0005]鉴于此,本专利技术实施例提供了一种低轨道卫星网络拥塞控制方法和装置,以消除或改善现有传输控制协议无法适应低轨道卫星的高度动态网络的问题

[0006]本专利技术的一个方面提供了一种低轨道卫星网络拥塞控制方法,该方法包括以下步骤:
[0007]在离线状态下,获取网络数据训练集,所述网络数据训练集为记载各时刻对应状态

动作

下一时刻状态和奖励值的时序数据;所述状态包括低轨道卫星网络的吞吐

拥塞窗口

往返时延以及往返时延的平均偏差;所述动作为数值参数并与拥塞窗口构成映射;
[0008]在强化学习过程中,由智能体预设策略函数执行动作选择,预设目标动作值函数

估计动作值函数

状态值函数计算预期累计回报;基于所述奖励值

所述目标动作值函数和所述估计动作值函数,引入期望分位数回归函数构建
TD
损失函数;基于所述状态值函数和所述目标动作值函数的均方误差,构建第一损失函数;基于所述估计动作值函数和所述目标动作值函数的均方误差,构建第二损失函数;基于所述状态值函数和所述目标动作值函数,构建所述策略函数的优化函数;
[0009]初始化所述状态值函数

所述估计动作值函数

所述目标动作值函数以及所述策
略函数的参数后,通过梯度下降法最小化所述
TD
损失函数

所述第一损失函数

所述第二损失函数以及所述策略函数的优化函数,对参数进行更新迭代,得到用于进行低轨道卫星网络拥塞控制的目标智能体;
[0010]在线状态下,部署所述目标智能体,基于在线状态下目标智能体得到的各时刻对应状态

动作

下一时刻状态和奖励值的时序数据,更新所述网络数据训练集;
[0011]利用更新后的所述网络数据训练集,执行所述强化学习过程,并对所述目标智能体的参数进行微调和优化

[0012]在本专利技术的一些实施例中,所述动作为数值参数并与拥塞窗口构成映射中,映射关系式为:
[0013][0014]其中,
c
t
表示
t
时刻的拥塞窗口,
a
t
表示
t
时刻的动作

[0015]在本专利技术的一些实施例中,所述奖励值的计算式为:
[0016][0017]其中,表示子流
i

t
时刻的网络吞吐

[0018]在本专利技术的一些实施例中,所述
TD
损失函数表达式为:
[0019][0020]其中,
θ
表示所述
TD
损失函数
L(
θ
)
的参数,
s
表示网络环境的当前状态,
a
表示当前状态下采取的动作,
s

表示下一个状态,
a

表示下一个状态对应的动作,
D
表示存放所述网络数据训练集的经验回放缓冲区,
E
(s

a

s


a

)

D
表示对所述经验回放缓冲区中的样本进行期望操作,表示期望分位数回归函数,
γ
表示折扣因子,
r(s

a)
表示状态
s
下采取动作
a
获得的即时奖励,表示所述目标动作值函数,
Q
θ
(s

a)
表示状态
s
下采取动作
a
所对应的
Q
值,即所述估计动作值函数

[0021]在本专利技术的一些实施例中,所述第一损失函数的计算式为:
[0022][0023]其中,表示向所述状态值函数逼近的所述第一损失函数,表示所述第一损失函数的参数,
s
表示网络环境的当前状态,
a
表示当前状态下采取的动作,表示所述目标动作值函数,表示期望分位数回归函数,表示所述状态值函数,
D
表示存放所述网络数据训练集的经验回放缓冲区,
E(
s

a)

D
表示对所述经验回放缓冲区中的样本进行期望操作
...

【技术保护点】

【技术特征摘要】
1.
一种低轨道卫星网络拥塞控制方法,其特征在于,包括:在离线状态下,获取网络数据训练集,所述网络数据训练集为记载各时刻对应状态

动作

下一时刻状态和奖励值的时序数据;所述状态包括低轨道卫星网络的吞吐

拥塞窗口

往返时延以及往返时延的平均偏差;所述动作为数值参数并与拥塞窗口构成映射;在强化学习过程中,由智能体预设策略函数执行动作选择,预设目标动作值函数

估计动作值函数

状态值函数计算预期累计回报;基于所述奖励值

所述目标动作值函数和所述估计动作值函数,引入期望分位数回归函数构建
TD
损失函数;基于所述状态值函数和所述目标动作值函数的均方误差,构建第一损失函数;基于所述估计动作值函数和所述目标动作值函数的均方误差,构建第二损失函数;基于所述状态值函数和所述目标动作值函数,构建所述策略函数的优化函数;初始化所述状态值函数

所述估计动作值函数

所述目标动作值函数以及所述策略函数的参数后,通过梯度下降法最小化所述
TD
损失函数

所述第一损失函数

所述第二损失函数以及所述策略函数的优化函数,对参数进行更新迭代,得到用于进行低轨道卫星网络拥塞控制的目标智能体;在线状态下,部署所述目标智能体,基于在线状态下目标智能体得到的各时刻对应状态

动作

下一时刻状态和奖励值的时序数据,更新所述网络数据训练集;利用更新后的所述网络数据训练集,执行所述强化学习过程,并对所述目标智能体的参数进行微调和优化
。2.
根据权利要求1所述的低轨道卫星网络拥塞控制方法,其特征在于,所述动作为数值参数并与拥塞窗口构成映射中,映射关系式为:其中,
c
t
表示
t
时刻的拥塞窗口,
a
t
表示
t
时刻的动作
。3.
根据权利要求1所述的低轨道卫星网络拥塞控制方法,其特征在于,所述奖励值的计算式为:其中,表示子流
i

t
时刻的网络吞吐
。4.
根据权利要求1所述的低轨道卫星网络拥塞控制方法,其特征在于,所述
TD
损失函数表达式为:其中,
θ
表示所述
TD
损失函数
L(
θ
)
的参数,
s
表示网络环境的当前状态,
a
表示当前状态下采取的动作,
s

表示下一个状态,
a

表示下一个状态对应的动作,
D
表示存放所述网络数据训练集的经验回放缓冲区,
E
(s

a

s


a

)

D
表示对所述经验回放缓冲区中的样本进行期望操作,表示期望分位数回归函数,
r(s

a)
表示状态
s
下采取动作
a
获得的即时奖励,表示所述目标动作值函数,
Q
θ
(s

a)
表示状态
s
下采取动作
a
所对应的
Q
值,即所述估计动作值函数,
γ
表示折...

【专利技术属性】
技术研发人员:张娇王子涵刘远捷
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1