【技术实现步骤摘要】
一种低轨道卫星网络拥塞控制方法和装置
[0001]本专利技术涉及通信
,尤其涉及一种低轨道卫星网络拥塞控制方法和装置
。
技术介绍
[0002]随着多接口设备的发展,多路径传输控制协议
(MPTCP)
变得越来越重要
。MPTCP
通过将发送的流量划分为更多的子流,并为每个子流建立单独的端到端会话,然后远程将接收到的子流重新整合为单个流
。
尤其在低地球轨道
(low earth orbit
,
LEO)
卫星网络领域,
MPTCP
被广泛应用
。
然而,
LEO
卫星网络具有高度动态性,包括路由变化
、
延迟变化以及频繁的丢包率波动,这导致现有的
MPTCP
拥塞控制
(congestion control
,
CC)
方案的性能急剧下降
。
因此,为
LEO
卫星网络设计一种能够快速适应新的网络条件的
MPTCP
拥塞控制方案十分必要
。
[0003]现有技术提出了几种针对卫星网络的
MPTCP
拥塞控制方案
。
这些方案需要预先设置合适的往返时间
(RTT)
和带宽阈值,以确定网络中是否发生了拥塞事件
。
与时延相对固定的高轨卫星网络不同,
LEO
卫星网络非常动态,
【技术保护点】
【技术特征摘要】
1.
一种低轨道卫星网络拥塞控制方法,其特征在于,包括:在离线状态下,获取网络数据训练集,所述网络数据训练集为记载各时刻对应状态
、
动作
、
下一时刻状态和奖励值的时序数据;所述状态包括低轨道卫星网络的吞吐
、
拥塞窗口
、
往返时延以及往返时延的平均偏差;所述动作为数值参数并与拥塞窗口构成映射;在强化学习过程中,由智能体预设策略函数执行动作选择,预设目标动作值函数
、
估计动作值函数
、
状态值函数计算预期累计回报;基于所述奖励值
、
所述目标动作值函数和所述估计动作值函数,引入期望分位数回归函数构建
TD
损失函数;基于所述状态值函数和所述目标动作值函数的均方误差,构建第一损失函数;基于所述估计动作值函数和所述目标动作值函数的均方误差,构建第二损失函数;基于所述状态值函数和所述目标动作值函数,构建所述策略函数的优化函数;初始化所述状态值函数
、
所述估计动作值函数
、
所述目标动作值函数以及所述策略函数的参数后,通过梯度下降法最小化所述
TD
损失函数
、
所述第一损失函数
、
所述第二损失函数以及所述策略函数的优化函数,对参数进行更新迭代,得到用于进行低轨道卫星网络拥塞控制的目标智能体;在线状态下,部署所述目标智能体,基于在线状态下目标智能体得到的各时刻对应状态
、
动作
、
下一时刻状态和奖励值的时序数据,更新所述网络数据训练集;利用更新后的所述网络数据训练集,执行所述强化学习过程,并对所述目标智能体的参数进行微调和优化
。2.
根据权利要求1所述的低轨道卫星网络拥塞控制方法,其特征在于,所述动作为数值参数并与拥塞窗口构成映射中,映射关系式为:其中,
c
t
表示
t
时刻的拥塞窗口,
a
t
表示
t
时刻的动作
。3.
根据权利要求1所述的低轨道卫星网络拥塞控制方法,其特征在于,所述奖励值的计算式为:其中,表示子流
i
在
t
时刻的网络吞吐
。4.
根据权利要求1所述的低轨道卫星网络拥塞控制方法,其特征在于,所述
TD
损失函数表达式为:其中,
θ
表示所述
TD
损失函数
L(
θ
)
的参数,
s
表示网络环境的当前状态,
a
表示当前状态下采取的动作,
s
′
表示下一个状态,
a
′
表示下一个状态对应的动作,
D
表示存放所述网络数据训练集的经验回放缓冲区,
E
(s
,
a
,
s
′
,
a
′
)
~
D
表示对所述经验回放缓冲区中的样本进行期望操作,表示期望分位数回归函数,
r(s
,
a)
表示状态
s
下采取动作
a
获得的即时奖励,表示所述目标动作值函数,
Q
θ
(s
,
a)
表示状态
s
下采取动作
a
所对应的
Q
值,即所述估计动作值函数,
γ
表示折...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。