天地一体化信息网络智能拥塞控制方法、系统及介质技术方案

技术编号:33438786 阅读:64 留言:0更新日期:2022-05-19 00:26
本发明专利技术提供一种天地一体化信息网络智能拥塞控制方法、系统及介质,包括:基于多目标强化学习的多目标策略模型训练方法,训练单个多目标策略模型,根据不同偏好设置,输出不同拥塞控制策略;基于有监督学习的偏好自适应模型训练方法,基于最优策略构建偏好自适应模型训练集,训练偏好自适应模型,根据环境状态序列识别网络环境,选择合适偏好;智能拥塞控制系统,发送端根据ACK统计网络状态和网络状态序列,先输入至偏好自适应模型,得到该环境适用的偏好,再将偏好和网络状态输入至多目标策略模型,调整发送端发送速率。本发明专利技术能够识别网络环境,自适应调整拥塞控制策略,应对异构、复杂的天地一体化网络环境,保障用户在异构网络中端到端的传输质量。中端到端的传输质量。中端到端的传输质量。

【技术实现步骤摘要】
天地一体化信息网络智能拥塞控制方法、系统及介质


[0001]本专利技术涉及天地一体化信息管理
,具体地,涉及一种天地一体化信息网络智能拥塞控制方法、系统及介质。

技术介绍

[0002]在异构的天地一体化网络中,同一个节点将通过多样的网络环境与不同对端通信。这里,多样的网络环境包括了不同轨道的卫星网络、地面网络以及蜂窝网络等。这些网络环境的链路质量(即链路随机丢包率、端到端时延、可用带宽)均有较大差异。传输层自适应拥塞控制通过感知网络状态,动态调整每条数据流的发送速率,是保障用户在天地一体化网络不同环境下传输质量的关键技术。
[0003]现有拥塞控制方法可分为基于规则的方法和基于学习的方法。其中基于规则的方法将预定义事件或信号(例如,数据包丢失、延迟变化)与发送速率调整方式绑定,不能普适于所有类型的网络环境。例如,TCP Cubic等基于丢包的方法将数据包丢失视为拥塞的标志,这些策略不适用于链路质量较差、随即丢包率较高的网络环境。现有的基于学习的方法只能在特定的网络环境中达到较高的性能。其中一个最主要的原因是它们均采用固定的、经验性的偏好将优化目标构造成单个奖励函数(强化学习,如Aurora、MVFST

RL等)或效益函数(在线学习,如PCC、Vivace等),然后在基于此调整发送速率。研究人员Arun等(Venkat Arun,Hari Balakrishnan.Copa:Practical Delay

Based Congestion Control for the Internet.Proceedings of the Applied Networking Research Workshop)提出了一种基于队列时延的拥塞控制方法Copa,该方法首先探测当前队列时延d
q
,然后将发送速率调整为1/(δd
q
),其中δ为系统参数。该方法不适用于队列较短的网络。Dong等(Mo Dong,Qingxi Li,Doron Zarchy,P.Brighten Godfrey,Michael Schapira.PCC:Re

architecting Congestion Control for Consistent High Performance.in USENIX NSDI 2015)提出了一种基于在线学习的拥塞控制方法PCC,该方法采用固定的偏好设置对发送速率、时延进行加权计算效益,并根据效益变化对发送速率进行微调,这种采用固定偏好的方法无法普适于所有网络环境,不适用于异构的天地一体化网络。此外,Jay等(Nathan Jay,Noga H.Rotman,P.Brighten Godfrey,Michael Schapira,and Aviv Tamar.Internet Congestion Control via Deep Reinforcement Learning.In NIPS 2018)提出了一种基于强化学习的拥塞控制方法,该方法采用固定偏好设置,将吞吐、时延以及丢包率加权构造奖励函数,训练强化学习模型调整发送端发送窗口大小,与PCC方法类似,这种采用固定偏好的方法不适用于异构的天地一体化网络。
[0004]公开号为CN110620737A的专利技术专利,公开了一种基于延迟的自适应拥塞控制方法,根据排队延迟和窗口大小,在发送端判断网络是否拥塞,并根据拥塞情况调节拥塞窗口。拥塞窗口每一次的调节幅度为V*θ*δ,其中δ是常数,V用于加快拥塞控制算法的收敛速度,θ是根据排队延迟周期性抖动的过程中是否到达过0点的情况而调整的参数。该参数用于控制当前网络环境中的调窗幅度,以解决长期排队延迟为0的情况下链路利用率降低和
排队延迟长期不为0又无法测量到最小往返延迟的问题。该专利只考虑了时延,不适用于缓冲区较小的网络环境。
[0005]公开号为CN102204182B的专利技术专利,公开了一种数据传输的拥塞控制方法及装置,在数据传输过程中统计丢包率及丢包率的变化;以所述丢包率及丢包率的变化作为调节因子进行拥塞控制。该专利在数据传输过程中根据丢包率调整发送速率,不适用于链路随机丢包率差异较大的异构天地一体化网络。

技术实现思路

[0006]针对现有技术中的缺陷,本专利技术提供一种天地一体化信息网络智能拥塞控制方法、系统及介质。
[0007]根据本专利技术提供的一种天地一体化信息网络智能拥塞控制方法、系统及介质,所述方案如下:
[0008]第一方面,提供了一种天地一体化信息网络智能拥塞控制方法,所述方法包括:
[0009]步骤S1:将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程;
[0010]步骤S2:搭建并行多目标强化学习训练框架,创建全局演员

评论家深度神经网络和N个分布式训练代理,每个代理均采用与全局演员

评论家深度神经网络相同的神经网络,并在随机产生的网络环境中进行M轮训练,在每一轮训练后更新并同步全局神经网络,全局神经网络为最终多目标策略模型;
[0011]步骤S3:训练环境中在已知可用带宽的情况下构建最优拥塞控制策略,根据策略相似度模型,找出各个训练环境中与最优拥塞控制策略相似度最高的策略所对应的偏好,并将该偏好称为最优偏好,保存环境中采样的状态序列和偏好之间的对应关系,构建偏好自适应模型训练集;
[0012]步骤S4:以偏好自适应模型训练集为输入,基于有监督机器学习方法,训练偏好自适应模型,该偏好自适应模型以网络状态序列作为输入,识别网络环境,自动选择该网络环境下的最优偏好;
[0013]步骤S5:将多目标策略模型和偏好自适应模型部署在设备协议栈传输层,设备根据ACK统计网络状态,将网络状态序列输入偏好自适应模型获取合适偏好,将网络状态和偏好同时输入多目标策略模型获取发送速率的调整方法,并调整发送端发送速率。
[0014]优选地,所述步骤S1具体包括:将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程Ω;
[0015]其中,为状态空间,包含发送端根据ACK统计的状态数据;为动作空间,包含对发送速率的调整方式;为马尔科夫转移模型,描述之前状态在特定动作后转移到下一状态的概率;为多维优化目标;Ω为偏好空间,包含优化目标的权重;
[0016]所述延迟动作在马尔科夫转移模型中,当前状态受到上一状态、上一发送速率以及再之前的状态和发送速率影响。
[0017]优选地,所述步骤S2包括:演员

评论家深度神经网络包含演员网络和评论家网络;
[0018]所述演员网络和评论家网络均以状态和偏好作为输入;其中,演员网络输出每个动作对应的概率分布,评论家网络输出每个动作的效用值;
[0019]所述演员网络和评论家网络各有独立的两个全连接层,同时共享三个全连接层,每个层都使用整流线性激活单元从原始输入中提取特征。
[0020]优选地,所述步骤S2中每个多目标强化学习代理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种天地一体化信息网络智能拥塞控制方法,其特征在于,包括:步骤S1:将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程;步骤S2:搭建并行多目标强化学习训练框架,创建全局演员

评论家深度神经网络和N个分布式训练代理,每个代理均采用与全局演员

评论家深度神经网络相同的神经网络,并在随机产生的网络环境中进行M轮训练,在每一轮训练后更新并同步全局神经网络,全局神经网络为最终多目标策略模型;步骤S3:训练环境中在已知可用带宽的情况下构建最优拥塞控制策略,根据策略相似度模型,找出各个训练环境中与最优拥塞控制策略相似度最高的策略所对应的偏好,并将该偏好称为最优偏好,保存环境中采样的状态序列和偏好之间的对应关系,构建偏好自适应模型训练集;步骤S4:以偏好自适应模型训练集为输入,基于有监督机器学习方法,训练偏好自适应模型,该偏好自适应模型以网络状态序列作为输入,识别网络环境,自动选择该网络环境下的最优偏好;步骤S5:将多目标策略模型和偏好自适应模型部署在设备协议栈传输层,设备根据ACK统计网络状态,将网络状态序列输入偏好自适应模型获取合适偏好,将网络状态和偏好同时输入多目标策略模型获取发送速率的调整方法,并调整发送端发送速率。2.根据权利要求1所述的天地一体化信息网络智能拥塞控制方法,其特征在于,所述步骤S1具体包括:将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程Ω;其中,为状态空间,包含发送端根据ACK统计的状态数据;为动作空间,包含对发送速率的调整方式;为马尔科夫转移模型,描述之前状态在特定动作后转移到下一状态的概率;为多维优化目标;Ω为偏好空间,包含优化目标的权重;所述延迟动作在马尔科夫转移模型中,当前状态受到上一状态、上一发送速率以及再之前的状态和发送速率影响。3.根据权利要求1所述的天地一体化信息网络智能拥塞控制方法,其特征在于,所述步骤S2包括:演员

评论家深度神经网络包含演员网络和评论家网络;所述演员网络和评论家网络均以状态和偏好作为输入;其中,演员网络输出每个动作对应的概率分布,评论家网络输出每个动作的效用值;所述演员网络和评论家网络各有独立的两个全连接层,同时共享三个全连接层,每个层都使用整流线性激活单元从原始输入中提取特征。4.根据权利要求1所述的天地一体化信息网络智能拥塞控制方法,其特征在于,所述步骤S2中每个多目标强化学习代理在随机产生的网络环境中进行M轮训练包含以下步骤:步骤S2.1:初始化当前迭代次数i=0,定义网络环境带宽范围、时延范围、丢包率范围、队列长度范围以及偏好范围,预设总训练迭代次数M;步骤S2.2:开始新一轮的训练迭代,将代理的神经网络与全局神经网络同步;步骤S2.3:随机采样带宽、时延、丢包率、队列长度以及偏好ω,并使用网络模拟器创建对应网络环境;步骤S2.4:采用提前终止策略确定当前环境交互次数,即根据训练迭代次数,逐渐增长与环境交互次数,定义γ
a
为初始步长,γ
b
为步长增长速度,则与环境的交互次数为N
step
=γ
a
+(i/γ
b
);
步骤S2.5:代理与环境交互N
step
次,在每一次交互过程中,发送端根据ACK统计状态,并将状态和偏好输入本地深度神经网络,生成预测值,并基于Bellman方程计算策略的目标值,然后计算目标值和神经网络预测值的均方误差,并基于同伦优化构建损失函数,计算梯度更新本地神经网络;步骤S2.6:代...

【专利技术属性】
技术研发人员:唐飞龙
申请(专利权)人:苏州全时空信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1