天地一体化信息网络智能拥塞控制方法、系统及介质技术方案

技术编号：33438786 阅读：65 留言：0更新日期：2022-05-19 00:26

本发明专利技术提供一种天地一体化信息网络智能拥塞控制方法、系统及介质，包括：基于多目标强化学习的多目标策略模型训练方法，训练单个多目标策略模型，根据不同偏好设置，输出不同拥塞控制策略；基于有监督学习的偏好自适应模型训练方法，基于最优策略构建偏好自适应模型训练集，训练偏好自适应模型，根据环境状态序列识别网络环境，选择合适偏好；智能拥塞控制系统，发送端根据ACK统计网络状态和网络状态序列，先输入至偏好自适应模型，得到该环境适用的偏好，再将偏好和网络状态输入至多目标策略模型，调整发送端发送速率。本发明专利技术能够识别网络环境，自适应调整拥塞控制策略，应对异构、复杂的天地一体化网络环境，保障用户在异构网络中端到端的传输质量。中端到端的传输质量。中端到端的传输质量。

全部详细技术资料下载

【技术实现步骤摘要】
天地一体化信息网络智能拥塞控制方法、系统及介质

[0001]本专利技术涉及天地一体化信息管理
，具体地，涉及一种天地一体化信息网络智能拥塞控制方法、系统及介质。

技术介绍

[0002]在异构的天地一体化网络中，同一个节点将通过多样的网络环境与不同对端通信。这里，多样的网络环境包括了不同轨道的卫星网络、地面网络以及蜂窝网络等。这些网络环境的链路质量(即链路随机丢包率、端到端时延、可用带宽)均有较大差异。传输层自适应拥塞控制通过感知网络状态，动态调整每条数据流的发送速率，是保障用户在天地一体化网络不同环境下传输质量的关键技术。
[0003]现有拥塞控制方法可分为基于规则的方法和基于学习的方法。其中基于规则的方法将预定义事件或信号(例如，数据包丢失、延迟变化)与发送速率调整方式绑定，不能普适于所有类型的网络环境。例如，TCP Cubic等基于丢包的方法将数据包丢失视为拥塞的标志，这些策略不适用于链路质量较差、随即丢包率较高的网络环境。现有的基于学习的方法只能在特定的网络环境中达到较高的性能。其中一个最主要的原因是它们均采用固定的、经验性的偏好将优化目标构造成单个奖励函数(强化学习，如Aurora、MVFST
‑
RL等)或效益函数(在线学习，如PCC、Vivace等)，然后在基于此调整发送速率。研究人员Arun等(Venkat Arun,Hari Balakrishnan.Copa:Practical Delay
‑
Based Congestion Control for t...

【技术保护点】

【技术特征摘要】
1.一种天地一体化信息网络智能拥塞控制方法，其特征在于，包括：步骤S1：将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程；步骤S2：搭建并行多目标强化学习训练框架，创建全局演员
‑
评论家深度神经网络和N个分布式训练代理，每个代理均采用与全局演员
‑
评论家深度神经网络相同的神经网络，并在随机产生的网络环境中进行M轮训练，在每一轮训练后更新并同步全局神经网络，全局神经网络为最终多目标策略模型；步骤S3：训练环境中在已知可用带宽的情况下构建最优拥塞控制策略，根据策略相似度模型，找出各个训练环境中与最优拥塞控制策略相似度最高的策略所对应的偏好，并将该偏好称为最优偏好，保存环境中采样的状态序列和偏好之间的对应关系，构建偏好自适应模型训练集；步骤S4：以偏好自适应模型训练集为输入，基于有监督机器学习方法，训练偏好自适应模型，该偏好自适应模型以网络状态序列作为输入，识别网络环境，自动选择该网络环境下的最优偏好；步骤S5：将多目标策略模型和偏好自适应模型部署在设备协议栈传输层，设备根据ACK统计网络状态，将网络状态序列输入偏好自适应模型获取合适偏好，将网络状态和偏好同时输入多目标策略模型获取发送速率的调整方法，并调整发送端发送速率。2.根据权利要求1所述的天地一体化信息网络智能拥塞控制方法，其特征在于，所述步骤S1具体包括：将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程Ω；其中，为状态空间，包含发送端根据ACK统计的状态数据；为动作空间，包含对发送速率的调整方式；为马尔科夫转移模型，描述之前状态在特定动作后转移到下一状态的概率；为多维优化目标；Ω为偏好空间，包含优化目标的权重；所述延迟动作在马尔科夫转移模型中，当前状态受到上一状态、上一发送速率以及再之前的状态和发送速率影响。3.根据权利要求1所述的天地一体化信息网络智能拥塞控制方法，其特征在于，所述步骤S2包括：演员
‑
评论家深度神经网络包含演员网络和评论家网络；所述演员网络和评论家网络均以状态和偏好作为输入；其中，演员网络输出每个动作对应的概率分布，评论家网络输出每个动作的效用值；所述演员网络和评论家网络各有独立的两个全连接层，同时共享三个全连接层，每个层都使用整流线性激活单元从原始输入中提取特征。4.根据权利要求1所述的天地一体化信息网络智能拥塞控制方法，其特征在于，所述步骤S2中每个多目标强化学习代理在随机产生的网络环境中进行M轮训练包含以下步骤：步骤S2.1：初始化当前迭代次数i＝0，定义网络环境带宽范围、时延范围、丢包率范围、队列长度范围以及偏好范围，预设总训练迭代次数M；步骤S2.2：开始新一轮的训练迭代，将代理的神经网络与全局神经网络同步；步骤S2.3：随机采样带宽、时延、丢包率、队列长度以及偏好ω，并使用网络模拟器创建对应网络环境；步骤S2.4：采用提前终止策略确定当前环境交互次数，即根据训练迭代次数，逐渐增长与环境交互次数，定义γ
a
为初始步长，γ
b
为步长增长速度，则与环境的交互次数为N
step
＝γ
a
+(i/γ
b
)；
步骤S2.5：代理与环境交互N
step
次，在每一次交互过程中，发送端根据ACK统计状态，并将状态和偏好输入本地深度神经网络，生成预测值，并基于Bellman方程计算策略的目标值，然后计算目标值和神经网络预测值的均方误差，并基于同伦优化构建损失函数，计算梯度更新本地神经网络；步骤S2.6：代...

【专利技术属性】
技术研发人员：唐飞龙，
申请(专利权)人：苏州全时空信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人