一种子流耦合感知多路径拥塞控制方法及计算机可读介质技术

技术编号：41198713 阅读：4 留言：0更新日期：2024-05-07 22:26

本发明专利技术提出了一种子流耦合感知多路径拥塞控制方法及计算机可读介质。本发明专利技术PPO智能体从异构无线网络环境中获取各子流RTT信息以及链路状态信息，智能体计算各子流的RTT变化趋势，根据此变化趋势对子流耦合特征进行感知，将耦合特征和其他特征拼接得到子流状态；将各子流状态形成的序列作为智能体的状态输入，智能体的策略网络根据状态信息计算动作决策并输入Coupled BBR，以调整各子流下个检测周期的发送速率；智能体在动作执行后将获得奖励，并从环境得到新的状态；PPO智能体使用经验缓冲池中的经验元组训练，更新自身网络参数。本发明专利技术用以增强现有拥塞控制策略对变化网络环境的适应能力和探索能力，在达到更高的吞吐量的同时实现更好的传输公平性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机网络领域，尤其涉及一种子流耦合感知多路径拥塞控制方法及计算机可读介质。

技术介绍

1、随着无线接入技术的迅猛发展，由多种无线网络，如无线局域网(wifi)，移动通信网(4g/5g)，卫星通信网等组成的异构无线网络在无人驾驶、虚拟现实、视频会议场景得到了广泛应用。异构无线网络中的终端节点可以使用同时多个网络接口建立多条子流并行地进行多路径传输，提高网络通信的吞吐量。

2、多路径拥塞控制算法对网络性能有重要影响。多路径传输中常会出现多条子流经过同一段路径的情况，即耦合子流。己有多路径拥塞控制算法不关心真实的子流耦合情况，部分算法假设所有子流经过不同链路，对每条子流进行独立的拥塞控制。当存在耦合子流与单路径连接竞争时，耦合子流凭借多条子流的优势容易获得更大的拥塞窗口加速度，最终导致多路径连接所获得的带宽大于单路径连接，难以保证网络传输的公平性。部分算法假设所有子流都经过同一链路，即把所有子流综合成一条耦合子流，统一进行拥塞控制，限制多路径连接所有子流拥塞窗口增长的速度之和不超过单路径连接拥塞窗口的增长速度，导致网络链路资源难以得到充分利用，转而降低了多路径传输的吞吐量。此外，传统多路径拥塞控制算法采用相对固定的拥塞控制策略，并不适用于节点频繁移动、网络质量动态变化的复杂异构无线网络环境。

3、因此在复杂异构无线网络环境中进行拥塞控制时，不仅需要不断优化自身拥塞控制策略以适应动态网络环境，同时还需要针对不同状态的子流实施不同的拥塞控制策略。因此有必要研究基于深度强化学习和子流耦合感知的多路径拥塞控制算法。

技术实现思路

1、本专利技术旨在提出一种子流耦合感知多路径拥塞控制方法及计算机可读介质，通过每个监视周期内不同子流传输往返时延(rtt)变化趋势实现对子流耦合状态的感知，并结合coupled bbr的状态轮转机制进一步提高特征感知准确度。将各耦合特征和链路状态特征拼接作为子流特征，以挖掘不同耦合特征子流传输潜力，指导自身充分利用链路资源以提高网络吞吐量。使用lstm网络消除网络噪声，并从历史子流状态中提取时序隐藏信息，输出结果作为深度强化学习智能体的状态输入。智能体采用近端策略优化(ppo)算法更新自身策略网络参数，根据状态输入得到动作决策。针对决策执行的问题，由于动作形式是针对各子流发送增益系数的序列，可直接用于调整coupled bbr的子流发送增益系数，从而改变注入各子流链路的流量以实现多路径传输拥塞控制。

2、本算法分为状态提取、决策制定、动作执行三个阶段。状态提取阶段包括耦合特征感知和链路状态提取两部分。耦合特征感知指从环境中获取rtt数据，计算变化趋势以感知子流的耦合特征。将得到耦合特征与子流反馈的其他链路特征拼接后，生成每个子流程的状态信息。在链路状态提取部分，采用lstm序列消除网络噪声，并从历史状态序列中提取时序隐藏信息，生成新的状态信息。决策生成阶段使用ppo作为智能体的深度强化学习算法，智能体可据输入其策略网络的状态信息调整不同子流的发送增益因子，生成调整后的增益因子序列，称为行动决策。在这个阶段里，智能体通过与环境交互收集经验，学习不同状态下不同子流的拥塞控制策略，从而更新自己的策略网络。在行动执行阶段，使用coupledbbr算法作为执行单元，根据接收到的行动决策调整不同子流的发送速率，通过适时调整数据发送速率以适应链路状态的变化，实现传输拥塞控制。

3、本专利技术提供的一种子流耦合感知多路径拥塞控制方法及计算机可读介质，涉及异构无线网络环境，耦合特征感知，ppo智能体，其特征在于：

4、ppo智能体从异构无线网络环境中获取各子流的rtt信息以及链路状态信息，ppo智能体计算各子流的rtt变化趋势，并从异构无线网络环境中获取实时链路质量特征；

5、根据计算得到的各子流rtt变化趋势对子流耦合特征进行感知将，特征进行拼接得到子流状态；

6、各子流状态形成的序列作为智能体的状态输入，进入决策生成阶段，智能体的策略网络根据此状态信息，计算动作决策；

7、动作决策作为coupled bbr的输入，用于控制各子流下个检测周期的发送速率；

8、智能体在动作执行后将获得奖励，并由环境得到下一个状态；

9、当经验缓冲池被填满后，ppo智能体开始使用历史经验元祖训练，更新自身策略网络和价值网络参数；

10、本专利技术方法具体实现步骤为：

11、步骤1：ppo智能体从异构无线网络环境中获取各子流的rtt信息以及链路状态信息并进入状态提取阶段，ppo智能体计算各子流的rtt变化趋势，并从异构无线网络环境中获取实时链路质量特征；

12、步骤2：根据计算得到的各子流rtt变化趋势，对子流耦合特征进行感知。并将感知得到的耦合特征与链路质量特征进行拼接，得到子流状态；

13、步骤3：将最新子流状态和过去k个时间段内的子流状态一并输入lstm序列中，选择使用均方误差计算损失函数，并使用梯度下降算法更新网络参数，使用adam作为优化器；

14、步骤4：各子流状态形成的序列作为智能体的状态输入，进入决策生成阶段，智能体的策略网络根据此状态信息，计算动作决策；

15、步骤5：动作决策作为coupled bbr的输入，用于控制各子流下个检测周期的发送速率，进而实现异构无线网络环境下的拥塞控制；

16、步骤6：智能体在动作执行后将获得奖励，并由环境得到下一个状态。这些信息和当前状态作何在一起，形成一条经验元组，保存在经验回放缓冲池里；

17、步骤7：当经验缓冲池被填满后，ppo智能体开始使用历史经验元祖训练，更新自身策略网络和价值网络参数；

18、作为优选，步骤1的实现方式：

19、步骤1.1：通过确认数据包的时间戳，根据公式rtt＝tack_back-tack_send，计算各子流往返传输时延yi，j；

20、其中，tack_send是确认包发送的时间戳，tack_back是确认包返回的时间戳，i表示子流序号，j表示反馈数据包序号；

21、步骤1.2：记录监视周期内反馈数据包的平均到达时刻xi，j，并分别计算和

22、随后根据公式计算子流rtt的变化趋势i∈[0，n]，n为子流数量；

23、其中，用来表示反馈数据包的平均到达时间，通过对监视周期内收集到的所有xi，j求平均得到，用来表示平均rtt，通过对监视周期内收集到的所有yi，j求平均得到；

24、步骤1.3：根据传输过程中的实时统计信息，获取各子流链路状态信息，包括吞吐量thr，速率v，丢包率lr，拥塞窗口大小cwnd；

25、步骤1所述实时链路质量特征包括：带宽、发送速率以及丢包率；

26、作为优选，步骤2的实现方式：

27、步骤2.1：将每条子流的g，与kgradientmin作比较，当其值大于kgradientmin时，开始进行子流耦本文档来自技高网...

【技术保护点】

1.一种子流耦合感知多路径拥塞控制方法，其特征在于：

2.根据权利要求1所述的子流耦合感知多路径拥塞控制方法，其特征在于：

3.根据权利要求2所述的子流耦合感知多路径拥塞控制方法，其特征在于：

4.根据权利要求3所述的子流耦合感知多路径拥塞控制方法，其特征在于：

5.根据权利要求4所述的子流耦合感知多路径拥塞控制方法，其特征在于：

6.根据权利要求5所述的子流耦合感知多路径拥塞控制方法，其特征在于：

7.根据权利要求6所述的子流耦合感知多路径拥塞控制方法，其特征在于：

8.根据权利要求7所述的子流耦合感知多路径拥塞控制方法，其特征在于：

9.根据权利要求8所述的子流耦合感知多路径拥塞控制方法，其特征在于：

10.一种计算机可读介质，其特征在于，其存储电子设备执行的计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1-9任一项所述方法的步骤。

【技术特征摘要】

1.一种子流耦合感知多路径拥塞控制方法，其特征在于：

2.根据权利要求1所述的子流耦合感知多路径拥塞控制方法，其特征在于：

3.根据权利要求2所述的子流耦合感知多路径拥塞控制方法，其特征在于：

4.根据权利要求3所述的子流耦合感知多路径拥塞控制方法，其特征在于：

5.根据权利要求4所述的子流耦合感知多路径拥塞控制方法，其特征在于：

6.根据权利要求5所述的子流耦合感知多路径拥塞控制...

【专利技术属性】
技术研发人员：徐彦彦，王炳棋，潘少明，陈世河，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人