基于深度强化学习的MPTCP拥塞控制方法及其存储介质技术

技术编号:29532118 阅读:15 留言:0更新日期:2021-08-03 15:19
本发明专利技术公开一直基于深度强化学习的MPTCP拥塞控制方法及其存储介质,该方法基于神经网络的深度强化学习机制在多种网络环境下造成的拥塞情况中进行学习策略,调整拥塞窗口,最终用来指导数据传输。该方法能够自动化地产生符合不同应用需求的拥塞控制算法,实现端到端的性能优化,解决拥塞控制算法和数据包调度程序的冲突问题。

【技术实现步骤摘要】
基于深度强化学习的MPTCP拥塞控制方法及其存储介质
本专利技术属于新一代通信
,具体涉及基于深度强化学习MPTCP拥塞控制。
技术介绍
在现今的网络中智能终端通常配备有包括WiFi、3G/4G等多种网络接口,以满足设备在多种异构网络中的数据接入要求。然而,基于传统网络架构和终端需求的单路径TCP协议仅依靠一条单一的数据连接通路来传输信息,无法满足多接入场景下的业务需求。为扩展传统TCP以兼容已有网络并适应新的应用场景,IETF工作组提出了多路径TCP(MPTCP)协议,目的是通过重新规划设计传统TCP协议的内部字段,使其能支持多路径数据传输。MPTCP通过透明地使用多个路径极大地提高了应用程序的性能,目前已被华为、亚马逊、苹果等公司广泛应用于数据中心网络、无线网络、异构网络等多个领域。MPTCP的拥塞控制算法和数据包调度程序协同工作来消耗来自不同子路径的池化的网络资源,从而实现同一连接下多条子流数据的高效、可靠传输。然而,由于实际网络部署中异构链特性的差异,现有的多径拥塞控制机制存在缓冲区膨胀、带宽利用率低等性能问题;与此同时,现有各种MPTCP协议实现方案中,拥塞控制算法与数据包调度程序的设计目标常常并不一致,这就可能造成两者无法很好的配合工作,最终使得各自的功能无法充分发挥,进而阻碍整体应用程序性能的提高。拥塞控制算法作为MPTCP设计和实现的重心,近年来受到广泛关注。到目前为止,已经有许多MPTCP拥塞控制算法被提出,以将来自不同子路径的网络资源聚合到一个统一的资源池中,典型代表有Coupled、LIA和BALIA,它们控制注入网络的流量以达到诸如提高吞吐量、拥塞转移等总体目标。最简单的MPTCP拥塞控制算法是让每个子流独立地调整其CWND解耦拥塞控制,但存在不公平和拥塞不平衡的问题。LIA是MPTCP实现的默认拥塞控制算法,它综合考虑丢包率和RTT,在多个传输路径之间进行速率分配,但其性能往往会显得激进,并可能损害其他部分的表现。BALIA则在LIA基础上进行改进,在TCP友好性、响应性和窗口振荡之间取得了良好的平衡。但大部分现有的拥塞窗口调整方法依赖于简单的固定规则,缺乏适应广泛的网络条件和QoS目标的能力,此外这类MPTCP控制机制是被动的和补救的,不能主动优化资源的使用。MPTCP中最严重的性能问题之一是慢速子流造成的队头阻塞问题,具体来说,是指数据传输过程中,接收端在缓冲区有限的情形下因无法容纳更多的数据,而主动通知发送方暂停传输的现象。该问题常见于路径间RTT差异变化很大的场景,对网络吞吐的损害极大。在MPTCP中,接收缓冲区的默认缓冲要求由式1给出,其中假设子流i能够以bwi的全速发送,由于对上层业务的数据交付需要保证连续性和完整性,接收端的数据在最慢路径的数据(即RTTmax)到达之前都必须缓存在缓冲区,待完整接收后才能向应用程序传递连续数据。传统TCP的缓冲区要求由式2确定,而不同子流之间的RTT差异性巨大,RTTmax往往可以比快速链路上大一个数量级,这就造成MPTCP对接收端缓存需求巨大,而在移动设备上缓存相对有限,所以相比之下MPTCP更容易发生队头阻塞。
技术实现思路
本专利技术针对上述现有技术中存在的问题,本专利技术设计了一种基于深度强化学习的MPTCP拥塞控制算法--Partner,来自动化地产生符合不同应用需求的拥塞控制算法,实现端到端的性能优化,解决拥塞控制算法和数据包调度程序的冲突问题。为达到上述目的,本专利技术通过以下方案来实现:提供基于深度强化学习的MPTCP拥塞控制方法,所述方法包括以下步骤:步骤1、提取网络状态,计算得到网络状态的特征属性值;步骤2、对网络应用类型分类,根据网络状态的特征属性值,匹配对应的网络环境类型,针对每一类网络环境设计不同的奖励计算器,计算得到奖励值;步骤3、AI拥塞窗口估计器通过奖励值以及网络状态的特征属性值计算得到拥塞窗口的估计值;步骤4、发送端根据拥塞窗口的估计值进行调整。进一步的,所述步骤2具体为:将神经网络部署在包含若干种不同网络环境形成的仿真环境中;让神经网络与各网络环境所对应的奖励函数指导下与环境进行随机交互,并调整拥塞窗口以获得最大化预期的累积奖励,得到收敛的神经网络;将训练成熟的神经网络部署在真实网络环境内指导数据传输。更进一步的,所述不同网络环境包含以下几种:吞吐量密集型网络,延迟敏感型网络,恒比特率CBR型网络以及子路径之间的负载均衡型网络。进一步的,在吞吐量密集型网络情况下,奖励函数为:在式(3)中,在时间片t之内从各个子流得到的吞吐量平均值,为从各个子流得到的在第t个时间片内的数据包丢失数量汇总而得平均值,即和其中α在表示相应度量的重要性,根据具体目标进行调整的超参数;表示子流i在时间片t之中获得的吞吐量,而表示子流i在时间片t之中丢失的数据包的数量。进一步的,在延迟敏感型网络情况下,奖励函数为:其中,在时间片t之内从各个子流得到的吞吐(x)、时延(d)和丢包(l)的汇总而得的平均值;β和τ为根据实际环境而进行调整的超参数。进一步的,在恒比特率CBR型网络情况下,奖励函数为:在式(5)中,在时间片t之内从各个子流得到的吞吐量平均值,表示子流i在时间片t之中获得的吞吐量;gbw是所述恒比特率CBR型网络需要的保证带宽;sigmoid函数是经典的阶跃函数;η和μ为根据实际环境而进行调整的超参数,来量化用户对不同网卡的偏好,通过调整η和μ的值来呈现不同的偏好。进一步的,在子路径之间的负载均衡型网络情况下,奖励函数为:在式(6)中,在时间片t之内从各个子流得到的吞吐量平均值,为从各个子流得到的在第t个时间片内的数据包丢失数量汇总而得平均值,即和表示子流i在时间片t之中获得的吞吐量,而表示子流i在时间片t之中丢失的数据包的数量。作为本申请的一种优选实施方案,当检测到一个网络流量状态时,采用p-greedy方法进行决策:以(1-p)的概率执行LIA算法,p的概率执行随机算法,p为进行神经网络随机探索的概率,(1-p)为以固定的LIA算法进行探索的概率;在学习初期,p值接近于0,后期p值增大。在仿真环境中,扩大仿真环境的动态变化范围,让神经网络在训练的过程中尽可能多地在不同的环境设置下都可以收敛。本申请还提供一种计算机可读存储介质,所述存储介质中含有上述基于深度强化学习MPTCP拥塞控制方法。本专利技术具有如下有益效果:(1)模型泛化,为4种最常见的网络环境提供了奖励函数供神经网络进行学习,解决了常见网络环境中的拥塞状况。(2)与现有的调度器联合使用,可以有效地避免HoL问题。附图说明图1为本专利技术方法所应用的系统架构图。具体实施方式下面结合具体实施例以及附图对本专利技术设计方法进行详细阐述。如图1所示本文档来自技高网
...

【技术保护点】
1.基于深度强化学习的MPTCP拥塞控制方法,其特征在于,所述方法包括以下步骤:/n步骤1、提取网络状态,计算得到网络状态的特征属性值;/n步骤2、对网络应用类型分类,根据网络状态的特征属性值,匹配对应的网络环境类型,针对每一类网络环境设计不同的奖励计算器,计算得到奖励值;/n步骤3、AI拥塞窗口估计器通过奖励值以及网络状态的特征属性值计算得到拥塞窗口的估计值;/n步骤4、发送端根据拥塞窗口的估计值进行调整。/n

【技术特征摘要】
1.基于深度强化学习的MPTCP拥塞控制方法,其特征在于,所述方法包括以下步骤:
步骤1、提取网络状态,计算得到网络状态的特征属性值;
步骤2、对网络应用类型分类,根据网络状态的特征属性值,匹配对应的网络环境类型,针对每一类网络环境设计不同的奖励计算器,计算得到奖励值;
步骤3、AI拥塞窗口估计器通过奖励值以及网络状态的特征属性值计算得到拥塞窗口的估计值;
步骤4、发送端根据拥塞窗口的估计值进行调整。


2.根据权利要求1所述的基于深度强化学习的MPTCP拥塞控制方法,其特征在于,所述步骤2具体为:
将神经网络部署在包含若干种不同网络环境形成的仿真环境中;
让神经网络与各网络环境所对应的奖励函数指导下与环境进行随机交互,并调整拥塞窗口以获得最大化预期的累积奖励值,得到收敛的神经网络,奖励值驱动神经网络演化出不同的拥塞控制策略;
将训练成熟的神经网络部署在真实网络环境内指导数据传输。


3.根据权利要求2所述的基于深度强化学习的MPTCP拥塞控制方法,其特征在于,所述不同网络环境包含以下几种:
吞吐量密集型网络,延迟敏感型网络,恒比特率CBR型网络以及子路径之间的负载均衡型网络。


4.根据权利要求3所述的基于深度强化学习的MPTCP拥塞控制方法,其特征在于,在吞吐量密集型网络情况下,奖励函数为:



在式(3)中,为在时间片t之内从各个子流得到的吞吐量平均值,为从各个子流得到的在第t个时间片内的数据包丢失数量汇总而得平均值,即和其中α表示相应度量的重要性,根据具体目标进行调整的超参数;

表示子流i在时间片t之中获得的吞吐量,而表示子流i在时间片t之中丢失的数据包的数量。


5.根据权利要求3所述的基于深度强化学习的MPTCP拥塞控制方法,其特征在于,在延迟敏感型网络情况下,奖励函数为:


<...

【专利技术属性】
技术研发人员:张娇黄程远黄韬刘韵洁
申请(专利权)人:网络通信与安全紫金山实验室北京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1