基于深度强化学习的MPTCP拥塞控制方法及其存储介质技术

技术编号：29532118 阅读：15 留言：0更新日期：2021-08-03 15:19

本发明专利技术公开一直基于深度强化学习的MPTCP拥塞控制方法及其存储介质，该方法基于神经网络的深度强化学习机制在多种网络环境下造成的拥塞情况中进行学习策略，调整拥塞窗口，最终用来指导数据传输。该方法能够自动化地产生符合不同应用需求的拥塞控制算法，实现端到端的性能优化，解决拥塞控制算法和数据包调度程序的冲突问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的MPTCP拥塞控制方法及其存储介质
本专利技术属于新一代通信
，具体涉及基于深度强化学习MPTCP拥塞控制。
技术介绍
在现今的网络中智能终端通常配备有包括WiFi、3G/4G等多种网络接口，以满足设备在多种异构网络中的数据接入要求。然而，基于传统网络架构和终端需求的单路径TCP协议仅依靠一条单一的数据连接通路来传输信息，无法满足多接入场景下的业务需求。为扩展传统TCP以兼容已有网络并适应新的应用场景，IETF工作组提出了多路径TCP(MPTCP)协议，目的是通过重新规划设计传统TCP协议的内部字段，使其能支持多路径数据传输。MPTCP通过透明地使用多个路径极大地提高了应用程序的性能，目前已被华为、亚马逊、苹果等公司广泛应用于数据中心网络、无线网络、异构网络等多个领域。MPTCP的拥塞控制算法和数据包调度程序协同工作来消耗来自不同子路径的池化的网络资源，从而实现同一连接下多条子流数据的高效、可靠传输。然而，由于实际网络部署中异构链特性的差异，现有的多径拥塞控制机制存在缓冲区膨胀、带宽利用率低等性能问题；与此同时，现有各种MPTCP协议实现方案中，拥塞控制算法与数据包调度程序的设计目标常常并不一致，这就可能造成两者无法很好的配合工作，最终使得各自的功能无法充分发挥，进而阻碍整体应用程序性能的提高。拥塞控制算法作为MPTCP设计和实现的重心，近年来受到广泛关注。到目前为止，已经有许多MPTCP拥塞控制算法被提出，以将来自不同子路径的网络资源聚合到一个统一的资源池中，典型代表有Cou...

【技术保护点】
1.基于深度强化学习的MPTCP拥塞控制方法，其特征在于，所述方法包括以下步骤：/n步骤1、提取网络状态，计算得到网络状态的特征属性值；/n步骤2、对网络应用类型分类，根据网络状态的特征属性值，匹配对应的网络环境类型，针对每一类网络环境设计不同的奖励计算器，计算得到奖励值；/n步骤3、AI拥塞窗口估计器通过奖励值以及网络状态的特征属性值计算得到拥塞窗口的估计值；/n步骤4、发送端根据拥塞窗口的估计值进行调整。/n

【技术特征摘要】
1.基于深度强化学习的MPTCP拥塞控制方法，其特征在于，所述方法包括以下步骤：
步骤1、提取网络状态，计算得到网络状态的特征属性值；
步骤2、对网络应用类型分类，根据网络状态的特征属性值，匹配对应的网络环境类型，针对每一类网络环境设计不同的奖励计算器，计算得到奖励值；
步骤3、AI拥塞窗口估计器通过奖励值以及网络状态的特征属性值计算得到拥塞窗口的估计值；
步骤4、发送端根据拥塞窗口的估计值进行调整。

2.根据权利要求1所述的基于深度强化学习的MPTCP拥塞控制方法，其特征在于，所述步骤2具体为：
将神经网络部署在包含若干种不同网络环境形成的仿真环境中；
让神经网络与各网络环境所对应的奖励函数指导下与环境进行随机交互，并调整拥塞窗口以获得最大化预期的累积奖励值，得到收敛的神经网络，奖励值驱动神经网络演化出不同的拥塞控制策略；
将训练成熟的神经网络部署在真实网络环境内指导数据传输。

3.根据权利要求2所述的基于深度强化学习的MPTCP拥塞控制方法，其特征在于，所述不同网络环境包含以下几种：
吞吐量密集型网络，延迟敏感型网络，恒比特率CBR型网络以及子路径之间的负载均衡型网络。

4.根据权利要求3所述的基于深度强化学习的MPTCP拥塞控制方法，其特征在于，在吞吐量密集型网络情况下，奖励函数为：

在式(3)中，为在时间片t之内从各个子流得到的吞吐量平均值，为从各个子流得到的在第t个时间片内的数据包丢失数量汇总而得平均值，即和其中α表示相应度量的重要性，根据具体目标进行调整的超参数；

表示子流i在时间片t之中获得的吞吐量，而表示子流i在时间片t之中丢失的数据包的数量。

5.根据权利要求3所述的基于深度强化学习的MPTCP拥塞控制方法，其特征在于，在延迟敏感型网络情况下，奖励函数为：

<...

【专利技术属性】
技术研发人员：张娇，黄程远，黄韬，刘韵洁，
申请(专利权)人：网络通信与安全紫金山实验室，北京邮电大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人