【技术实现步骤摘要】
基于深度强化学习的多链路传输智能报文调度方法
[0001]本专利技术涉及网络通信的
,尤其是指一种基于深度强化学习的多链路传输智能报文调度方法。
技术介绍
[0002]目前,传统以TCP(Transmission Control Protocol,传输控制协议)为代表的单路径传输协议难以满足用户在传输效率及可靠性方面的要求。随着多种无线接入技术的发展,大多数移动终端都配置了4G/3G和WiFi接口,为实现基于多链路的数据传输提供了可能。近年来,IETF工作组提出了对传统TCP协议的扩展协议,多路径TCP(Multi
‑
path TCP,MPTCP)。MPTCP将单个TCP的数据分流到多个不同的子流,允许每一条子流走不同的物理链路,从而形成多条路径。相较于传统TCP协议,MPTCP协议具有高吞吐量,高容忍度,高可靠性,高安全性等特点,既可以配置多个路径作为主力/备用链路增强会话的鲁棒性,又可以配置多个路径同时工作并行传输,提高整体吞吐量。
[0003]但是,目前的MPTCP协议还不够完善,在异构 ...
【技术保护点】
【技术特征摘要】
1.基于深度强化学习的多链路传输智能报文调度方法,其特征在于,包括以下步骤:S1、将MPTCP发送方的数据包传输过程划分为若干个数据包调度周期;S2、在每个调度周期开始时,观测MPTCP的每条链路的服务质量参数,并使其作为网络环境状态的表征,将网络环境状态输入基于Actor
‑
Critic强化学习框架的深度确定性策略梯度模型,所述深度确定性策略梯度模型由Actor神经网络和Critic神经网络组成,利用Actor神经网络表示MPTCP的数据包调度策略,利用Critic神经网络表示数据包调度策略的好坏;S3、根据输入的网络环境状态,得到Actor神经网络输出的一组表示数据包调度策略的调度动作,在该调度周期,MPTCP的数据包调度器根据调度动作执行调度策略;S4、调度策略执行结束后,根据设定的奖励函数,计算每个调度周期内模型输出调度动作的奖励值,同时观测执行调度动作后的网络环境状态;S5、将得到的调度周期的网络环境状态、调度动作、动作奖励值以及执行动作后的网络环境状态组成四元组的数据训练样本,存放在经验回放池中;S6、从经验回放池中随机采样数据训练样本,输入深度确定性策略梯度模型中,根据损失函数更新Actor神经网络参数以及Critic神经网络参数优化模型输出的数据包调度策略。2.根据权利要求1所述的基于深度强化学习的多链路传输智能报文调度方法,其特征在于,在步骤S1中,数据包调度周期的时长为1到3秒。3.根据权利要求1所述的基于深度强化学习的多链路传输智能报文调度方法,其特征在于,在步骤S2中,服务质量参数包括:MPTCP的子流在一个调度周期内的吞吐量、MPTCP的子流的拥塞窗口大小及MPTCP的子流的往返时延。4.根据权利要求1所述的基于深度强化学习的多链路传输智能报文调度方法,其特征在于,在步骤S3中,Actor神经网络为一个表示数据包调度策略的神经网络,输出的调度动作为分配到各个MPTCP的子流的数据包数量的分流比,所述分流比的计算方式为:分配到该子流上的数据包个数除以MPTCP的发送方缓冲...
【专利技术属性】
技术研发人员:胡金龙,张家琪,黄松,董守斌,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。