一种拥塞控制方法及装置制造方法及图纸

技术编号:30524639 阅读:24 留言:0更新日期:2021-10-27 23:09
本申请实施例提供了一种拥塞控制方法及装置,应用于网络通信技术领域,该方法包括:获取M个往返时延RTT的状态数据,并根据预设奖励函数,确定当前网络环境的奖励值,所述M大于1;利用所获取的状态数据,构建状态向量;将所述状态向量和所述奖励值输入预设神经网络模型,得到目标动作项;按照所述目标动作项,进行拥塞控制。应用本申请实施例提供的技术方案,提高拥塞控制效果。高拥塞控制效果。高拥塞控制效果。

【技术实现步骤摘要】
一种拥塞控制方法及装置


[0001]本申请涉及网络通信
,特别是涉及一种拥塞控制方法及装置。

技术介绍

[0002]网络环境复杂,影响网络传输效率的因素众多。拥塞控制是保证网络高效传输的重要环节。拥塞控制方法包括启发式拥塞控制方法和基于学习的拥塞控制方法。启发式拥塞控制方法利用拥塞控制信号,调节拥塞窗口(Congestion Window,Cwnd)值和发送速率。启发式拥塞控制方法难以分辨某些拥塞控制信号是否为网络拥塞所产生,难以适应复杂的网络环境。基于学习的拥塞控制方法可以通过学习网络的整体特征来做出决策,调节Cwnd值和发送速率。基于学习的拥塞控制方法能够更快速地响应网络环境的变化,并大大减少拥塞控制方法的开发周期。
[0003]由于基于学习的拥塞控制方法具有上述优点,基于学习的拥塞控制方法引起了广泛的研究。但是,相关技术中基于学习的拥塞控制方法对状态数据的使用不够合理,无法适应复杂的网络环境,拥塞控制效果较差。

技术实现思路

[0004]本申请实施例的目的在于提供一种拥塞控制方法及装置,以提高拥塞控制效果。具体技术方案如下:
[0005]第一方面,本申请实施例提供了一种拥塞控制方法,所述方法包括:
[0006]获取M个往返时延RTT的状态数据,并根据预设奖励函数,确定当前网络环境的奖励值,所述M大于1;
[0007]利用所获取的状态数据,构建状态向量;
[0008]将所述状态向量和所述奖励值输入预设神经网络模型,得到目标动作项;
[0009]按照所述目标动作项,进行拥塞控制。
[0010]可选的,每个RTT包括N个时间段,所述N大于1;
[0011]所述获取M个RTT的状态数据的步骤,包括:
[0012]收集M个RTT中每个RTT内预设的多个状态特征关联的状态数据;
[0013]针对M个RTT中的每个RTT,基于所述多个状态特征,对该RTT内的状态数据进行整合,得到该RTT中每个时间段的状态数据。
[0014]可选的,所述针对M个RTT中的每个RTT,基于所述多个状态特征,对该RTT内的状态数据进行整合,得到该RTT中每个时间段的状态数据的步骤,包括:
[0015]针对M个RTT中的每个RTT的每个时间段,若该时间段内发生预设事件,则将上一时间段的状态数据中,所述预设事件关联的状态特征对应的特征值置为预设值,得到该时间段的状态数据。
[0016]可选的,所述状态数据包括多个状态特征和每个状态特征对应的一个特征值;
[0017]所述利用所获取的状态数据,构建状态向量的步骤,包括:
[0018]利用所获取的状态数据包括的特征值、预设数量个历史动作项以及执行所述历史动作项后的拥塞窗口值,构建状态向量。
[0019]可选的,所述利用所获取的状态数据包括的特征值、预设数量个历史动作项以及执行所述历史动作项后的拥塞窗口值,构建状态向量的步骤,包括:
[0020]由所获取的状态数据包括的特征值、预设数量个历史动作项以及执行所述历史动作项后的拥塞窗口值构建一维行向量,以得到状态向量。
[0021]可选的,所述特征值为最小值、最大值、均值、和值或方差;所述M为2。
[0022]可选的,所述将所述状态向量和所述奖励值输入预设神经网络模型,得到目标动作项的步骤,包括:
[0023]将所述状态向量和所述奖励值输入预设神经网络模型,得到多个动作项的概率;
[0024]将概率最大的动作项作为目标动作项。
[0025]可选的,所述将所述状态向量和所述奖励值输入预设神经网络模型,得到目标动作项的步骤,包括:
[0026]将所述状态向量和所述奖励值输入预设神经网络模型,得到多个动作项的概率;
[0027]按照动作项的概率分布,从所述多个动作项中确定目标动作项。
[0028]第二方面,本申请实施例提供了一种拥塞控制装置,所述装置包括:
[0029]第一获取单元,用于获取M个往返时延RTT的状态数据,并根据预设奖励函数,确定当前网络环境的奖励值,所述M大于1;
[0030]构建单元,用于利用所获取的状态数据,构建状态向量;
[0031]预测单元,用于将所述状态向量和所述奖励值输入预设神经网络模型,得到目标动作项;
[0032]控制单元,用于按照所述目标动作项,进行拥塞控制。
[0033]可选的,每个RTT包括N个时间段,所述N大于1;
[0034]所述第一获取单元,具体用于:收集M个RTT中每个RTT内预设的多个状态特征关联的状态数据;针对M个RTT中的每个RTT,基于所述多个状态特征,对该RTT内的状态数据进行整合,得到该RTT中每个时间段的状态数据。
[0035]可选的,所述第一获取单元,具体用于:
[0036]针对M个RTT中的每个RTT的每个时间段,若该时间段内发生预设事件,则将上一时间段的状态数据中,所述预设事件关联的状态特征对应的特征值置为预设值,得到该时间段的状态数据。
[0037]可选的,所述状态数据包括多个状态特征和每个状态特征对应的一个特征值;
[0038]所述构建单元,具体用于:
[0039]利用所获取的状态数据包括的特征值、预设数量个历史动作项以及执行所述历史动作项后的拥塞窗口值,构建状态向量。
[0040]可选的,所述构建单元,具体用于:
[0041]由所获取的状态数据包括的特征值、预设数量个历史动作项以及执行所述历史动作项后的拥塞窗口值构建一维行向量,以得到状态向量。
[0042]可选的,所述特征值为最小值、最大值、均值、和值或方差;所述M为2。
[0043]可选的,所述预测单元,具体用于:
[0044]将所述状态向量和所述奖励值输入预设神经网络模型,得到多个动作项的概率;将概率最大的动作项作为目标动作项。
[0045]可选的,所述预测单元,具体用于:
[0046]将所述状态向量和所述奖励值输入预设神经网络模型,得到多个动作项的概率;按照动作项的概率分布,从所述多个动作项中确定目标动作项。
[0047]第三方面,本申请实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0048]存储器,用于存放计算机程序;
[0049]处理器,用于执行存储器上所存放的程序时,实现第一方面提供的任一拥塞控制方法步骤。
[0050]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的任一拥塞控制方法步骤。
[0051]本申请实施例有益效果:
[0052]本申请实施例提供的技术方案中,利用M个RTT的状态数据,进行拥塞控制。在执行一次拥塞控制后,需要经过一个RTT后才能体现出本次拥塞控制所带来的效果。即,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拥塞控制方法,其特征在于,所述方法包括:获取M个往返时延RTT的状态数据,并根据预设奖励函数,确定当前网络环境的奖励值,所述M大于1;利用所获取的状态数据,构建状态向量;将所述状态向量和所述奖励值输入预设神经网络模型,得到目标动作项;按照所述目标动作项,进行拥塞控制。2.根据权利要求1所述的方法,其特征在于,每个RTT包括N个时间段,所述N大于1;所述获取M个RTT的状态数据的步骤,包括:收集M个RTT中每个RTT内预设的多个状态特征关联的状态数据;针对M个RTT中的每个RTT,基于所述多个状态特征,对该RTT内的状态数据进行整合,得到该RTT中每个时间段的状态数据。3.根据权利要求2所述的方法,其特征在于,所述针对M个RTT中的每个RTT,基于所述多个状态特征,对该RTT内的状态数据进行整合,得到该RTT中每个时间段的状态数据的步骤,包括:针对M个RTT中的每个RTT的每个时间段,若该时间段内发生预设事件,则将上一时间段的状态数据中,所述预设事件关联的状态特征对应的特征值置为预设值,得到该时间段的状态数据。4.根据权利要求1

3任一项所述的方法,其特征在于,所述状态数据包括多个状态特征和每个状态特征对应的一个特征值;所述利用所获取的状态数据,构建状态向量的步骤,包括:利用所获取的状态数据包括的特征值、预设数量个历史动作项以及执行所述历史动作项后的拥塞窗口值,构建状态向量。5.根据权利要求4所述的方法,其特征在于,所述利用所获取的状态数据包括的特征值、预设数量个历史动作项以及执行所述历史动作项后的拥塞窗口值,构建状态向量的步骤,包括:由所获取的状态数据包括的特征值、预设数量个历史动作项以及执行所述历史动作项后的拥塞窗口值构建一维行向量,以得到状态向量。6.根据权利要求4所述的方法,其特征在于,所述特征值为最小值、最大值、均值、和值或方差;所述M为2。7.根据权利要求1所述的方法,其特征在于,所述将所述状态向量和所述奖励值输入预设神经网络模型,得到目标动作项的步骤,包括:将所述状态向量和所述奖励值输入预设神经网络模型,得到多个动作项的概率;将概率最大的动作项作为目标动作项。8.根据权利要求1所述的方法,其特征在于,所述将所述状态向量和所述奖励值输入预设神经网络模型,得到目标动作项的步骤,包括:将所述状态向量和所述奖励值输入预设神经网络模型,得到多个动作项的概率;按照动作项的概率分布,从所述多个动作项中确定目标动作项。9.一种拥塞控制装置,其特征在于,所述装置包括:第一获取单元,用于获取M个往返时延RTT的状态数...

【专利技术属性】
技术研发人员:王玲
申请(专利权)人:新华三技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1