当前位置: 首页 > 专利查询>怀丽敏专利>正文

一种基于DDPG的网络拥塞控制算法制造技术

技术编号:38266510 阅读:8 留言:0更新日期:2023-07-27 10:23
本发明专利技术公开了一种基于DDPG的网络拥塞控制算法。本发明专利技术与现有技术相比的优点在于:基于DDPG算法来进行TCP拥塞控制,DDPG中的经验优先回放能够弱化连续动作之间的相关性,在处理环境的状态信息时,增加了丢包率、时延的统计量和梯度来拓展状态空间。计量和梯度来拓展状态空间。计量和梯度来拓展状态空间。

【技术实现步骤摘要】
一种基于DDPG的网络拥塞控制算法


[0001]本专利技术涉及互联网算法,具体是指一种基于DDPG的网络拥塞控制算法。

技术介绍

[0002]近几十年来,随着互联网的飞速发展,信息的交互变得更方便和快捷。人们借助计算机网络,摆脱了地理位置的束缚,即使在不同的地方也可以享受到网络上的共享资源。而不断出现的新兴计算机网络的应用,使得各种图文信息的传输、存储和处理更为便捷,为用户提供了更好的服务,可以说计算机网络已是现代社会不可或缺的重要组成部分。
[0003]但是,随着近年来网络用户数量的急剧增加,以及各种通信业务的显著增长,不可避免的给网络带来越来越大的压力。当网络中存在的分组数量超出网络的传输容量时,数据会在交换节点逐渐囤积,直到超出其缓冲区上限,这会使得一部分分组不能及时被转发,就会导致分组的丢失和分组延迟,这种情况如果没有外力干扰就会越来越严重,最终导致网络拥塞的发生。自上个世纪八十年代,APPANET(美国国防高级研究计算局网络)首次出现一系列拥塞崩溃现象之后,网络拥塞问题越来越受到人们的关注。
[0004]当网络某一节点的过多,超出其缓存上限时,它就会丢弃一部分分组,而发送分组的节点会因超时而重传数据包,而发送节点在没有得到确认前,不能丢弃这个分组,导致了缓存的进一步消耗,恶性循环之下,会导致拥塞进一步加重,使得数据分组时延增加、丢包率上升,同时网络的吞吐量下降、上层应用系统的性能降低。且这种影响会逐步向周围的相邻节点扩散,最后严重的可能导致整个网络系统崩溃。另外,虽然大部分网络拥塞的出现都是源于有限的网络资源,但是如果单纯依靠增加网络资源的方式来解决拥塞,不经不能避免拥塞的发生,还会是成本大大提高,而且还会在物理和技术上带来更大的难题。
[0005]为了应对上述问题带来的挑战,设计一个合理又高效的网络拥塞方法是非常有必要的。完全避免拥塞并不是拥塞控制的目的,当网络中的数据流量较少时,虽然转发节点的缓存队列总是有空余、数据传输的延迟也较小,但是这时候对网络的利用效率也很低,这样反而得不偿失。因此,拥塞控制需要综合考虑网络带宽利用率、传输延迟等综合性能指标,达到总体最优化。
[0006]为了应对网络拥塞的问题,研究人员提出了拥塞控制方法。拥塞控制方法作为TCP协议的重要组成部分,经过数十年的发展后,在现代互联网中有着广泛的应用。一般而言,拥塞控制方法的功能主要包括控制发送速率、探测带宽以确定最大发送速率以及拥塞避免。根据实现这些功能的方式不同,比如以明确的规则定义、或通过学习得到。
[0007]传统的拥塞控制算法的主要特点是完全基于设计者预先制定的明确的规则来进行拥塞控制。这类拥塞控制方法在部署较为容易、计算量小的同时,又能达到较好的控制效果,因此得到了广泛的应用。但是由于传统的拥塞控制算法基于一个预定的规则,这使得它们可能在某一个场景中运行良好,但它们无法保证在多数网络场景中的性能,尤其是不稳定的、状态变化频繁的网络场景。

技术实现思路

[0008]本专利技术要解决的技术问题是传统拥塞控制算法受限于预定的规则,难以适应具有不同特点的网络环境,因而提出了基于DDPG的拥塞控制算法,利用深度强化学习能与环境交互的方式不断学习的特点,学习一个更好的拥塞控制策略,以提高吞吐量、降低丢包率为优化目标,提高在常见网络环境下的性能。
[0009]本专利技术要解决的技术问题是受限于网络仿真条件等客观因素,难以验证算法在所有网络环境下的性能,以及是否能在真实环境中适应良好。
[0010]为解决上述技术问题,本专利技术提供的技术方案为:一种基于DDPG的网络拥塞控制算法,包括:
[0011]随机初始化critic network Q和actor networkμ,并赋值给targetnetworkQ

和μ


[0012]初始化replaybufferR;
[0013]Forepisode=1,Mdo;
[0014]随机初始化N步,后得到状态s;
[0015]Fort=1,Tdo
[0016]根据当前策略选取动作a;
[0017]执行动作a之后得到奖励r和下一步动作s


[0018]将(s,a,r,s

)存入R中;
[0019]从R中随机采样N个样本;
[0020]计算TDtarget:y
i
=r
i
+γQ'(s',μ'(s'|θ
μ
')|θ
Q
');
[0021]通过最小化损失来更新critic network;
[0022]计算策略梯度来更新actor network;
[0023]更新targetnetwork:
[0024]θ
Q
'

τθ
Q
+(1

τ)θ
Q
'
[0025]θ
μ
'

τθ
μ
+(1

τ)θ
μ
'
[0026]End for
[0027]End for。
[0028]本专利技术与现有技术相比的优点在于:基于DDPG算法来进行TCP拥塞控制,DDPG中的经验优先回放能够弱化连续动作之间的相关性,减小动作之间的相互影响,另外,在处理环境的状态信息时,增加了丢包率、时延的统计量和梯度来拓展状态空间,使得模型能够更好的学习到网络状态变化的特征,以便更准确地通过调控拥塞窗口来控制速率。
附图说明
[0029]图1是本专利技术的流程示意图。
[0030]图2是本专利技术的应用连接示意图。
具体实施方式
[0031]下面结合附图对本专利技术做进一步的详细说明。
[0032]本专利技术在具体实施时,如图1所示的实施例中,算法具体包括:
[0033]随机初始化critic network Q和actor networkμ,并赋值给targetnetworkQ

和μ


[0034]初始化replaybufferR;
[0035]Forepisode=1,Mdo;
[0036]随机初始化N步,后得到状态s;
[0037]Fort=1,Tdo
[0038]根据当前策略选取动作a;
[0039]执行动作a之后得到奖励r和下一步动作s


[0040]将(s,a,r,s

)存入R中;
[0041]从R中随机采样N个样本;
[0042]计算TDtarget:y
i
=r
i
+γQ'(s',μ'(s'|θ
μ
')|θ
Q
');
[0043]通过最小化损失来更新critic 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DDPG的网络拥塞控制算法,其特征在于包括:随机初始化criticnetworkQ和actornetworkμ,并赋值给targetnetworkQ

和μ

;初始化replaybufferR;Forepisode=1,Mdo;随机初始化N步,后得到状态s;Fort=1,Tdo根据当前策略选取动作a;执行动作a之后得到奖励r和下一步动作s

;将(s,a,r,s

)存入R中;从R中随机采样N个样本;计算TDtarget:y
i
=r
i
+...

【专利技术属性】
技术研发人员:怀丽敏
申请(专利权)人:怀丽敏
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1