当前位置: 首页 > 专利查询>鹏城实验室专利>正文

基于深度强化学习的网络拥塞控制方法、系统及相关设备技术方案

技术编号:37785879 阅读:11 留言:0更新日期:2023-06-09 09:16
本发明专利技术公开了一种基于深度强化学习的网络拥塞控制方法、系统及相关设备,方法包括:获取待控制网络在当前控制周期的往返时延值和往返时延动态阈值,并获取待控制网络在上述当前控制周期的安全标记;根据安全标记获取当前控制周期中深度强化学习模型的熵值;获取待控制网络对应的网络状态数据;当安全标记是安全时,根据当前控制周期和预设的周期轮转规则获取当前周期控制主体,根据当前控制周期中深度强化学习模型的熵值、网络状态数据和当前周期控制主体对待控制网络进行网络拥塞控制,当前周期控制主体是预设拥塞控制算法和深度强化学习模型中的一种。本发明专利技术利于提高网络拥塞控制的准确性。制的准确性。制的准确性。

【技术实现步骤摘要】
基于深度强化学习的网络拥塞控制方法、系统及相关设备


[0001]本专利技术涉及计算机网络及通信
,尤其涉及的是一种基于深度强化学习的网络拥塞控制方法、系统及相关设备。

技术介绍

[0002]随着科学技术的发展,用户对于数据传输的要求也越来越高,目前,可以通过拥塞控制来获得更好的数据传输效果,拥塞控制算法的设计是计算机网络中一项重要的任务。
[0003]现有技术中,通常使用基于预先设置的规则的拥塞控制算法对网络进行拥塞控制。即预先设置对应的规则,在达到规则中限定的条件时选择对应的控制方案进行控制,例如在网络的延迟达到一个预设阈值时调整数据传输速率等。现有技术的问题在于,预先设置的规则是固定的,只能适用于固定的应用场景,难以适应新出现的网络场景的需求,且不能适用于复杂易变的网络环境,固定的规则也无法根据网络的实时变化和实际状态进行调整,不利于提高网络拥塞控制的准确性,从而不利于提高网络服务质量。
[0004]因此,现有技术还有待改进和发展。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于深度强化学习的网络拥塞控制方法、系统及相关设备,旨在解决现有技术中使用基于预先设置的规则的拥塞控制算法对网络进行拥塞控制的方案不利于提高网络拥塞控制的准确性,从而不利于提高网络服务质量的问题。
[0006]为了实现上述目的,本专利技术第一方面提供一种基于深度强化学习的网络拥塞控制方法,其中,上述基于深度强化学习的网络拥塞控制方法包括:
[0007]获取待控制网络在当前控制周期的往返时延值和往返时延动态阈值;
[0008]根据上述往返时延值和上述往返时延动态阈值获取上述待控制网络在上述当前控制周期的安全标记,其中,上述安全标记是安全或危险;
[0009]根据上述安全标记获取上述当前控制周期中深度强化学习模型的熵值,其中,上述熵值是该深度强化学习模型的决策动作偏移幅度修正值;
[0010]获取上述待控制网络对应的网络状态数据;
[0011]当上述安全标记是安全时,根据上述当前控制周期和预设的周期轮转规则获取当前周期控制主体,根据上述当前控制周期中深度强化学习模型的熵值、上述网络状态数据和上述当前周期控制主体对上述待控制网络进行网络拥塞控制,其中,上述当前周期控制主体是预设拥塞控制算法和上述深度强化学习模型中的一种。
[0012]可选的,上述方法还包括:
[0013]当上述安全标记是危险时,根据上述预设拥塞控制算法对上述待控制网络进行网络拥塞控制。
[0014]可选的,上述获取待控制网络在当前控制周期的往返时延值和往返时延动态阈值,包括:
[0015]采集获取上述待控制网络在上述当前控制周期的往返时延值;
[0016]获取上述待控制网络在多个历史控制周期的往返时延值,计算上述当前控制周期和上述多个历史控制周期的往返时延值的均值并作为上述当前控制周期的往返时延动态阈值。
[0017]可选的,上述根据上述往返时延值和上述往返时延动态阈值获取上述待控制网络在上述当前控制周期的安全标记,包括:
[0018]当上述往返时延值大于上述往返时延动态阈值与预设倍数阈值的乘积时,将上述安全标记设置为危险,否则将上述安全标记设置为安全。
[0019]可选的,上述根据上述安全标记获取上述当前控制周期中深度强化学习模型的熵值,包括:
[0020]获取预设的第一常数、第二常数以及第三常数;
[0021]获取上述待控制网络对应的前一周期熵值,其中,上述前一周期熵值是前一控制周期中上述深度强化学习模型的熵值,上述前一控制周期是上述当前控制周期的前一个周期;
[0022]当上述安全标记是危险时,上述当前控制周期中深度强化学习模型的熵值等于第一相加结果与上述第三常数的乘积,其中,上述第一相加结果是上述前一周期熵值与上述第一常数之和;
[0023]当上述安全标记是安全时,获取上述待控制网络对应的时延比值数组,根据上述时延比值数组、上述前一周期熵值、上述第二常数和上述第三常数获取上述当前控制周期中深度强化学习模型的熵值。
[0024]可选的,上述获取上述待控制网络对应的时延比值数组,根据上述时延比值数组、上述前一周期熵值、上述第二常数和上述第三常数获取上述当前控制周期中深度强化学习模型的熵值,包括:
[0025]获取上述待控制网络对应的时延比值数组,其中,上述时延比值数组由上述当前控制周期的时延比值以及多个历史控制周期的时延比值组成,一个周期对应的时延比值是该周期内的往返时延值与往返时延动态阈值的比值;
[0026]当上述时延比值数组中的每一个时延比值都属于预设时延比值范围之内时,上述当前控制周期中深度强化学习模型的熵值等于第二相加结果与上述第三常数的乘积,其中,上述第二相加结果是上述前一周期熵值与上述第二常数之和;
[0027]否则,上述当前控制周期中深度强化学习模型的熵值等于上述前一周期熵值与上述第三常数的乘积。
[0028]可选的,上述预设拥塞控制算法为BBR算法。
[0029]可选的,上述待控制网络是快速UDP互联网连接网络,上述网络状态数据包括上述当前控制周期对应的测量统计数据组以及多个历史控制周期对应的测量统计数据组,一个周期对应的测量统计数据组包括该周期对应的确认字符平均吞吐量、确认字符平均延时、确认字符平均丢包率、拥塞窗口大小、确认字符总数、历史最大吞吐量以及历史最小延时。
[0030]可选的,当上述周期控制主体是上述深度强化学习模型时,上述根据上述当前控制周期中深度强化学习模型的熵值、上述网络状态数据和上述当前周期控制主体对上述待控制网络进行网络拥塞控制,包括:
[0031]根据上述网络状态数据计算获取归一化状态数据,其中,上述归一化状态数据包括多个归一化统计数据组;
[0032]根据上述归一化状态数据,通过上述深度强化学习模型获取深度强化学习动作值;
[0033]根据上述当前控制周期中熵值和预设的修正公式对上述深度强化学习动作值进行修正获得目标动作值;
[0034]根据上述目标动作值和上述当前控制周期中的拥塞窗口大小,通过预设的窗口计算公式计算获取下一控制周期的拥塞窗口大小;
[0035]根据上述下一控制周期的拥塞窗口大小对上述待控制网络进行拥塞控制。
[0036]可选的,上述下一控制周期的拥塞窗口大小是上述当前控制周期中的拥塞窗口大小与目标指数值的乘积,上述目标指数值是以2为底且以上述目标动作值为指数的值。
[0037]本专利技术第二方面提供一种基于深度强化学习的网络拥塞控制系统,其中,上述基于深度强化学习的网络拥塞控制系统包括:
[0038]动态阈值计算模块,用于获取待控制网络在当前控制周期的往返时延值和往返时延动态阈值;
[0039]安全标记获取模块,用于根据上述往返时延值和上述往返时延动态阈值获取上述待控制网络在上述当前控制周期的安全标记,其中,上述安全标记是安全或危险;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的网络拥塞控制方法,其特征在于,所述方法包括:获取待控制网络在当前控制周期的往返时延值和往返时延动态阈值;根据所述往返时延值和所述往返时延动态阈值获取所述待控制网络在所述当前控制周期的安全标记,其中,所述安全标记是安全或危险;根据所述安全标记获取所述当前控制周期中深度强化学习模型的熵值,其中,所述熵值是该深度强化学习模型的决策动作偏移幅度修正值;获取所述待控制网络对应的网络状态数据;当所述安全标记是安全时,根据所述当前控制周期和预设的周期轮转规则获取当前周期控制主体,根据所述当前控制周期中深度强化学习模型的熵值、所述网络状态数据和所述当前周期控制主体对所述待控制网络进行网络拥塞控制,其中,所述当前周期控制主体是预设拥塞控制算法和所述深度强化学习模型中的一种。2.根据权利要求1所述的基于深度强化学习的网络拥塞控制方法,其特征在于,所述方法还包括:当所述安全标记是危险时,根据所述预设拥塞控制算法对所述待控制网络进行网络拥塞控制。3.根据权利要求1所述的基于深度强化学习的网络拥塞控制方法,其特征在于,所述获取待控制网络在当前控制周期的往返时延值和往返时延动态阈值,包括:采集获取所述待控制网络在所述当前控制周期的往返时延值;获取所述待控制网络在多个历史控制周期的往返时延值,计算所述当前控制周期和所述多个历史控制周期的往返时延值的均值并作为所述当前控制周期的往返时延动态阈值。4.根据权利要求1所述的基于深度强化学习的网络拥塞控制方法,其特征在于,所述根据所述往返时延值和所述往返时延动态阈值获取所述待控制网络在所述当前控制周期的安全标记,包括:当所述往返时延值大于所述往返时延动态阈值与预设倍数阈值的乘积时,将所述安全标记设置为危险,否则将所述安全标记设置为安全。5.根据权利要求1所述的基于深度强化学习的网络拥塞控制方法,其特征在于,所述根据所述安全标记获取所述当前控制周期中深度强化学习模型的熵值,包括:获取预设的第一常数、第二常数以及第三常数;获取所述待控制网络对应的前一周期熵值,其中,所述前一周期熵值是前一控制周期中所述深度强化学习模型的熵值,所述前一控制周期是所述当前控制周期的前一个周期;当所述安全标记是危险时,所述当前控制周期中深度强化学习模型的熵值等于第一相加结果与所述第三常数的乘积,其中,所述第一相加结果是所述前一周期熵值与所述第一常数之和;当所述安全标记是安全时,获取所述待控制网络对应的时延比值数组,根据所述时延比值数组、所述前一周期熵值、所述第二常数和所述第三常数获取所述当前控制周期中深度强化学习模型的熵值。6.根据权利要求5所述的基于深度强化学习的网络拥塞控制方法,其特征在于,所述获取所述待控制网络对应的时延比值数组,根据所述时延比值数组、所述前一周期熵值、所述第二常数和所述第三常数获取所述当前控制周期中深度强化学习模型的熵值,包括:
获取所述待控制网络对应的时延比值数组,其中,所述时延比值数组由所述当前控制周期的时延比值以及多个历史控制周期的时延比值组成,一个周期对应的时延比值是该周期内的往返时延值与往返时延动态阈值的比值;当所述时延比值数组中的每一个时延比值都属于预设时延比值范围之内时,所述当前控制周期中深度强化学习模型的熵值等于第二相加结果与所述第三常数的乘积,其中,所述第二相加结果是所述前一周期熵值与所述第二常数之和;否则,所述当前控制周期中深度强化...

【专利技术属性】
技术研发人员:周建二潘知渊李伟超宋胜安陶小峰
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1