基于深度强化学习的网络拥塞控制方法、系统及相关设备技术方案

技术编号：37785879 阅读：25 留言：0更新日期：2023-06-09 09:16

本发明专利技术公开了一种基于深度强化学习的网络拥塞控制方法、系统及相关设备，方法包括：获取待控制网络在当前控制周期的往返时延值和往返时延动态阈值，并获取待控制网络在上述当前控制周期的安全标记；根据安全标记获取当前控制周期中深度强化学习模型的熵值；获取待控制网络对应的网络状态数据；当安全标记是安全时，根据当前控制周期和预设的周期轮转规则获取当前周期控制主体，根据当前控制周期中深度强化学习模型的熵值、网络状态数据和当前周期控制主体对待控制网络进行网络拥塞控制，当前周期控制主体是预设拥塞控制算法和深度强化学习模型中的一种。本发明专利技术利于提高网络拥塞控制的准确性。制的准确性。制的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的网络拥塞控制方法、系统及相关设备

[0001]本专利技术涉及计算机网络及通信
，尤其涉及的是一种基于深度强化学习的网络拥塞控制方法、系统及相关设备。

技术介绍

[0002]随着科学技术的发展，用户对于数据传输的要求也越来越高，目前，可以通过拥塞控制来获得更好的数据传输效果，拥塞控制算法的设计是计算机网络中一项重要的任务。
[0003]现有技术中，通常使用基于预先设置的规则的拥塞控制算法对网络进行拥塞控制。即预先设置对应的规则，在达到规则中限定的条件时选择对应的控制方案进行控制，例如在网络的延迟达到一个预设阈值时调整数据传输速率等。现有技术的问题在于，预先设置的规则是固定的，只能适用于固定的应用场景，难以适应新出现的网络场景的需求，且不能适用于复杂易变的网络环境，固定的规则也无法根据网络的实时变化和实际状态进行调整，不利于提高网络拥塞控制的准确性，从而不利于提高网络服务质量。
[0004]因此，现有技术还有待改进和发展。

技术实现思路

[0005]本专利技术的主要目的在于...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的网络拥塞控制方法，其特征在于，所述方法包括：获取待控制网络在当前控制周期的往返时延值和往返时延动态阈值；根据所述往返时延值和所述往返时延动态阈值获取所述待控制网络在所述当前控制周期的安全标记，其中，所述安全标记是安全或危险；根据所述安全标记获取所述当前控制周期中深度强化学习模型的熵值，其中，所述熵值是该深度强化学习模型的决策动作偏移幅度修正值；获取所述待控制网络对应的网络状态数据；当所述安全标记是安全时，根据所述当前控制周期和预设的周期轮转规则获取当前周期控制主体，根据所述当前控制周期中深度强化学习模型的熵值、所述网络状态数据和所述当前周期控制主体对所述待控制网络进行网络拥塞控制，其中，所述当前周期控制主体是预设拥塞控制算法和所述深度强化学习模型中的一种。2.根据权利要求1所述的基于深度强化学习的网络拥塞控制方法，其特征在于，所述方法还包括：当所述安全标记是危险时，根据所述预设拥塞控制算法对所述待控制网络进行网络拥塞控制。3.根据权利要求1所述的基于深度强化学习的网络拥塞控制方法，其特征在于，所述获取待控制网络在当前控制周期的往返时延值和往返时延动态阈值，包括：采集获取所述待控制网络在所述当前控制周期的往返时延值；获取所述待控制网络在多个历史控制周期的往返时延值，计算所述当前控制周期和所述多个历史控制周期的往返时延值的均值并作为所述当前控制周期的往返时延动态阈值。4.根据权利要求1所述的基于深度强化学习的网络拥塞控制方法，其特征在于，所述根据所述往返时延值和所述往返时延动态阈值获取所述待控制网络在所述当前控制周期的安全标记，包括：当所述往返时延值大于所述往返时延动态阈值与预设倍数阈值的乘积时，将所述安全标记设置为危险，否则将所述安全标记设置为安全。5.根据权利要求1所述的基于深度强化学习的网络拥塞控制方法，其特征在于，所述根据所述安全标记获取所述当前控制周期中深度强化学习模型的熵值，包括：获取预设的第一常数、第二常数以及第三常数；获取所述待控制网络对应的前一周期熵值，其中，所述前一周期熵值是前一控制周期中所述深度强化学习模型的熵值，所述前一控制周期是所述当前控制周期的前一个周期；当所述安全标记是危险时，所述当前控制周期中深度强化学习模型的熵值等于第一相加结果与所述第三常数的乘积，其中，所述第一相加结果是所述前一周期熵值与所述第一常数之和；当所述安全标记是安全时，获取所述待控制网络对应的时延比值数组，根据所述时延比值数组、所述前一周期熵值、所述第二常数和所述第三常数获取所述当前控制周期中深度强化学习模型的熵值。6.根据权利要求5所述的基于深度强化学习的网络拥塞控制方法，其特征在于，所述获取所述待控制网络对应的时延比值数组，根据所述时延比值数组、所述前一周期熵值、所述第二常数和所述第三常数获取所述当前控制周期中深度强化学习模型的熵值，包括：
获取所述待控制网络对应的时延比值数组，其中，所述时延比值数组由所述当前控制周期的时延比值以及多个历史控制周期的时延比值组成，一个周期对应的时延比值是该周期内的往返时延值与往返时延动态阈值的比值；当所述时延比值数组中的每一个时延比值都属于预设时延比值范围之内时，所述当前控制周期中深度强化学习模型的熵值等于第二相加结果与所述第三常数的乘积，其中，所述第二相加结果是所述前一周期熵值与所述第二常数之和；否则，所述当前控制周期中深度强化...

【专利技术属性】
技术研发人员：周建二，潘知渊，李伟超，宋胜安，陶小峰，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人