【技术实现步骤摘要】
本专利技术涉及网络流量优化,具体涉及自适应网络流量优化的多目标强化学习方法及其系统。
技术介绍
1、随着互联网技术的飞速发展和网络应用的日益复杂化,网络流量优化已成为保障网络服务质量的关键挑战。传统的网络流量优化方法主要依赖于静态规则和固定阈值,虽然在稳定的网络环境中能够发挥一定作用,但在面对当今复杂多变的网络流量模式时,其局限性日益凸显。这些方法往往难以适应突发流量、新兴应用和动态变化的网络拓扑,导致网络资源利用率低下,用户体验质量下降。
2、近年来,随着人工智能技术的进步,一些研究者开始尝试将机器学习,特别是强化学习应用于网络流量优化。这些方法通过学习网络行为模式,能够在一定程度上提高优化效果。然而,现有的基于单一强化学习算法的解决方案仍然存在诸多不足。首先,它们通常需要大量的训练数据和时间才能达到理想的性能,这在快速变化的网络环境中是难以接受的。其次,这些方法往往只能针对特定的网络场景进行优化,缺乏泛化能力,难以应对多样化的网络环境和服务需求。此外,在大规模分布式网络中,如何在保护数据隐私的同时实现全局优化也是一个亟待
本文档来自技高网...【技术保护点】
1.自适应网络流量优化的多目标强化学习方法, 其特征在于,包括如下步骤:步骤1.利用元网络捕获自适应网络流量优化任务在不同网络环境和资源配置下的规律;为了捕获多时间尺度的网络流量动态,建立分层时序抽象,基于自动编码器构建元网络以学习不同尺度下流量的规律,增强方法在长期规划中的能力;步骤2.引入上下文感知的元策略生成器,学习不同场景需求到已训练好的元网络的映射关系,实现对未知场景的快速适应调整以改善网络性能;建立自适应元学习框架,对策略进行更新;步骤3. 构建联邦式自主学习架构的多自治系统或网络间的协作优化。
2.根据权利要求1所述自适应网络流量优化的多目标
...【技术特征摘要】
1.自适应网络流量优化的多目标强化学习方法, 其特征在于,包括如下步骤:步骤1.利用元网络捕获自适应网络流量优化任务在不同网络环境和资源配置下的规律;为了捕获多时间尺度的网络流量动态,建立分层时序抽象,基于自动编码器构建元网络以学习不同尺度下流量的规律,增强方法在长期规划中的能力;步骤2.引入上下文感知的元策略生成器,学习不同场景需求到已训练好的元网络的映射关系,实现对未知场景的快速适应调整以改善网络性能;建立自适应元学习框架,对策略进行更新;步骤3. 构建联邦式自主学习架构的多自治系统或网络间的协作优化。
2.根据权利要求1所述自适应网络流量优化的多目标强化学习方法,其特征在于,使用带重播缓存的优先经验回放算法,将元网络和策略表在强化学习框架中实现,对步骤1和学习策略进行学习;利用元网络来捕获不同动态流量场景下的流量规律,以表征学习训练好的网络流量qos参数;设计多层分层时序抽象机制,在低聚合时间内计算流量指标,提高元网络编码器和解码器提取流量的特征信息表示能力。
3.根据权利要求2所述自适应网络流量优化的多目标强化学习方法,其特征在于,利用加权求和的方式得到qos配置,
4.根据权利要求2所述自适应网络流量优化的多目标强化学习方法,其特征在于,基于策略梯度优化方法将元算法和自动编码器相结合用于元网络训练;步骤2中元学习代理根据环境交互更新策略表,设计固定于场景的积累经验回放存储缓冲区来收集训练元网络的经验数据,由一系列旧场景的状态,动作和奖励组成的元经验,通过缓存重播来自训练元网络的数据,不断降低采样数据分布与目标分布的差异;通过上下文感知策略网络对旧环境进行适应,设计固定于场景累计的元经验回放存储缓冲区,以不同的策略元代理环境交互;利用转移元和策略元表在旧环境中进行交互。
5.根据权利要求1所述自适应网络流量优化的多目标强化学习方法,其特征在于,设计了分布式协同学习框架鼓励多自治系统或网络域之间的合作;基于全局的qos目标来生成统一的监督信号指导策略进行调整;为避免网络之间频繁通信的额外开销,采用了基于联邦学习的方法来挖掘网络多自治系统之间或者多网络域之间的共同性信息;每个域根据其全局权重在本地更新策略。
6.根据权利要求1所述自适应网络流量优化的多目标强化学习方法,其特征在于,每个元网络通过上下文注意力机制更新和训练,元学习代理使用一个共享的元策略,当生成当前场景的状态时,生成随机采样策略的组合,以提高策略的泛化能力;上下文注意力机制采用如下算法:
7.根据权利要求6所述自适应网络流量优化的多目标强化学习方法,其特征在于,通过基于沙普利值的贡献度评估算法估计每个自治...
【专利技术属性】
技术研发人员:张健,
申请(专利权)人:江西高软科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。