强化学习智能体训练方法、模态带宽资源调度方法及装置制造方法及图纸

技术编号：34432290 阅读：62 留言：0更新日期：2022-08-06 16:11

本发明专利技术公开了强化学习智能体训练方法、模态带宽资源调度方法及装置，其中强化学习智能体训练方法在多模态网络下，利用强化学习智能体与网络环境不断交互，获取最新全局网络特征并输出更新后的动作。通过调节模态所占用的带宽，设定奖励值为智能体确定优化目标，实现模态的调度，保障多模态网络资源合理使用。训练后的强化学习智能体应用于模态带宽资源调度方法中，能自适应于不同特征的网络中，可用于多模态网络的智慧管控，具有良好的适应性及调度性能。度性能。度性能。

全部详细技术资料下载

【技术实现步骤摘要】
强化学习智能体训练方法、模态带宽资源调度方法及装置

[0001]本专利技术属于网络管控
，尤其涉及强化学习智能体训练方法、模态带宽资源调度方法及装置。

技术介绍

[0002]在多模态网络中，同时运行着多种网络技术体制，每一种技术体制即为一种网络模态。各网络模态共享网络资源，如不加以管控，则会导致各网络模态直接竞争网络资源，如带宽等，这会直接影响部分关键模态的通信传输质量。因此，对网络中的各个模态进行合理管控是保障多模态网络稳定运行的必要前提之一。
[0003]对于上述需要，目前主流技术是控制交换机端口的带宽被使用的比例，限制出口流量大小以避免网络过载。
[0004]在实现本专利技术过程中，本专利技术人发现现有技术至少存在如下问题：使用这类静态的策略（如限制带宽使用比例不超过某个最大值）将无法适应网络模态动态变化的情况。而实际网络中，很有可能因业务变化而导致个别模态流量变大，此时原来的静态策略则不再适用。

技术实现思路

[0005]本申请实施例的目的是提供强化学习智能体训练方法、模态带宽资...

【技术保护点】

【技术特征摘要】
1.一种多模态网络中的强化学习智能体训练方法，其特征在于，应用于强化学习智能体，包括：S11：构建全局网络特征状态、动作及训练所述强化学习智能体所需的深度神经网络模型，其中所述深度神经网络模型包括执行新网络、执行旧网络及动作评价网络：S12：设置一轮训练的最大步数；S13：在每一步中，获取全局网络特征状态，将所述全局网络特征状态输入所述执行新网络，控制SDN交换机执行所述执行新网络输出的动作，获取所述SDN交换机执行所述动作后网络的状态和奖励值，将所述动作、奖励值和执行所述动作前后的两个时间段内分别的状态存入经验池；S14：根据所述经验池中所有的奖励值和执行动作前的状态，更新所述动作评价网络的网络参数；S15：将所述执行新网络的网络参数赋值给所述执行旧网络，并根据所述经验池中所有的动作和执行动作前的状态，更新所述执行新网络的网络参数；S16：重复步骤S13
‑
S15，直至多模态网络中各个模态占用的带宽均在保证通信传输质量的同时不让网络出口端过载。2.根据权利要求1所述的方法，其特征在于，所述全局网络特征状态包括各个模态的报文数量、各个模态的平均报文大小、每条流的平均时延、每条流中的数据包数量、每条流的大小、每条流中的平均数据包大小。3.根据权利要求1所述的方法，其特征在于，所述动作为在对应的全局网络特征状态下选择的动作向量的均值与噪声的和。4.根据权利要求1所述的方法，其特征在于，根据所述经验池中所有的奖励值和执行动作前的状态，更新所述动作评价网络的网络参数，包括：将所述经验池中所有的执行动作前的状态输入所述动作评价网络中，得到对应的期望价值；根据所述期望价值和对应的奖励值以及预先设定的衰减折扣，计算每个行动作前的状态的折扣奖励；计算所述折扣奖励与所述期望价值的差值，并根据所有差值计算均方差，将得到的均方差作为第一损失值，以更新所述动作评价网络的网络参数。5.根据权利要求4所述的方法，其特征在于，根据所述经验池中所有的动作和执行动作前的状态，更新所述执行新网络的网络参数，包括：将所述经验池中所有的执行动作前的状态分别输入所述执行旧网络和执行新网络，得到执行动作旧分布和执行动作新分布；计算所述经验池中每个动作在对应的所述执行动作旧分布和执行动作新分布中分别出现的第一概率和第二概率；计算所述第二概率与所述第一概率的比值；将所有的所述比值乘以对应的所述差值并求平均之后的值作为第二损失值，以更新所述执行新...

【专利技术属性】
技术研发人员：沈丛麒，张慧峰，姚少峰，徐琪，邹涛，张汝云，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人