一种监测网卡的模型训练方法及其应用、系统和电子设备技术方案

技术编号：36691349 阅读：35 留言：0更新日期：2023-02-27 19:59

本发明专利技术提供一种监测网卡的模型训练方法及其应用、系统和电子设备，所述方法包括：获取驱逐历史记录集合，计算生成验证集矩阵，以所述验证集矩阵构建训练集；将优化后的训练集输入到卷积神经网络中，通过与反向传播算法结合的随机梯度下降方式进行训练，获取训练好的调参模型，所述调参模型用于根据当前node集群机器上的数据情况动态计算软驱逐阈值和硬驱逐阈值，当网卡流量满足所述软驱逐阈值或硬驱逐阈值时，分别对pod执行软驱逐和硬驱逐；所述驱逐历史记录为历史上驱逐时的node集群机器的性能参数指标以及对应的软驱逐阈值和硬驱逐阈值。与现有技术相比，通过神经网络模型来动态计算最优的驱逐阈值，实现了对网卡资源的智能动态驱逐。能动态驱逐。能动态驱逐。

全部详细技术资料下载

【技术实现步骤摘要】
一种监测网卡的模型训练方法及其应用、系统和电子设备

[0001]本专利技术涉及网络通信
，具体的，涉及一种监测网卡的模型训练方法及其应用、系统和电子设备。

技术介绍

[0002]随着容器化和kubernetes编排技术的流行，当下几乎所有的应用都运行在 kubernetes集群当中。无数的服务在集群上面以pod的形式运行，当集群节点发生CPU、IO、磁盘等性能瓶颈时，kubernetes集群对该节点的pod按照一定的策略重新调度迁移到资源满足的新节点，确保节点资源和服务的双向平衡。 kubelet监测节点各项指标并与阈值进行比较触发主动驱逐是kubernetes重新调度的核心、关键手段。
[0003]虽然kubernetes在机器上对于CPU、IO、磁盘等监测的运用已经很广，但是缺乏对机器网卡流量的监测和驱逐，对于网卡压力大时，kubernetes无法感知以及触发pod驱逐，导致未能及时主动的进行pod迁移和网络流量负载均衡。并且网络资源是动态变化的，需要针对不同时刻各个网络节点的情况进行动态的均衡。

【技术保护点】

【技术特征摘要】
1.一种监测网卡的模型训练方法，其特征在于，所述方法包括：获取驱逐历史记录集合，计算生成验证集矩阵X，以所述验证集矩阵X构建训练集D和验证集V；将训练集输入到卷积神经网络中，通过与反向传播算法结合的随机梯度下降方式进行训练，获取训练好的调参模型，所述调参模型用于根据当前node集群机器上的数据情况动态计算软驱逐阈值和硬驱逐阈值，当网卡流量满足所述软驱逐阈值或硬驱逐阈值时，分别对pod执行软驱逐和硬驱逐；所述通过反向传播算法结合的随机梯度下降方式进行训练包括：将训练集D输入到神经网络模型中，得到网络输出为假设损失函数为通过计算损失函数关于每个参数的导数进行参数学习，具体步骤如下：A1：随机初始化参数权重矩阵w和偏置b；A2：对训练集中的样本随机重排序；A3：从训练集D中选取样本x
(n)
，y
(n)
，初始n＝0；y
(n)
x
(n)
A4：前馈计算每一层的净输入z
(l)
和激活值a
(l)
，直到最后一层；A5：反向传播计算每一层的误差δ
(l)
；推导得出关于第1层的偏置W
(l)
的梯度为：A6：计算关于第1层的偏置b
(l)
的梯度为：A7：通过公式进行W、b参数的更新：W
(l)
←
W
(l)
‑
α(δ
(l)
(a
(l
‑
1)
)
T
+λW
(l)
)、b
(l)
←
b
(l)
‑
αδ
(l)
；A8：将n的值加1并重复执行A3
‑
A7步骤直到训练n＝N；A9：重复执行A2
‑
A8步骤，直到卷积神经网络模型在验证集V上的错误率不再下降。所述驱逐历史记录为历史上驱逐时的node集群机器的性能参数指标以及对应的软驱逐阈值和硬驱逐阈值。2.根据权利要求1所述的一种监测网卡的模型训练方法，其特征在于，所述计算生成验证集矩阵，以所述验证集矩阵X构建训练集D和验证集V具体为：从获取到的记录中提取软驱逐阈值、硬驱逐阈值、CPU、内存网卡指标、驱逐信号量、驱逐记录，联合抽取数据形成验证集矩阵，然后以验证集矩阵生成训练集数据D和验证集V；训练集其中X为验证集矩阵，X[0]表示CPU使用率、X[1]表示内存使用率、X[2]表示网卡使用率，y为对应的CPU使用率、内存使用率和网卡使用率下的pod的驱逐占比；验证集数据格式与训练集一致。3.根据权利要求1所述的一种监测网卡的模型训练方法，其特征在于，所述软驱逐阈值eviction
‑
soft包括：cpu.available(CPU使用阈值)，memory.available(内存使用阈值)和network.available(网卡使用阈值)；
所述硬驱逐阈值eviction
‑
hard包括：cpu.available(CPU使用阈值)，memory.available(内存使用阈值)和network.available(网卡使用阈值)。4.一种监测网卡的模型的应用，其特征在于，所述方法包括：配置采集模块对集群node机器进行监控和数据采...

【专利技术属性】
技术研发人员：邱述洪，林栋，刘汉亮，刘俊镜，黄民兴，麦福全，龙步云，
申请(专利权)人：联通广东产业互联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人