一种监测网卡的模型训练方法及其应用、系统和电子设备技术方案

技术编号:36691349 阅读:17 留言:0更新日期:2023-02-27 19:59
本发明专利技术提供一种监测网卡的模型训练方法及其应用、系统和电子设备,所述方法包括:获取驱逐历史记录集合,计算生成验证集矩阵,以所述验证集矩阵构建训练集;将优化后的训练集输入到卷积神经网络中,通过与反向传播算法结合的随机梯度下降方式进行训练,获取训练好的调参模型,所述调参模型用于根据当前node集群机器上的数据情况动态计算软驱逐阈值和硬驱逐阈值,当网卡流量满足所述软驱逐阈值或硬驱逐阈值时,分别对pod执行软驱逐和硬驱逐;所述驱逐历史记录为历史上驱逐时的node集群机器的性能参数指标以及对应的软驱逐阈值和硬驱逐阈值。与现有技术相比,通过神经网络模型来动态计算最优的驱逐阈值,实现了对网卡资源的智能动态驱逐。能动态驱逐。能动态驱逐。

【技术实现步骤摘要】
一种监测网卡的模型训练方法及其应用、系统和电子设备


[0001]本专利技术涉及网络通信
,具体的,涉及一种监测网卡的模型训练方法及其应用、系统和电子设备。

技术介绍

[0002]随着容器化和kubernetes编排技术的流行,当下几乎所有的应用都运行在 kubernetes集群当中。无数的服务在集群上面以pod的形式运行,当集群节点发生CPU、IO、磁盘等性能瓶颈时,kubernetes集群对该节点的pod按照一定的策略重新调度迁移到资源满足的新节点,确保节点资源和服务的双向平衡。 kubelet监测节点各项指标并与阈值进行比较触发主动驱逐是kubernetes重新调度的核心、关键手段。
[0003]虽然kubernetes在机器上对于CPU、IO、磁盘等监测的运用已经很广,但是缺乏对机器网卡流量的监测和驱逐,对于网卡压力大时,kubernetes无法感知以及触发pod驱逐,导致未能及时主动的进行pod迁移和网络流量负载均衡。并且网络资源是动态变化的,需要针对不同时刻各个网络节点的情况进行动态的均衡。

技术实现思路

[0004]本专利技术旨在克服上述现有技术的至少一种缺陷,提出一种监测网卡的模型训练方法及其应用、系统和电子设备,用于能够智能的实现对网卡的监测和驱逐。
[0005]本专利技术采用的技术方案为:
[0006]提供一种监测网卡的模型训练方法,所述方法包括:
[0007]获取驱逐历史记录集合,计算生成验证集矩阵,以所述验证集矩阵构建训练集D和验证集V;r/>[0008]将训练集输入到卷积神经网络中,通过与反向传播算法结合的随机梯度下降方式进行训练,获取训练好的调参模型,所述调参模型用于根据当前node集群机器上的数据情况动态计算软驱逐阈值和硬驱逐阈值,当网卡流量满足所述软驱逐阈值或硬驱逐阈值时,分别对pod执行软驱逐和硬驱逐;
[0009]所述通过反向传播算法结合的随机梯度下降方式进行训练包括:
[0010]将训练集D输入到神经网络模型中,得到网络输出为假设损失函数为通过计算损失函数关于每个参数的导数进行参数学习,具体步骤如下:
[0011]A1:随机初始化参数权重矩阵w和偏置b;
[0012]A2:对训练集中的样本随机重排序;
[0013]A3:从训练集D中选取样本x
(n)
,y
(n)
,初始n=0;
[0014]A4:前馈计算每一层的净输入z
(l)
和激活值a
(l)
,直到最后一层;
[0015]A5:反向传播计算每一层的误差δ
(l)
;推导得出关于第l层的偏置 W
(l)
的梯
度为:
[0016]A6:计算关于第l层的偏置b
(l)
的梯度为:
[0017]A7:通过公式进行W、b参数的更新:b
(l)

b
(l)

αδ
(l)
;A8:将n 的值加1并重复执行A3

A7步骤直到训练n=N;
[0018]A9:重复执行A2

A8步骤,直到卷积神经网络模型在验证集V上的错误率不再下降。
[0019]所述驱逐历史记录为历史上驱逐时的node集群机器的性能参数指标以及对应的软驱逐阈值和硬驱逐阈值。
[0020]获取历史上产生驱逐时node集群机器上的各项性能参数,包括软驱逐阈值、硬驱逐阈值、CPU使用率、内存使用率、网卡使用率以及驱逐信号等,这些信息存储在node集群机器的时序数据库中,生成验证集矩阵,与软驱逐阈值及硬驱逐阈值一起生成训练集,通过与反向传播算法结合的随机梯度下降方式进行训练,获取训练好的调参模型,所述调参模型能够根据各项性能参数计算该性能指标下最优的软驱逐阈值和硬驱逐阈值,当机器满足软驱逐阈值或硬驱逐阈值时,对集群中的pod执行驱逐,并且软驱逐阈值和硬驱逐阈值不是一成不变的,通过结合当前动态变化的机器的性能参数使用调参模型进行计算,能够得到当前机器状态下最优的软驱逐阈值和硬驱逐阈值进行设置。使机器能够动态的根据自身状态设置最优的驱逐阈值,实现智能的对网卡的监控和驱逐。并且由于网卡信息数据量非常大,所以使用随机梯度下降和反向传播算法相结合的训练方式,提高了训练的效率。
[0021]进一步的,所述计算生成验证集矩阵,以所述验证集矩阵X构建训练集D和验证集V具体为:
[0022]从获取到的记录中提取软驱逐阈值、硬驱逐阈值、CPU、内存网卡指标、驱逐信号量、驱逐记录,联合抽取数据形成验证集矩阵,然后以验证集矩阵生成训练集数据D和验证集V;
[0023]训练集
[0024]其中x为验证集矩阵,X[0]表示CPU使用率、X[1]表示内存使用率、X[2] 表示网卡使用率,y为对应的CPU使用率、内存使用率和网卡使用率下的pod 的驱逐占比;
[0025]验证集数据格式与训练集一致。
[0026]使用磁盘读写、流量压测、密集型CPU运行程序,使得CPU、内存、网卡的使用率进行调整,记录下此时的pod运行个数总数y1,进行压测前机器运行的pod的总个数y0,以及CPU使用率、内存使用率和网卡使用率,其中驱逐pod 总数y2=y0

y1。x[3]=y2/y0,并组合此时的CPU使用率、内存使用率、网卡使用率三个指标,组成驱逐记录矩阵4元组。因为CPU、内存和网卡为影响计算机性能的主要参数,结合进行分析能够更好的计算出其与驱逐阈值的关联关系,进而获得最优的驱逐阈值。
[0027]进一步的,所述软驱逐阈值eviction

soft包括:cpu.available(CPU使用阈值),
memory.available(内存使用阈值)和network.available(网卡使用阈值);
[0028]所述硬驱逐阈值eviction

hard包括:cpu.available(CPU使用阈值),memory.available(内存使用阈值)和network.available(网卡使用阈值)。
[0029]分别为k8s的软驱逐和硬驱逐设置了CPU使用阈值,内存使用阈值和网卡使用阈值,可以实现分别对CPU,内存和网卡资源进行监测,当当前的CPU使用率、内存使用率或网卡使用率超出对应的软驱逐或硬驱逐阈值时,执行驱逐将 pod驱逐,通过对三个要素的判断,使对pod的驱逐更加智能。
[0030]本专利技术还提供一种监测网卡的模型的应用,所述方法包括:
[0031]配置采集模块对集群node机器进行监控和数据采集;
[0032]将采集到的数据进行预处理并存储;
[0033]基于K8s来对网卡的驱逐算法模型进行改进,包括:为网卡设置软驱逐阈值和硬驱逐阈值的初始值,并将其设置到监听服务中,当网卡节点流量占用小于软驱逐阈值或硬本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种监测网卡的模型训练方法,其特征在于,所述方法包括:获取驱逐历史记录集合,计算生成验证集矩阵X,以所述验证集矩阵X构建训练集D和验证集V;将训练集输入到卷积神经网络中,通过与反向传播算法结合的随机梯度下降方式进行训练,获取训练好的调参模型,所述调参模型用于根据当前node集群机器上的数据情况动态计算软驱逐阈值和硬驱逐阈值,当网卡流量满足所述软驱逐阈值或硬驱逐阈值时,分别对pod执行软驱逐和硬驱逐;所述通过反向传播算法结合的随机梯度下降方式进行训练包括:将训练集D输入到神经网络模型中,得到网络输出为假设损失函数为通过计算损失函数关于每个参数的导数进行参数学习,具体步骤如下:A1:随机初始化参数权重矩阵w和偏置b;A2:对训练集中的样本随机重排序;A3:从训练集D中选取样本x
(n)
,y
(n)
,初始n=0;y
(n)
x
(n)
A4:前馈计算每一层的净输入z
(l)
和激活值a
(l)
,直到最后一层;A5:反向传播计算每一层的误差δ
(l)
;推导得出关于第1层的偏置W
(l)
的梯度为:A6:计算关于第1层的偏置b
(l)
的梯度为:A7:通过公式进行W、b参数的更新:W
(l)

W
(l)

α(δ
(l)
(a
(l

1)
)
T
+λW
(l)
)、b
(l)

b
(l)

αδ
(l)
;A8:将n的值加1并重复执行A3

A7步骤直到训练n=N;A9:重复执行A2

A8步骤,直到卷积神经网络模型在验证集V上的错误率不再下降。所述驱逐历史记录为历史上驱逐时的node集群机器的性能参数指标以及对应的软驱逐阈值和硬驱逐阈值。2.根据权利要求1所述的一种监测网卡的模型训练方法,其特征在于,所述计算生成验证集矩阵,以所述验证集矩阵X构建训练集D和验证集V具体为:从获取到的记录中提取软驱逐阈值、硬驱逐阈值、CPU、内存网卡指标、驱逐信号量、驱逐记录,联合抽取数据形成验证集矩阵,然后以验证集矩阵生成训练集数据D和验证集V;训练集其中X为验证集矩阵,X[0]表示CPU使用率、X[1]表示内存使用率、X[2]表示网卡使用率,y为对应的CPU使用率、内存使用率和网卡使用率下的pod的驱逐占比;验证集数据格式与训练集一致。3.根据权利要求1所述的一种监测网卡的模型训练方法,其特征在于,所述软驱逐阈值eviction

soft包括:cpu.available(CPU使用阈值),memory.available(内存使用阈值)和network.available(网卡使用阈值);
所述硬驱逐阈值eviction

hard包括:cpu.available(CPU使用阈值),memory.available(内存使用阈值)和network.available(网卡使用阈值)。4.一种监测网卡的模型的应用,其特征在于,所述方法包括:配置采集模块对集群node机器进行监控和数据采...

【专利技术属性】
技术研发人员:邱述洪林栋刘汉亮刘俊镜黄民兴麦福全龙步云
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1