运维指标监控模型训练方法、装置及数据滤波方法制造方法及图纸

技术编号:33034240 阅读:10 留言:0更新日期:2022-04-15 09:11
本发明专利技术公开了一种运维指标监控模型训练方法、装置及数据滤波方法。其中,该方法包括:确定第一训练数据集;确定目标滤波器,其中,目标滤波器中包括空间核,值域核和时域核;基于目标滤波器对第一训练数据集进行滤波,得到第二训练数据集;基于第二训练数据集对运维指标监控模型进行训练。本发明专利技术解决了由于现有技术中不能有效降低波动噪声数据对模型的不利影响造成的模型训练效果不佳的技术问题。响造成的模型训练效果不佳的技术问题。响造成的模型训练效果不佳的技术问题。

【技术实现步骤摘要】
运维指标监控模型训练方法、装置及数据滤波方法


[0001]本专利技术涉及IT运维领域,具体而言,涉及一种运维指标监控模型训练方法、装置及数据滤波方法。

技术介绍

[0002]目前,企业内传统的运维工具,例如zabbix、prometheus、solarwinds等一般基于阈值告警,即告警占用率超过某一阈值后,并且触发一段时间后,通过短信、电话、即时通信接口等方式告知运维人员。这种告警方式集中存在告警的有效性不高,噪声、重复告警数量多的问题。例如以下场景:
[0003]一些指标短期在监控阈值附件反复波动,容易持续产生大量的重复告警。
[0004]一些监控指标的劣化速度相当慢,例如内存占用从90%增长至95%需要超过一个月甚至更久的情况,设定监控阈值为90%后会持续产生大量重复告警。
[0005]上述低价值、甚至无效的告警在本专利统称为噪声告警。总之,大量重复、低价值的告警会严重降低运维人员的敏感度,可能造成遗漏关注关键告警信息。
[0006]现有技术中虽然也有一些方法可用于告警噪声的抑制,但存在以下不足:
[0007]1)预测模型事先推定监控指标的函数模型和个别参数取值,经常出现预测结果与监控指标的真实分布不符的情况,用于噪声抑制的效果不佳。
[0008]2)难以对不同大小时间窗口的监控指标作出有效预测,通常只能够对一定时效内的监控指标进行预测。上述专利授权基于单一时间窗口进行预测,难以同时兼顾短、中、长期的故障的预测能力。例如,一些专利方法在小时级别的数据集上有较好的预测效果,能够预测未来数小时内监控指标的变化趋势,但是对于短时间内劣化严重的监控指标和数天内缓慢劣化的监控指标难以做出有效预测,或预测精度与实际有较大出入。
[0009]综上,一方面传统的时间序列分析、回归分析等技术,受限于模型能力限制,在预测能力上存在缺陷。另一方面,循环神经网络(LSTM\GRU)模型虽然在时间序列型数据预测、NLP等领域有着优异的表现,但是IT监控预测场景下,却存在着以下问题:
[0010]一些监控指标的频繁波动,容易对循环神经网络的门控、模型状态造成影响,影响预测精度。例如,服务器启动关闭进程时,CPU、内存等指标在会有频繁的波动,会对传统的循环网络模型产生干扰。
[0011]大时间窗口下,由于训练数据增大,需要训练的参数量也随之增多,模型训练的耗时增大,不利于生产环境下的快测预测和响应。
[0012]其次,循环时间网络普遍面临的问题:若采集的样本点间隔时间不等,则预测效果会变得很差。在实际生产中,若发生采集系统的故障等原因,造成数据采集间隔时间不等,则会严重降低预测精度。
[0013]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0014]本专利技术实施例提供了一种运维指标监控模型训练方法、装置及数据滤波方法,以至少解决由于现有技术中不能有效降低波动噪声数据对模型的不利影响造成的模型训练效果不佳的技术问题。
[0015]根据本专利技术实施例的一个方面,提供了一种运维指标监控模型训练方法,包括:确定第一训练数据集;确定目标滤波器,其中,目标滤波器中包括空间核,值域核和时域核;基于目标滤波器对第一训练数据集进行滤波,得到第二训练数据集;基于第二训练数据集对运维指标监控模型进行训练。
[0016]可选地,确定第一训练数据集包括:确定运维指标监控模型的预测窗口的大小;确定多个样本,以及多个样本中的每个样本对应的采样周期,其中,样本为服务器;确定多个样本中的每个样本对应的采样点,其中,每个样本对应的采样点的数量与预测窗口的大小相同,采样点中包括表示采样时间点的时间戳,以及在采样时间点采样得到的样本的目标运维指标的指标值,目标运维指标为运维指标监控模型监控的指标;确定多个样本中的每个样本对应的标签;确定第一训练数据集中的样本集和标签集,其中,样本集中包括多个样本中的每个样本对应的采样点,标签集中包括多个样本中的每个样本对应的标签。
[0017]可选地,确定目标滤波器包括:确定空间目标函数,值域目标函数,以及时域目标函数;依据空间目标函数,值域目标函数,以及时域目标函数构建目标滤波器的权重规范项,其中,空间目标函数和权重规范项组成部分中的空间部分为空间核,值域目标函数和权重规范项组成部分中的值域部分为值域核,时域目标函数和权重规范项组成部分中的时域部分为时域核;依据权重规范项,空间目标函数,值域目标函数,以及时域目标函数构建目标滤波器,其中,目标滤波器用于对第一训练数据集进行双边滤波。
[0018]可选地,目标滤波器用于对第一训练数据集降噪,其中,空间核用于对第一训练数据集中的第一样本降噪,其中,第一样本为第一训练数据集中的样本值方差小于第一预设方差阈值的样本;值域核用于对第一训练数据集中的第二样本降噪,其中,第二样本为第一训练数据集中的样本值方差大于第一预设方差阈值的样本;时域核用于对第一训练数据集中的第三样本降噪,其中,第三样本为第一训练数据集中的采样周期方差大于第二预设方差阈值的样本。
[0019]可选地,基于目标滤波器对训练数据集进行滤波,得到第二训练数据集包括:确定目标滤波器的滤波步长,其中,滤波步长大于1;按照滤波步长,基于目标滤波器对训练数据集进行降采样,得到第二训练数据集。
[0020]可选地,基于目标滤波器对第一训练数据集进行滤波,得到第二训练数据集包括:确定第一训练数据集中的样本集对应的样本集矩阵,以及第一训练数据集中的样本的标签集对应的标签集矩阵,其中,样本集矩阵中的元素为每个样本对应的采样点,采样点中包括表示采样时间点的时间戳,以及在采样时间点采样得到的样本的目标运维指标的指标值,目标运维指标为运维指标监控模型监控的指标,标签集矩阵中的元素为每个样本对应的标签;将样本集矩阵和标签集矩阵合并为与第一训练数据集对应的第一增广矩阵;基于目标滤波器对第一增广矩阵进行滤波,得到第二增广矩阵,并将第二增广矩阵作为第二训练数据集。
[0021]根据本专利技术实施例的另一方面,还提供了一种数据滤波方法,包括:确定训练数据
集;确定目标滤波器,其中,目标滤波器中包括空间核,值域核和时域核;在训练数据集中的样本为第一样本的情况下,基于空间核用于对训练数据集中的第一样本降噪,其中,第一样本为训练数据集中的样本值方差小于第一预设方差阈值的样本;在训练数据集中的样本为第二样本的情况下,基于值域核用于对训练数据集中的第二样本降噪,其中,第二样本为训练数据集中的样本值方差大于第一预设方差阈值的样本;在训练数据集中的样本为第三样本的情况下,基于时域核用于对训练数据集中的第三样本降噪,其中,第三样本为训练数据集中的采样周期方差大于第二预设方差阈值的样本。
[0022]根据本专利技术实施例的另一方面,还提供了一种运维指标监控模型训练装置,包括:第一处理模块,用于确定第一训练数据集;第二处理模块,用于确定目标滤波器,其中,目标滤波器中包括空间核,值域核和时域核;过滤模块,用于基于目标滤波器对第一训练数据集进行滤波,得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种运维指标监控模型训练方法,其特征在于,包括:确定第一训练数据集;确定目标滤波器,其中,所述目标滤波器中包括空间核,值域核和时域核;基于所述目标滤波器对所述第一训练数据集进行滤波,得到第二训练数据集;基于所述第二训练数据集对所述运维指标监控模型进行训练。2.根据权利要求1所述的运维指标监控模型训练方法,其特征在于,确定第一训练数据集包括:确定所述运维指标监控模型的预测窗口的大小;确定多个样本,以及所述多个样本中的每个样本对应的采样周期,其中,所述样本为服务器;确定所述多个样本中的每个样本对应的采样点,其中,所述每个样本对应的采样点的数量与所述预测窗口的大小相同,所述采样点中包括表示采样时间点的时间戳,以及在所述采样时间点采样得到的所述样本的目标运维指标的指标值,所述目标运维指标为所述运维指标监控模型监控的指标;确定所述多个样本中的每个样本对应的标签;确定所述第一训练数据集中的样本集和标签集,其中,所述样本集中包括所述多个样本中的每个样本对应的采样点,所述标签集中包括所述多个样本中的每个样本对应的标签。3.根据权利要求1所述的运维指标监控模型训练方法,其特征在于,确定目标滤波器包括:确定空间目标函数,值域目标函数,以及时域目标函数;依据所述空间目标函数,所述值域目标函数,以及所述时域目标函数构建所述目标滤波器的权重规范项,其中,所述空间目标函数和所述权重规范项组成部分中的空间部分为所述空间核,所述值域目标函数和所述权重规范项组成部分中的值域部分为所述值域核,所述时域目标函数和所述权重规范项组成部分中的时域部分为所述时域核;依据所述权重规范项,所述空间目标函数,所述值域目标函数,以及所述时域目标函数构建所述目标滤波器,其中,所述目标滤波器用于对所述第一训练数据集进行双边滤波。4.根据权利要求1所述的运维指标监控模型训练方法,其特征在于,所述目标滤波器用于对所述第一训练数据集降噪,其中,所述空间核用于对所述第一训练数据集中的第一样本降噪,其中,所述第一样本为所述第一训练数据集中的样本值方差小于第一预设方差阈值的样本;所述值域核用于对所述第一训练数据集中的第二样本降噪,其中,所述第二样本为所述第一训练数据集中的样本值方差大于第一预设方差阈值的样本;所述时域核用于对所述第一训练数据集中的第三样本降噪,其中,所述第三样本为所述第一训练数据集中的采样周期方差大于第二预设方差阈值的样本。5.根据权利要求1所述的运维指标监控模型训练方法,其特征在于,基于所述目标滤波器对所述训练数据集进行滤波,得到第二训练数据集包括:确定所述...

【专利技术属性】
技术研发人员:杨槿
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1