用于智能运维的AI模型输入数据预处理方法技术

技术编号:33291965 阅读:10 留言:0更新日期:2022-05-01 00:12
本发明专利技术公开了用于智能运维的AI模型输入数据预处理方法,包括训练步骤和预测步骤,训练步骤包括:分别从ES数据库中查询得到本次需要增量训练的指定时间段内实时进程数量和实时线程数量的时序指标值,按照指标类型遍历时序性指标数据;判断每个指标类型的序列中是否包含缺失值;若中位数<10则将中位数改为10,再将该指标类型的所有时序指标值统一除以10进行缩小;若中位数≥10,将该指标类型的所有时序指标值统一除以中位数进行缩小;得到新的时序数据列表;再从mysql数据库中查询之前保存的bytes对象,直接反序列化后得到的列表与所述新的时序数据列表相加,得到此次训练的全量数据,再输入模型进行训练。再输入模型进行训练。再输入模型进行训练。

【技术实现步骤摘要】
用于智能运维的AI模型输入数据预处理方法


[0001]本专利技术涉及一种用于智能运维的AI模型输入的数据预处理方法,更确切的说是涉及一种基于多指标时序性数据的预处理方法,属于计算机


技术介绍

[0002]随着智能运维的发展,越来越多的AI模型需要大数据的支撑,实时的指标时序性数据便是AI模型宝贵的财富。
[0003]实时的指标数据一般是通过采集端的采集器对监控机器的指标进行采集,但本申请专利技术人发现上述技术至少存在如下技术问题:指标时间序列采集器采集的数据常常有问题,例如,采集器端对数据采集存在漏采集,网络波动对数据的丢失等问题,导致多指标数据的不一致。对于多指标的AI模型来说,多指标的时序性数据必须要是同一时刻或者某时刻一定范围以内的数据才有意义,而不同指标之间的时序性数据存在着时序点的时差有缺失、数值基数大小偏差过大、时序性数据存储空间过大等问题,如何处理这些难题以便输入AI模型更有价值的数据,对智能运维显得尤为重要。
[0004]为了解决上述问题,需要有一种比较通用的方法对多指标时序性数据问题进行预处理,以便给AI模型提供质量更好的数据。

技术实现思路

[0005]针对上述技术问题,本专利技术提供一种基于多指标时序性数据的预处理方法,解决时序性数据缺失、数值基数差值过大以及时序数据存储空间过大的问题。
[0006]本申请实施例提供了一种用于智能运维的AI模型输入数据预处理方法,其特征在于包括训练步骤和预测步骤,所述训练步骤包括:步骤101、分别从ES数据库中查询得到本次需要增量训练的指定时间段内实时进程数量和实时线程数量的时序指标值;步骤102、按照指标类型遍历时序性指标数据;步骤103、判断每个指标类型的序列中是否包含缺失值;步骤104、有缺失值则根据前后相邻时序点数据,拟合差值均线,根据时间差值与均线函数,补齐中间点;步骤105、分别按照指标类型获取该指标的中位数作为缩放基数,若中位数<10则将中位数改为10,再将该指标类型的所有时序指标值统一除以10进行缩小;若中位数≥10,将该指标类型的所有时序指标值统一除以中位数进行缩小;得到新的时序数据列表;再从mysql数据库中查询之前保存的bytes对象,直接反序列化后得到的列表与所述新的时序数据列表相加,得到此次训练的全量数据,再输入模型进行训练;步骤106、文本序列105步骤生成的二进制指标数据;步骤107、Zlib压缩序列化后的二进制指标数据;
步骤108、作为bytes对象存储,将其再存入mysql中下次续用;本专利技术进一步限定的方案为,所述预测步骤包括:步骤201、从redis数据库中读取本次预测的时间范围内实时进程数量和实时线程数量的时序指标值的多维数组;步骤202、从模型存储库中加载对应指标的训练模型时存储的处理指标参数;步骤203、按照指标类型遍历时序性指标数据;步骤204、判断每个指标类型的序列中是否包含缺失值;步骤205、有缺失值则根据前后相邻时序点数据,拟合差值均线,根据时间差值与均线函数,补齐中间点;步骤206、步骤206、分别按照指标类型获取该指标的中位数作为缩放基数,若中位数<10则将中位数改为10,再将该指标类型的所有时序指标值统一除以10进行缩小;若中位数≥10,将该指标类型的所有时序指标值统一除以中位数进行缩小;得到新的时序数据列表;再从mysql数据库中查询之前保存的bytes对象,直接反序列化后得到的列表与所述新的时序数据列表相加,得到此次训练的全量数据,再输入模型进行训练;步骤207、加载模型库中实时进程数量与实时线程数量的模型;步骤208、根据指标对应的机器学习模型预测处理后的指标数据,返回预测结果;步骤209、根据告警规则接口返回告警逻辑,预测处理过程结束。
[0007]技术效果:本专利技术提供的基于多指标时序性数据的预处理方法,可以解决时序性数据缺失、数值基数差值过大以及时序数据存储空间过大的问题,为AI模型输入提供更规整、质量更高的数据。本专利技术可应用于智能化运维领域,具有广泛的应用前景。
附图说明
[0008]图1为本专利技术实施例中训练流程示意图。
[0009]图2为本专利技术实施例中加入预处理方法后的模型预测流程示意图。
[0010]图3为本专利技术实施例中加入预处理算法后的模型预测结果示意图。
[0011]图4为未加入预处理算法的对比模型预测结果示意图。
具体实施方式
[0012]本实施例提供一种用于智能运维的AI模型输入数据预处理方法,更具体的说是一种基于多指标时序性数据的预处理方法,本方法获取需要预测的指标数据来自于redis数据库,获取全量的指标数据来自于ES数据库,保存预处理后的bytes对象数据存于mysql数据库,其中每个指标的中位数,由定时任务每间隔一段时间,会从指标项的全量数据中提取中位数后再存入mysql数据库中。
[0013]本实施例选取的运维指标是从Linux系统的运维指标中,选取了实时进程数量和实时线程数量两个指标,指标点之间的时序间隔是1小时。
[0014]本实施例预处理后的数据,将数据输出给 STL模型、孤立森林模型、直方图模型,三个模型混合预测。
[0015]在对于时序性数据缺失的问题上:1)在相同指标数据的时间序列中,连续时序数据发生断层遗漏了中间点数据,本
实施例采取的方案是根据前后相邻时序点数据,拟合差值均线,根据时间差值与均线函数,补齐中间点。
[0016]2)在对于不同指标数据的数值基数偏差过大问题,即a、b、c三个指标中a、b指标的数据均等,而c指标数值基数远大于或远小于a、b,导致在模型训练时不同维度的刚量数据糅杂在一起,对最终模型的训练结果、预测结果偏差较大。采用的方案是以指标的历史全量数据中的中位数为缩放基数,先提取指标全量数据中的中位数,若中位数小于10,则中位数取10,此做法是针对于指标数值基数过小的数据,中位数过小也会导致缩放后的数据偏差敏感,将需要训练或预测的时序数值都除以中位数以后取整,再输出时序值给模型,可以大大降低数据基数偏差大而导致数据预测结果敏感的问题。
[0017]3)在对于超大数据存储问题上,即多时刻预处理后的数据存储占用过大空间问题。采取将多维度指标数据json数组经过文本序列化后,得到一个二进制形式的序列对象,再经过zlib算法的压缩,对序列化后的数据进行压缩,可以在单独存储原数据的基础上大概率节省一半的数据存储空间,以及数据的读取和网络传输上节省大量时间和带宽。
[0018]下面结合更具体的实施方式对本专利技术进行阐述说明。
[0019]本实施例基于多指标时序性数据的预处理方法分为训练步骤与预测步骤,其中如图1所示,训练步骤包括:步骤101、分别从ES数据库中查询得到本次需要增量训练的指定时间段内实时进程数量和实时线程数量的时序指标值;步骤102、按照指标类型遍历时序性指标数据;步骤103、判断每个指标类型的序列中是否包含缺失值;步骤104、有缺失值则根据前后相邻时序点数据,拟合差值均线,根据时间差值与均线函数,补本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于智能运维的AI模型输入数据预处理方法,其特征在于包括训练步骤和预测步骤,所述训练步骤包括:步骤101、分别从ES数据库中查询得到本次需要增量训练的指定时间段内实时进程数量和实时线程数量的时序指标值;步骤102、按照指标类型遍历时序性指标数据;步骤103、判断每个指标类型的序列中是否包含缺失值;步骤104、有缺失值则根据前后相邻时序点数据,拟合差值均线,根据时间差值与均线函数,补齐中间点;步骤105、分别按照指标类型获取该指标的中位数作为缩放基数,若中位数<10则将中位数改为10,再将该指标类型的所有时序指标值统一除以10进行缩小;若中位数≥10,将该指标类型的所有时序指标值统一除以中位数进行缩小;得到新的时序数据列表;再从mysql数据库中查询之前保存的bytes对象,直接反序列化后得到的列表与所述新的时序数据列表相加,得到此次训练的全量数据,再输入模型进行训练;步骤106、文本序列化105步骤生成的二进制指标数据;步骤107、Zlib压缩序列化后的二进制指标数据;步骤108、作为bytes对象存储,将其再存入mysql中下次续用。2.根据权利要求1所述的用于智能运维的AI模型输入...

【专利技术属性】
技术研发人员:姜剑
申请(专利权)人:南京林科斯拉信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1