用于智能运维的AI模型输入数据预处理方法技术

技术编号：33291965 阅读：10 留言：0更新日期：2022-05-01 00:12

本发明专利技术公开了用于智能运维的AI模型输入数据预处理方法，包括训练步骤和预测步骤，训练步骤包括：分别从ES数据库中查询得到本次需要增量训练的指定时间段内实时进程数量和实时线程数量的时序指标值，按照指标类型遍历时序性指标数据；判断每个指标类型的序列中是否包含缺失值；若中位数＜10则将中位数改为10，再将该指标类型的所有时序指标值统一除以10进行缩小；若中位数≥10，将该指标类型的所有时序指标值统一除以中位数进行缩小；得到新的时序数据列表；再从mysql数据库中查询之前保存的bytes对象，直接反序列化后得到的列表与所述新的时序数据列表相加，得到此次训练的全量数据，再输入模型进行训练。再输入模型进行训练。再输入模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
用于智能运维的AI模型输入数据预处理方法

[0001]本专利技术涉及一种用于智能运维的AI模型输入的数据预处理方法，更确切的说是涉及一种基于多指标时序性数据的预处理方法，属于计算机

技术介绍

[0002]随着智能运维的发展，越来越多的AI模型需要大数据的支撑，实时的指标时序性数据便是AI模型宝贵的财富。
[0003]实时的指标数据一般是通过采集端的采集器对监控机器的指标进行采集，但本申请专利技术人发现上述技术至少存在如下技术问题：指标时间序列采集器采集的数据常常有问题，例如，采集器端对数据采集存在漏采集，网络波动对数据的丢失等问题，导致多指标数据的不一致。对于多指标的AI模型来说，多指标的时序性数据必须要是同一时刻或者某时刻一定范围以内的数据才有意义，而不同指标之间的时序性数据存在着时序点的时差有缺失、数值基数大小偏差过大、时序性数据存储空间过大等问题，如何处理这些难题以便输入AI模型更有价值的数据，对智能运维显得尤为重要。
[0004]为了解决上述问题，需要有一种比较通用的方法对多指标时序性数据问题进行预处理，以便给AI模型提供质量更好的数据。

技术实现思路

[0005]针对上述技术问题，本专利技术提供一种基于多指标时序性数据的预处理方法，解决时序性数据缺失、数值基数差值过大以及时序数据存储空间过大的问题。
[0006]本申请实施例提供了一种用于智能运维的AI模型输入数据预处理方法，其特征在于包括训练步骤和预测步骤，所述训练步骤包括：步骤101、分别从ES数据库中查...

【技术保护点】

【技术特征摘要】
1.用于智能运维的AI模型输入数据预处理方法，其特征在于包括训练步骤和预测步骤，所述训练步骤包括：步骤101、分别从ES数据库中查询得到本次需要增量训练的指定时间段内实时进程数量和实时线程数量的时序指标值；步骤102、按照指标类型遍历时序性指标数据；步骤103、判断每个指标类型的序列中是否包含缺失值；步骤104、有缺失值则根据前后相邻时序点数据，拟合差值均线，根据时间差值与均线函数，补齐中间点；步骤105、分别按照指标类型获取该指标的中位数作为缩放基数，若中位数＜10则将中位数改为10，再将该指标类型的所有时序指标值统一除以10进行缩小；若中位数≥10，将该指标类型的所有时序指标值统一除以中位数进行缩小；得到新的时序数据列表；再从mysql数据库中查询之前保存的bytes对象，直接反序列化后得到的列表与所述新的时序数据列表相加，得到此次训练的全量数据，再输入模型进行训练；步骤106、文本序列化105步骤生成的二进制指标数据；步骤107、Zlib压缩序列化后的二进制指标数据；步骤108、作为bytes对象存储，将其再存入mysql中下次续用。2.根据权利要求1所述的用于智能运维的AI模型输入...

【专利技术属性】
技术研发人员：姜剑，
申请(专利权)人：南京林科斯拉信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人