一种基于机器学习的运维数据异常检测方法技术

技术编号:37536352 阅读:17 留言:0更新日期:2023-05-12 16:04
本发明专利技术提供一种基于机器学习的运维数据异常检测方法,属于数据处理领域,具体包括:对运维数据进行采集,并基于所述运维数据进行特征提取得到运维数据特征,并将所述运维数据特征转换为向量数据;对所述向量数据进行归一化的预处理得到预处理向量数据,并基于所述预处理向量数据进行样本空间的构建,通过记忆力增强模块对所述样本空间进行重构得到重构向量数据;基于所述重构向量数据,对对抗模型进行训练实现训练完成的对抗模型的构建,并基于所述训练完成的对抗模型实现对运维数据的异常检测,从而进一步提升了运维数据异常检测的效率和准确性。率和准确性。率和准确性。

【技术实现步骤摘要】
一种基于机器学习的运维数据异常检测方法


[0001]本专利技术属于数据处理
,尤其涉及一种基于机器学习的运维数据异常检测方法。

技术介绍

[0002]随着应用系统的体量变得越来越庞大,功能模块变得越来越复杂,如今的计算机系统很容易出现软件BUG以及被心怀不轨的黑客攻击而进入运行异常状态,而且这些异常的产生也呈现出复杂化和高频化的趋势,系统的运维工作也愈发困难。以往通过人工查看系统日志进行运维数据异常检测和问题诊断的方式耗时耗力,逐渐难以满足当前系统运维需求。因此,如何利用先进的技术手段研发一个高效的、完善的运维数据异常检测方法就成为了产业领域和学术界共同的当务之急。
[0003]为了实现基于运维数据的异常检测,在授权专利技术专利授权公告号CN109241144B《一种运维数据挖掘及合规检查方法及系统》中通过根据运维数据信息中非结构化数据进行分词处理,并将分词处理后的获得的文本模型转换为数字向量模型;根据数字向量模型通过机器学习算法训练获得运维数据处理模型;根据运维数据处理模型对数字向量模型进行聚类处理和/或获得数字向量模型的关键要素点;根据运维数据信息中结构化数据与数字向量模型进行聚类处理和/或获得数字向量模型的关键要素点获得结构化的运维数据,根据结构化的运维数据获得运维数据检查结果,但是却存在以下技术问题:
[0004]1)未进行运维数据的归一化,运维数据的类型、特征属性之间存在较大的差异,若不能进行运维数据的归一化处理,从而会导致输入数据的特征混乱,进而影响异常检测的效率和准确性。
[0005]2)未考虑采用记忆增强模块保存最具代表性的特征,在进行模型预测时,不同的输入的运维数据特征的代表性和关联性均不相同,若不能筛选得到最具代表性的运维数据特征同时采用记忆增强模块进行增强操作,则最终的预测模型的处理效率和精度同样会受到影响。
[0006]针对上述技术问题,本专利技术提供了一种基于机器学习的运维数据异常检测方法。

技术实现思路

[0007]本专利技术的目的是提供一种基于机器学习的运维数据异常检测方法。
[0008]为了解决上述技术问题,本专利技术第一方面提供了一种基于机器学习的运维数据异常检测方法,具体包括:
[0009]S11对运维数据进行采集,并基于所述运维数据进行特征提取得到运维数据特征,并将所述运维数据特征转换为向量数据;
[0010]S12对所述向量数据进行归一化的预处理得到预处理向量数据,并基于所述预处理向量数据进行样本空间的构建,通过记忆力增强模块对所述样本空间进行重构得到重构向量数据;
[0011]S13基于所述重构向量数据,对对抗模型进行训练实现训练完成的对抗模型的构建,并基于所述训练完成的对抗模型实现对运维数据的异常检测。
[0012]通过对向量数据进行归一化处理,从而使得数据能够满足对抗模型的输入格式要求,更有利于模型的训练和检测,同时也避免了由于输入数据不均衡导致的误差扩大等导致的精度不高的技术问题的出现。
[0013]通过采用记忆力增强模块对所述样本空间进行重构得到重构向量数据,从而保证了重构向量数据能够保存记忆矩阵保存最具代表性的原型数据,并且更能突出最具代表性的特征,进一步提升了异常检测的效率和精度。
[0014]通过采用对抗模型实现运维数据的异常检测,从而应用对抗模型进行运维数据异常检测阶段仅使用自编码器进行检测,此时记忆矩阵中存储着从训练运维数据提取的正常模式,检测时保持记忆矩阵参数不变,使用均方误差度量输入和输出之间的重构误差。当输入异常运维数据时,编码结果会被检索到的正常模式所取代,这会使得异常运维数据的重构误差大于正常运维数据的重构误差。优于传统的自编码器方法。此外,经过对抗训练任何服从先验分布的样本都会成为有意义的样本,这在一定程度上优化了解码器的生成效果,提高了异常检测结果。
[0015]进一步的技术方案在于,所述运维数据至少包括监控指标,报警记录,日志,网络报文记录,用户体验记录,业务运营记录,链路关系,运维知识,CMDB,运维流程其中的任意一种。
[0016]进一步的技术方案在于,对所述运维数据为文本时,将所述运维数据转化为向量数据的具体步骤为:
[0017]S21将文本以句子为单位进行分割得到句子,对每个句子进行文本预处理操作,提取得到指定词性词语;
[0018]S22基于所述指定词性词语进行有向有权图的构建,基于词语得分公式以及所述有向有权图中的点集合、边集合、边权重进行迭代计算,并基于各节点的得分进行排序,并根据排序结果得到文本的关键词;
[0019]S23基于所述文本的关键词出现的词频将所述文本的关键词转化为关键词数据,并基于所述关键词数据实现向量数据的构建。
[0020]通过关键词数据的提取,从而使得本专利技术的适用范围更加广泛,也能够更加充分的实现对不同数据的融合,促进了最终运维数据异常检测的效率和精度。
[0021]进一步的技术方案在于,在进行归一化的预处理之前,还需要对所述数据进行量化处理,在进行归一化的预处理之后,还需要对所述数据进行数据重采样处理。
[0022]通过对运维数据进行量化、归一化以及训练数据重采样等操作,量化和归一化使数据能满足模型的输入格式要求,更有利于模型的训练和检测,数据重采样能够使流量数据均衡,减轻原始数据类别不平衡对检测结果造成的影响和偏差。
[0023]进一步的技术方案在于,采用收缩机制提高注意力权重系数w的稀疏性,其中稀疏化后的权重系数的计算公式为:
[0024][0025][0026]其中,w
i
表示第i个样本的权重系数,λ表示收缩阈值,将权重系数w中小于或等于阈值的元素赋值为0,实现系数的稀疏性,表示第i个样本稀疏化后的权重系数,max()表示取最大值,δ表示一个极小的常量。
[0027]由于某些异常运维数据仍然可能通过记忆项的复杂组合使得最终得到的重构误差较小。本专利技术提出使用收缩机制提高注意力权重系数w的稀疏性,因为稀疏性鼓励使用更少的记忆项表示查询结果,这将提高记忆项的表示精度。
[0028]进一步的技术方案在于,采用改进型余弦相似度,对所述重构向量数据的每一个样本的注意力权重进行确定,所述改进型余弦相似度的计算公式为:
[0029][0030]其中,为样本的余弦相似度,x为输入的特征向量,y为特征向量x对应的标签,n为样本总数量,x
i
为第i个样本,y
i
为第i个样本的标签,为平均值,K1、K2为常数。
[0031]进一步的技术方案在于,在进行所述对抗模型训练时,自编码器中的编码器与记忆矩阵一起充当生成器,判别器将区分运维数据是否来源于服从某一先验分布的真实样本,其中判别器L(Θ
D
)的函数如下:
[0032][0033]式中,Θ
D
表示判别器参数,表示生成器G生成的第i个伪样本,z
i
表示服从于某一先验分布的第i个真实样本,m为生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的运维数据异常检测方法,其特征在于,具体包括:S11对运维数据进行采集,并基于所述运维数据进行特征提取得到运维数据特征,并将所述运维数据特征转换为向量数据;S12对所述向量数据进行归一化的预处理得到预处理向量数据,并基于所述预处理向量数据进行样本空间的构建,通过记忆力增强模块对所述样本空间进行重构得到重构向量数据;S13基于所述重构向量数据,对对抗模型进行训练实现训练完成的对抗模型的构建,并基于所述训练完成的对抗模型实现对运维数据的异常检测。2.如权利要求1所述的运维数据异常检测方法,其特征在于,所述运维数据至少包括监控指标,报警记录,日志,网络报文记录,用户体验记录,业务运营记录,链路关系,运维知识,CMDB,运维流程其中的任意一种。3.如权利要求1所述的运维数据异常检测方法,其特征在于,对所述运维数据为文本时,将所述运维数据转化为向量数据的具体步骤为:S21将文本以句子为单位进行分割得到句子,对每个句子进行文本预处理操作,提取得到指定词性词语;S22基于所述指定词性词语进行有向有权图的构建,基于词语得分公式以及所述有向有权图中的点集合、边集合、边权重进行迭代计算,并基于各节点的得分进行排序,并根据排序结果得到文本的关键词;S23基于所述文本的关键词出现的词频将所述文本的关键词转化为关键词数据,并基于所述关键词数据实现向量数据的构建。4.如权利要求1所述的运维数据异常检测方法,其特征在于,在进行归一化的预处理之前,还需要对所述数据进行量化处理,在进行归一化的预处理之后,还需要对所述数据进行数据重采样处理。5.如权利要求1所述的运维数据异常检测方法,其特征在于,采用收缩机制提高注意力权重系数w的稀疏性,其中稀疏化后的权重系数的计算公式为:权重系数w的稀疏性,其中稀疏化后的权重系数的计算公式为:其中,w
i
表示第i个样本的权重系数,λ表示收缩阈值,将权重系数w中小于或等于阈值的元素赋值为0,实...

【专利技术属性】
技术研发人员:刘晓宏吴平李守勤伊尚丰邵林俊
申请(专利权)人:八维通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1