信创环境下基于大数据和机器学习的运维数据异常检测处理方法、装置、处理器及存储介质制造方法及图纸

技术编号:36436454 阅读:25 留言:0更新日期:2023-01-20 22:50
本发明专利技术涉及一种信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,包括以下步骤:对网络运维大数据进行批量归一化;对网络运维大数据进行PCA降维、去噪的操作;对网络运维大数据进行样本平衡处理;使用注意力模块进行注意力增强操作;使用机器学习模型进行运维数据异常检测。本发明专利技术还涉及一种用于实现信创环境下基于大数据和机器学习的运维数据异常检测处理的装置、处理器及存储介质。采用了本发明专利技术的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法、装置、处理器及其计算机可读存储介质,在运维数据异常检测任务中,能够在保证检测精度较高的同时,有效降低模型对训练样本的质量和数量的依赖性,同时,能够对不平衡样本进行有效处理,进一步增强了模型的鲁棒性和泛化能力。进一步增强了模型的鲁棒性和泛化能力。进一步增强了模型的鲁棒性和泛化能力。

【技术实现步骤摘要】
信创环境下基于大数据和机器学习的运维数据异常检测处理方法、装置、处理器及存储介质


[0001]本专利技术涉及大数据领域,尤其涉及人工智能领域,具体是指一种信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法、装置、处理器及其计算机可读存储介质。

技术介绍

[0002]随着信息技术的普及和应用,人民的生产和生活早已与计算机应用紧密结合起来。不管是农林牧副渔所代表的第一产业,还是加工制造业和服务业,计算机应用都在通过它们强大的算力和突出的智能化,润物无声地改变着我们生活习惯,同时也极大地提高了社会运转的效率。然而,随着应用系统的体量变得越来越庞大,功能模块变得越来越复杂,如今的计算机系统很容易出现软件BUG以及被心怀不轨的黑客攻击而进入运行异常状态,而且这些异常的产生也呈现出复杂化和高频化的趋势,系统的运维工作也愈发困难,特别是在信创环境下,对于系统的稳定性提出了更高的要求。以往通过人工查看系统日志进行运维数据异常检测和问题诊断的方式耗时耗力,逐渐难以满足当前系统运维需求。因此,如何利用先进的技术手段研发一个高效的、完善的运维数据异常检测方法就成为了产业领域和学术界共同的当务之急。
[0003]在大数据时代,计算机系统的日志记录着系统运行时的状态信息,因而在很多关键节点,日志信息往往能够揭示系统性能方面的问题和功能方面的故障,并且能够帮助技术人员对问题的根本缘由进行深人分析。同时,这样的日志数据在各种各样的计算机系统中都是普遍且易获得的,因而日志数据已经成为了对系统异常进行分析和解决的重要信息来源。随着人工智能技术的发展,机器学习技术取得了突破性的进展并且得到了广泛的应用。借助于机器学习中的自然语言处理技术,计算机能够很好地理解文本信息的语义,同时还能将其转化为高度抽象的计算机语言。因此,机器学习技术在运维数据异常检测领域拥有巨大的潜力。
[0004]现有技术提出了一种基于对抗迁移学习的日志异常检测方法:步骤1,获取源域日志数据,对其进行数据清洗、去除噪音以及正异常划分;步骤2,将处理后的源域日志数据输入到异常检测神经网络模型中进行监督训练,进行多次训练得到源域深度异常检测神经网络的具体结构;步骤3,获取目标域无标记日志数据,对其进行数据清洗和去除噪音,得到处理后的目标域无标记日志数据;步骤4,将处理后的目标域无标记日志数据输入到源域深度异常检测神经网络中,利用对抗迁移学习模型训练得到目标域异常检测神经网络;步骤5,将待检测数据输入到目标域异常检测神经网络,判断检测结果是否大于所给阔值,若是,则判定该数据为异常,若不是,则判定该数据为正常。
[0005]现有技术提出了基于混合机器学习的运维时序数据异常检测方法及系统,所述方法包括:提取数据、数据预处理、离线预测、离线训练、在线检测、输出判断结果等步骤;所述系统包括数据提取模块、数据预处理模块、离线预测模块、离线训练模块、在线检测模块、判
断模块、模型评价模块;本专利技术的优点在于:依靠历史数据,结合离线预测、离线训练和在线检测三大部分构建无监督模型,能够在保证准确性和时效性的前提下完成智能运维时序数据的异常检测,解决了当前运维场景下时序数据异常检测缺少标记数据、效率低下、需要依据经验划定阔值、存在大量误报漏报的问题。
[0006]现有技术提出了一种基于深度学习的运维检测方法、系统、电子设备及介质,属于智能运维
其中运维检测方法包括:获取原始数据;对原始数据进行特征提取处理,形成KPI特征样本集KPI特征样本集包括各个原始数据的训练数据特征;将KPI特征样本集输入训练模型,得到权重值,权重值被配置为训练模型对KPI特征样本集中的数据计算得到的数值;对比权重值,判断原始数据的检测结果。本专利技术从原始数据中提取特征并形成KPI特征样本集进而对KPI特征样本集进行训练模型的处理,通过深度集成学习的方法,最终将异常检测转变为二分类问题,以实现提高检测准确率的效果,避免人工堆砌规则,降低运维成本,提高智能自动化运维的效率。
[0007]现有技术创新性好,能进行多种场景下的运维数据异常检测,但模型容易产生滞后现象,难以适应日益增长的大数据体量;而且,由于人工标注训练样本的成本比较高,在面对大数据环境下,训练样本较少且各异常类别不平衡的情况下,效果欠佳;此外,所提出的算法模型对训练运维数据样本的数量和质量要求较高,鲁棒性和泛化能力有待提升。因此,有必要提出一种在保证运维数据异常检测精确度较高的前提下,模型对训练样本依赖较小、对不平衡样本不敏感、且具有较高的鲁棒性和泛化能力,具有十分重要的意义。

技术实现思路

[0008]本专利技术的目的是克服了上述现有技术的缺点,提供了一种满足鲁棒性高、泛化能力高、适用范围较为广泛的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法、装置、处理器及其计算机可读存储介质。
[0009]为了实现上述目的,本专利技术的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法、装置、处理器及其计算机可读存储介质如下:
[0010]该信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,其主要特点是,所述的方法包括以下步骤:
[0011](1)对网络运维大数据进行批量归一化;
[0012](2)对网络运维大数据进行PCA降维、去噪的操作;
[0013](3)对网络运维大数据进行样本平衡处理;
[0014](4)使用注意力模块进行注意力增强操作;
[0015](5)使用机器学习模型进行运维数据异常检测。
[0016]较佳地,所述的步骤(1)中进行批量归一化,具体为:
[0017]根据以下公式计算进行批量归一化:
[0018][0019][0020][0021]y
i
=γz
i
+β;
[0022]其中,N
batch
为每个批次网络运维大数据样本的个数,x
i
为某一批处理中第i个网络运维大数据样本的网络运维大数据特征,ε为趋近零的常量,γ和β为可学习重构参数。
[0023]较佳地,所述的步骤(3)具体包括以下步骤:
[0024](3.1)计算网络运维大数据集的不平衡率;
[0025](3.2)计算合成的新网络运维大数据样本总数;
[0026](3.3)根据欧氏距离计算少数类样本x
i
的K个近邻网络运维大数据样本,并计算每个少数类网络运维大数据样本的γ
i
,γ
i
为第i个样本的可学习重构参数;
[0027](3.4)进行归一化处理;
[0028](3.5)计算每个少数类网络运维大数据样本合成的样本数量;
[0029](3.6)生成新网络运维大数据样本。
[0030]较佳地,所述的步骤(3.1)中计算网络运维大数据集的不平衡率,具体为:
[0031]根据以下公式计算网络运维大数据集的不平衡率:
[0032][0033]其中,d为网络运本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,其特征在于,所述的方法包括以下步骤:(1)对网络运维大数据进行批量归一化;(2)对网络运维大数据进行PCA降维、去噪的操作;(3)对网络运维大数据进行样本平衡处理;(4)使用注意力模块进行注意力增强操作;(5)使用机器学习模型进行运维数据异常检测。2.根据权利要求1所述的信创环境下基于大数据和机器学习实现运维数据异常检测处理1的方法,其特征在于,所述的步骤(1)中进行批量归一化,具体为:根据以下公式计算进行批量归一化:根据以下公式计算进行批量归一化:根据以下公式计算进行批量归一化:y
i
=γz
i
+β;其中,N
batch
为每个批次网络运维大数据样本的个数,x
i
为某一批处理中第i个网络运维大数据样本的网络运维大数据特征,ε为趋近零的常量,γ和β为可学习重构参数。3.根据权利要求1所述的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,其特征在于,所述的步骤(3)具体包括以下步骤:(3.1)计算网络运维大数据集的不平衡率;(3.2)计算合成的新网络运维大数据样本总数;(3.3)根据欧氏距离计算少数类样本x
i
的K个近邻网络运维大数据样本,并计算每个少数类网络运维大数据样本的γ
i
,γ
i
为第i个样本的可学习重构参数;(3.4)进行归一化处理;(3.5)计算每个少数类网络运维大数据样本合成的样本数量;(3.6)生成新网络运维大数据样本。4.根据权利要求3所述的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,其特征在于,所述的步骤(3.1)中计算网络运维大数据集的不平衡率,具体为:根据以下公式计算网络运维大数据集的不平衡率:其中,d为网络运维大数据集的不平衡率,n1为不平衡的网络运维大数据样本种类的数量,n2为平衡的网络运维大数据样本的种类数量。5.根据权利要求3所述的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,其特征在于,所述的步骤(3.2)中计算合成的新网络运维大数据样本总数,具体为:根据以下公式计算合成的新网络运维大数据样本总数:
N=d
×
α,α∈[0,1];其中,d为网络运维大数据集的不平衡率,α为[0,1]区间内的某一数值。6.根据权利要求3所述的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,其特征在于,所述的步骤(3.3)中计算每个少数类网络运维大数据样本的γ
i
,具体为:根据以下公式计算每个少数类网络运维大数据样本的γ
i
:其中,Δ
i
表示K个近邻网络运维大数据样本中的多数类网络运维大数据样本数,K=1,2,

,n。7.根据权利要求3所述的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,其特征在于,所述的步骤(3.4)中进行归一化处理,具体为:根据以下公式进行归一化处理:其中,为归一化后的网络运维大数据样本数据。8.根据权利要求3所述的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,其特征在于,所述的步骤(3.5)中计算每个少数类网络运维大数据样本合成的样本数量,具体为:根据以下公式计算每个少数类网络运维大数据样本合成的样本数量:其中,为归一化后的网络运维大数据样本数据,N为新网络运维大数据样本总数。9.根据权利要求3所述的信创环境下基于大数据和机器学习实现运维数据异常检测处理的方法,其特征在于,所述的步骤(3.5)中生成新网络运维大数据样本,具体为:根据以下公式生成新网络运维大数据样本:x
new
=x
i

【专利技术属性】
技术研发人员:魏明孟凡喜郭润圻李文昌李卜
申请(专利权)人:普元信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1