训练数据集处理方法技术

技术编号:39404408 阅读:4 留言:0更新日期:2023-11-19 15:56
本说明书实施例涉及数据处理技术领域,适用于金融科技领域,例如运维场景,尤其涉及一种训练数据集处理方法

【技术实现步骤摘要】
训练数据集处理方法、运维大数据异常检测方法及装置


[0001]本说明书实施例涉及数据处理
,适用于金融科技领域,例如运维场景,尤其涉及一种训练数据集处理方法

运维大数据异常检测方法及装置


技术介绍

[0002]目前运维大数据异常检测方法存在的主要问题是故障样本获取极为困难,数据本身极不平衡,而且有监督学习训练模型前需要人工对大量样本数据进行标注,导致标注的工作量大,增加了运维大数据异常检测的成本

[0003]现在亟需一种训练数据集处理方法以及运维大数据异常检测方法,从而解决现有的运维大数据异常检测中需要人工对大量样本数据进行标注,导致标注的工作量大,增加了运维大数据异常检测成本的问题


技术实现思路

[0004]为解决现有的交易报文处理技术中存在的问题,本说明书实施例提供了一种训练数据集处理方法

运维大数据异常检测方法及装置,只需要对少量样本数据标注异常类型,通过聚类的方法增加异常数据的训练数据集,以便于利用增加异常类型的训练数据集训练运维大数据异常检测模型

[0005]为了解决上述技术问题中的任意一种,本说明书实施例的具体技术方案如下:
[0006]一方面,本说明书实施例提供了一种训练数据集处理方法,包括,
[0007]计算第一数据集中每个标注的故障类型的质心,所述第一数据集中包括多个已标注所述故障类型的数据;
[0008]将包括多个未标注故障类型的数据的第二数据集与所述第一数据集混合为聚类样本数据集;
[0009]根据所述第一数据集中每个标注的故障类型的质心对所述聚类样本数据集进行聚类,得到包括所述故障类型的多个数据簇,完成训练数据集的处理

[0010]进一步地,根据所述第一数据集中每个标注的故障类型的质心对所述聚类样本数据集进行聚类进一步包括:
[0011]预定所述数据簇的数量
K

[0012]随机选择
K

M
个质心并与所述故障类对应的
M
个质心作为所述数据簇的
K
个质心,其中
K

M

[0013]利用所述数据簇的
K
个质心对所述聚类样本数据集进行聚类,得到初始的
K
个数据簇;
[0014]将不属于
M
个质心所在的多个数据簇的数据点进行迭代聚类,并重新计算
K

M
个质心的位置,直至所述
K

M
个质心的位置收敛或达到预定的迭代次数,得到最终的
K
个数据簇

[0015]进一步地,利用所述数据簇的
K
个质心对所述聚类样本数据集进行聚类,得到初始

K
个数据簇进一步包括:
[0016]计算所述聚类样本数据集中各样本数据与所述数据簇的
K
个质心之间的距离;
[0017]将所述距离超过预定门限值的所述样本数据划分到对应的质心的簇中

[0018]进一步地,计算所述聚类样本数据集中各样本数据与所述数据簇的
K
个质心之间的距离的公式为:
[0019][0020]其中,
X

Y
表示所述样本数据的
n
维向量,
d(X,Y)
表示向量
X
和向量
Y
之间的所述距离,
X

{x1,x2,

,x
n
}

Y

{y1,y2,

,y
n
}。
[0021]进一步地,根据所述第一数据集中每个标注的故障类型的质心对所述聚类样本数据集进行聚类之后,所述方法还包括:
[0022]根据
M
个质心分别创建
M
个质心对应的
M
个数据簇的故障样本;
[0023]将所述故障样本加入到对应的所述数据簇中

[0024]进一步地,将包括多个未标注故障类型的数据的第二数据集与所述第一数据集混合为聚类样本数据集之前,所述方法还包括:
[0025]利用无监督异常监测算法剔除所述第二数据集中的所述未标注故障类型的数据中的噪音数据,以便于将剔除所述噪音数据的第二数据集与所述第一数据集混合为聚类样本数据集

[0026]另一方面,本说明书实施例还提供了一种运维大数据异常检测方法,所述方法包括:
[0027]获取待检测异常的运维数据;
[0028]利用预先训练的运维大数据异常检测模型对所述运维数据进行计算,得到所述运维数据对应的故障类型,其中所述运维大数据异常检测模型是利用上述所述的训练数据集处理方法得到的多个数据簇进行训练后得到的

[0029]另一方面,本说明书实施例还提供了一种训练数据集处理装置,包括:
[0030]第一数据集质心计算单元,用于计算第一数据集中每个标注的故障类型的质心,所述第一数据集中包括多个已标注所述故障类型的数据;
[0031]聚类样本数据混合单元,用于将包括多个未标注故障类型的数据的第二数据集与所述第一数据集混合为聚类样本数据集;
[0032]聚类单元,用于根据所述第一数据集中每个标注的故障类型的质心对所述聚类样本数据集进行聚类,得到包括所述故障类型的多个数据簇,完成训练数据集的处理

[0033]另一方面,本说明书实施例还提供了一种运维大数据异常检测装置,所述装置包括:
[0034]运维数据获取单元,用于获取待检测异常的运维数据;
[0035]故障检测单元,用于利用预先训练的运维大数据异常检测模型对所述运维数据进行计算,得到所述运维数据对应的故障类型,其中所述运维大数据异常检测模型是利用上述所述的训练数据集处理方法得到的多个数据簇进行训练后得到

[0036]另一方面,本说明书实施例还提供了一种计算机设备,包括存储器

处理器

以及存储在存储器上的计算机程序,处理器执行所述计算机程序时实现上述的方法

[0037]另一方面,本说明书实施例还提供了一种计算机可读存储介质,所述计算机可读
存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法

[0038]最后,本说明书实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述的方法

[0039]利用本说明书实施例,首先对少量故障样本标注故障类型,将标注故障类型的故障样本组成第一数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种训练数据集处理方法,其特征在于,所述方法包括:计算第一数据集中每个标注的故障类型的质心,所述第一数据集中包括多个已标注所述故障类型的数据;将包括多个未标注故障类型的数据的第二数据集与所述第一数据集混合为聚类样本数据集;根据所述第一数据集中每个标注的故障类型的质心对所述聚类样本数据集进行聚类,得到包括所述故障类型的多个数据簇,完成训练数据集的处理
。2.
根据权利要求1所述的方法,其特征在于,根据所述第一数据集中每个标注的故障类型的质心对所述聚类样本数据集进行聚类进一步包括:预定所述数据簇的数量
K
;随机选择
K

M
个质心并与所述故障类对应的
M
个质心作为所述数据簇的
K
个质心,其中
K

M
;利用所述数据簇的
K
个质心对所述聚类样本数据集进行聚类,得到初始的
K
个数据簇;将不属于
M
个质心所在的多个数据簇的数据点进行迭代聚类,并重新计算
K

M
个质心的位置,直至所述
K

M
个质心的位置收敛或达到预定的迭代次数,得到最终的
K
个数据簇
。3.
根据权利要求2所述的方法,其特征在于,利用所述数据簇的
K
个质心对所述聚类样本数据集进行聚类,得到初始的
K
个数据簇进一步包括:计算所述聚类样本数据集中各样本数据与所述数据簇的
K
个质心之间的距离;将所述距离超过预定门限值的所述样本数据划分到对应的质心的簇中
。4.
根据权利要求3所述的方法,其特征在于,计算所述聚类样本数据集中各样本数据与所述数据簇的
K
个质心之间的距离的公式为:其中,
X

Y
表示所述样本数据的
n
维向量,
d(X,Y)
表示向量
X
和向量
Y
之间的所述距离,
X

{x1,x2,

,x
n
}

Y

{y1,y2,

,y
n
}。5.

【专利技术属性】
技术研发人员:吴声李耕寅国欣宇郭锐坤
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1