【技术实现步骤摘要】
训练数据集处理方法、运维大数据异常检测方法及装置
[0001]本说明书实施例涉及数据处理
,适用于金融科技领域,例如运维场景,尤其涉及一种训练数据集处理方法
、
运维大数据异常检测方法及装置
。
技术介绍
[0002]目前运维大数据异常检测方法存在的主要问题是故障样本获取极为困难,数据本身极不平衡,而且有监督学习训练模型前需要人工对大量样本数据进行标注,导致标注的工作量大,增加了运维大数据异常检测的成本
。
[0003]现在亟需一种训练数据集处理方法以及运维大数据异常检测方法,从而解决现有的运维大数据异常检测中需要人工对大量样本数据进行标注,导致标注的工作量大,增加了运维大数据异常检测成本的问题
。
技术实现思路
[0004]为解决现有的交易报文处理技术中存在的问题,本说明书实施例提供了一种训练数据集处理方法
、
运维大数据异常检测方法及装置,只需要对少量样本数据标注异常类型,通过聚类的方法增加异常数据的训练数据集,以便于利用增加异常类型的训练数据集训练运维大数据异常检测模型
。
[0005]为了解决上述技术问题中的任意一种,本说明书实施例的具体技术方案如下:
[0006]一方面,本说明书实施例提供了一种训练数据集处理方法,包括,
[0007]计算第一数据集中每个标注的故障类型的质心,所述第一数据集中包括多个已标注所述故障类型的数据;
[0008]将包括多个未标注故障类型的数据的第二数据集与所 ...
【技术保护点】
【技术特征摘要】
1.
一种训练数据集处理方法,其特征在于,所述方法包括:计算第一数据集中每个标注的故障类型的质心,所述第一数据集中包括多个已标注所述故障类型的数据;将包括多个未标注故障类型的数据的第二数据集与所述第一数据集混合为聚类样本数据集;根据所述第一数据集中每个标注的故障类型的质心对所述聚类样本数据集进行聚类,得到包括所述故障类型的多个数据簇,完成训练数据集的处理
。2.
根据权利要求1所述的方法,其特征在于,根据所述第一数据集中每个标注的故障类型的质心对所述聚类样本数据集进行聚类进一步包括:预定所述数据簇的数量
K
;随机选择
K
减
M
个质心并与所述故障类对应的
M
个质心作为所述数据簇的
K
个质心,其中
K
>
M
;利用所述数据簇的
K
个质心对所述聚类样本数据集进行聚类,得到初始的
K
个数据簇;将不属于
M
个质心所在的多个数据簇的数据点进行迭代聚类,并重新计算
K
减
M
个质心的位置,直至所述
K
减
M
个质心的位置收敛或达到预定的迭代次数,得到最终的
K
个数据簇
。3.
根据权利要求2所述的方法,其特征在于,利用所述数据簇的
K
个质心对所述聚类样本数据集进行聚类,得到初始的
K
个数据簇进一步包括:计算所述聚类样本数据集中各样本数据与所述数据簇的
K
个质心之间的距离;将所述距离超过预定门限值的所述样本数据划分到对应的质心的簇中
。4.
根据权利要求3所述的方法,其特征在于,计算所述聚类样本数据集中各样本数据与所述数据簇的
K
个质心之间的距离的公式为:其中,
X
和
Y
表示所述样本数据的
n
维向量,
d(X,Y)
表示向量
X
和向量
Y
之间的所述距离,
X
=
{x1,x2,
…
,x
n
}
,
Y
=
{y1,y2,
…
,y
n
}。5.
【专利技术属性】
技术研发人员:吴声,李耕寅,国欣宇,郭锐坤,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。