大数据异常点检测方法及装置、存储介质及电子设备制造方法及图纸

技术编号:32831108 阅读:15 留言:0更新日期:2022-03-26 20:43
本公开提供了一种大数据异常点检测方法及装置、存储介质及电子设备,涉及大数据处理技术领域。该大数据异常点检测方法先把异常分数进行降序排列或者一维降序数组a;接着,计算分数a

【技术实现步骤摘要】
大数据异常点检测方法及装置、存储介质及电子设备


[0001]本公开涉及大数据处理
,尤其涉及一种大数据异常点检测方法及装置、存储介质及电子设备。

技术介绍

[0002]随着大数据技术的发展,使得数据中潜藏的价值越来越受重视,需要从多个角度对流动数据进行检测。
[0003]现有技术中,异常点检测算法是一类常用的检测方法。这类异常点检测算法虽然能够评估出数据点在数据集中的异常程度,并依据污染程度(数据集中异常点的比例)标记异常点,但是需要人工依据检测得到的异常分数,来确定污染程度的相关参数数。当数据集和检测频率都很大的时候,由于需要人员参与确定污染程度,不仅效率无法满足需求,而且还容易出错。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种大数据异常点检测方法及装置、存储介质及电子设备,至少在一定程度上克服由于相关技术的限制,导致不能快速获得异常点的问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供一种大数据异常点检测方法,包括如下步骤:
[0008]获得异常分数;
[0009]将所述异常分数降序或升序排列,获得数组a1,a2,

,a
i


,a
n
,a
i
表示第i个异常分数,1≤i≤n,n为自然数;
[0010]计算分数a
i
与左侧分数群的相似程度S
left
,计算分数a
i
与右侧分数群S
right
,其中,左侧分数群为数组[a1,

,a
i
],右侧分数群为数组[a
i
,

,a
n
];
[0011]由S
left
和S
right
通过指标算法得到评价指标S(i),并依据S(i)是否不小于零,把数组a中的分数分为异常数集a

和正常数集a


[0012]由异常数集a

和正常数集a

通过分界算法得到分界线a*,并依据a*确定哪些分数是异常点。
[0013]在本公开一个实施例中,分数a
i
与左侧分数群的相似程度S
left
等于(a1+a2+

+a
i
)/i

a
i
,分数a
i
与右侧分数群的相似程度S
right
等于a
i

(a
i
+a
(i+1)
+

+a
n
)/(n

i+1)。
[0014]在本公开一个实施例中,将异常分数降序排列,指标算法为:
[0015]S(i)=(S
left

S
right
)/max{S
left
,S
right
}。
[0016]在本公开一个实施例中,将异常分数降序排列,从i=1开始计算评价指标S(i),
[0017]若S(i)<0,令i=i+1,重新计算S
left
和S
right

[0018]若S(i)≥0,停止计算S(i)。
[0019]在本公开一个实施例中,
[0020]异常数集a

等于数集a1,a2,

,a
(i

1)
,且正常数集a

各数所对应的S(i)<0;
[0021]正常数集a

等于数集a
i
,

,a
n
,且异常数集a

各数所对应的S(i)≥0。
[0022]在本公开一个实施例中,分界算法为:
[0023]a*=[(a1,a2,

,a
(i

1)
)/(i

1)+(a
i
+a
(i+1)
+

+a
n
)/(n

i+1)]/2。
[0024]根据本公开的另一个方面,提供一种大数据异常点检测装置,包括:
[0025]检测模块,用于检测计算出异常分数,并降序排列获得一维降序数组a,a等于数组a1,a2,

,a
n

[0026]计算模块,用于计算分数a
i
与左侧分数群的相似程度S
left
,计算分数a
i
与右侧分数群的相似程度S
right
,左侧分数群为数组a1,

,a
i
,右侧分数群为数组a
i
,

,a
n

[0027]分界模块,用于由S
left
和S
right
通过指标算法得到评价指标S(i),并依据S(i)是否不小于零,把维降序数组a分为异常数集a

和正常数集a

,再由a

和a

通过分界算法得到分界线a*;
[0028]制作模块,用于依分界线a*确定哪些分数是异常点。
[0029]在本公开一个实施例中,将所述异常分数降序排列,
[0030]分数a
i
与左侧分数群的相似程度S
left
=(a1+a2+

+a
i
)/i

a
i

[0031]分数a
i
与右侧分数群的相似程度S
right
=a
i

(a
i
+a
(i+1)
+

+a
n
)/(n

i+1);
[0032]指标算法为:S(i)=(S
left

S
right
)/max{S
left
,S
right
},
[0033]分界算法为:a*=[(a1,a2,

,a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据异常点检测方法,其特征在于,包括如下步骤:获得异常分数;将所述异常分数降序或升序排列,获得数组a1,a2,

,a
i


,a
n
,a
i
表示第i个异常分数,1≤i≤n,n为自然数;计算分数a
i
与左侧分数群的相似程度S
left
,计算分数a
i
与右侧分数群S
right
,其中,左侧分数群为数组a1,

,a
i
,右侧分数群为数组a
i
,

,a
n
;由S
left
和S
right
通过指标算法得到评价指标S(i),并依据S(i)是否不小于零,把数组a中的分数分为异常数集a

和正常数集a

;由异常数集a

和正常数集a

通过分界算法得到分界线a*,并依据a*确定哪些分数是异常点。2.根据权利要求1所述的大数据异常点检测方法,其特征在于,分数a
i
与左侧分数群的相似程度S
left
等于(a1+a2+

+a
i
)/i

a
i
,分数a
i
与右侧分数群的相似程度S
right
等于a
i

(a
i
+a
(i+1)
+

+a
n
)/(n

i+1)。3.根据权利要求1所述的大数据异常点检测方法,其特征在于,将所述异常分数降序排列,指标算法为:S(i)=(S
left

S
right
)/max{S
left
,S
right
},并从i=1开始计算评价指标S(i),若S(i)<0,令i=i+1,重新计算S
left
和S
right
,若S(i)≥0,停止计算S(i)。4.根据权利要求1所述的大数据异常点检测方法,其特征在于,将所述异常分数降序排列,异常数集a

等于数集a1,a2,

,a
(i

1)
,且正常数集a

各数所对应的S(i)<0;正常数集a

等于数集a
i
,

,a
n
,且异常数集a

各数所对应的S(i)≥0。5.根据权利要求1所述的大数据异常点检测方法,其特征在于,分界算法为:a*=[(a1,a2,

,a
(i

1)
)/(i

...

【专利技术属性】
技术研发人员:杨立原吴志良杨诗友严梦嘉
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1