【技术实现步骤摘要】
大数据异常点检测方法及装置、存储介质及电子设备
[0001]本公开涉及大数据处理
,尤其涉及一种大数据异常点检测方法及装置、存储介质及电子设备。
技术介绍
[0002]随着大数据技术的发展,使得数据中潜藏的价值越来越受重视,需要从多个角度对流动数据进行检测。
[0003]现有技术中,异常点检测算法是一类常用的检测方法。这类异常点检测算法虽然能够评估出数据点在数据集中的异常程度,并依据污染程度(数据集中异常点的比例)标记异常点,但是需要人工依据检测得到的异常分数,来确定污染程度的相关参数数。当数据集和检测频率都很大的时候,由于需要人员参与确定污染程度,不仅效率无法满足需求,而且还容易出错。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0005]本公开的目的在于提供一种大数据异常点检测方法及装置、存储介质及电子设备,至少在一定程度上克服由于相关技术的限制,导致不能快速获得异常点的问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供一种大数据异常点检测方法,包括如下步骤:
[0008]获得异常分数;
[0009]将所述异常分数降序或升序排列,获得数组a1,a2,
…
,a
i
,
…
,a
...
【技术保护点】
【技术特征摘要】
1.一种大数据异常点检测方法,其特征在于,包括如下步骤:获得异常分数;将所述异常分数降序或升序排列,获得数组a1,a2,
…
,a
i
,
…
,a
n
,a
i
表示第i个异常分数,1≤i≤n,n为自然数;计算分数a
i
与左侧分数群的相似程度S
left
,计算分数a
i
与右侧分数群S
right
,其中,左侧分数群为数组a1,
…
,a
i
,右侧分数群为数组a
i
,
…
,a
n
;由S
left
和S
right
通过指标算法得到评价指标S(i),并依据S(i)是否不小于零,把数组a中的分数分为异常数集a
异
和正常数集a
正
;由异常数集a
异
和正常数集a
正
通过分界算法得到分界线a*,并依据a*确定哪些分数是异常点。2.根据权利要求1所述的大数据异常点检测方法,其特征在于,分数a
i
与左侧分数群的相似程度S
left
等于(a1+a2+
…
+a
i
)/i
‑
a
i
,分数a
i
与右侧分数群的相似程度S
right
等于a
i
‑
(a
i
+a
(i+1)
+
…
+a
n
)/(n
‑
i+1)。3.根据权利要求1所述的大数据异常点检测方法,其特征在于,将所述异常分数降序排列,指标算法为:S(i)=(S
left
‑
S
right
)/max{S
left
,S
right
},并从i=1开始计算评价指标S(i),若S(i)<0,令i=i+1,重新计算S
left
和S
right
,若S(i)≥0,停止计算S(i)。4.根据权利要求1所述的大数据异常点检测方法,其特征在于,将所述异常分数降序排列,异常数集a
异
等于数集a1,a2,
…
,a
(i
‑
1)
,且正常数集a
正
各数所对应的S(i)<0;正常数集a
正
等于数集a
i
,
…
,a
n
,且异常数集a
异
各数所对应的S(i)≥0。5.根据权利要求1所述的大数据异常点检测方法,其特征在于,分界算法为:a*=[(a1,a2,
…
,a
(i
‑
1)
)/(i
‑
...
【专利技术属性】
技术研发人员:杨立原,吴志良,杨诗友,严梦嘉,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。