【技术实现步骤摘要】
一种基于正向抽取与反向检测的孤立点检测方法
[0001]本专利技术属于数据处理
,主要涉及一种数据集中孤立点检测方法,该方法首先对数据集中的数据进行正向抽取,然后利用抽取数据的特点对原始数据集中的数据进行检测,进而发现原始数据中的孤立点
。
孤立点又称异常点,孤立点检测可应用于银行欺诈检测
、
入侵检测
、
结构缺陷检测
、
系统健康检测
、
文本错误检测等很多领域
。
技术介绍
[0002]孤立点检测又称异常检测
。
目前,主流的异常检测方法主要包括:通过概率分布进行异常检测,通过聚类进行异常检测,通过深度学习进行异常检测
。
[0003]通过概率分布进行检测的理论基础是正常的数据分布是具有一定特点的,如果某个数据与正常的分布偏离较大,我们认为该数据很可能是不正常的,很可能就是孤立点
。
这种方法能够很好利用数据的统计特性,在一定的领域表现较好,但该类方法需要对数据集进行统计分析,获取正常数据的分布特征,这个过程往往较困难
。
特别是当数据集包含多种数据时,用同一种概率分布,同时描述多种数据的分布情况显然是不科学的,也不可能精确的描述数据的特征,进行孤立点检测是必然不会取得好的效果
。
本专利技术首先对数据进行抽取,运用抽取数据对原始数据集进行分类,把原始数据集分成几个类别,然后进行孤立点检测,从而克服了以往检测方法中,把正常数据当成一个类别, ...
【技术保护点】
【技术特征摘要】
1.
本发明公开了一种基于正向抽取与反向检测的孤立点检测方法,该方法提高了孤立点检测的效率和精度;一种基于正向抽取与反向检测的孤立点检测方法,所述孤立点检测方法发包括三个过程,
(
一
)、
数据抽取;
(
二
)、
正常数据聚类;
(
三
)、
孤立点检测
。2.
根据权利要求1所述的一种基于正向抽取与反向检测的孤立点检测方法,其特征在于,对于数据集
D
,
x
i
是
D
中一条记录,
m
为一常数,
distance(x
i
,x
j
)
表示记录
x
i
与
x
j
之间的距离,定义
x
i
的非异常因子为其中
x
j
=
1,
…
,
m
表示距离
x
i
最近的
m
条记录
。3.
根据权利要求1和权利要求2所述的一种基于正向抽取与反向检测的孤立点检测方法,依据每条记录的非异常因子的值,按照非正常因子的值从小到大的顺序对所有数据进行排序
。
根据数据本身的特征和异常检测的要求抽取排在前部分的数据,一般情况下抽取排在前
60
%
‑
80
%的数据记录
。4.
根据权利要求1所述的一种基于正向抽取与反向检测的孤立点检测方法,其特征在于抽取数据聚类,从数据集
D
抽取的数据集记为
D
′
,然后对
D
′
进行聚类
。5.
根据权利要求1和权要求4所述的一种基于正向抽取与反向检测的孤立点检测方法,其聚类算法具体为:算法1:输入:抽取的数据集
D'
,初始化参数
k0,输出:最终划分
D
′1,D
′2,
…
,D
′
k
(1)k
=
2(2)while k<k
0 or d
‑
d
′
...
【专利技术属性】
技术研发人员:宋法根,胡大洋,巩永旺,陈传杰,许贺洋,黄曙荣,
申请(专利权)人:盐城工学院技术转移中心有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。