一种基于正向抽取与反向检测的孤立点检测方法技术

技术编号:39507535 阅读:12 留言:0更新日期:2023-11-25 18:42
本发明专利技术属于数据处理技术领域,主要涉及一种数据集中孤立点检测方法,该方法首先对数据集中的数据进行正向抽取,然后利用抽取数据的特点对原始数据集中的数据进行检测,进而发现原始数据中的孤立点

【技术实现步骤摘要】
一种基于正向抽取与反向检测的孤立点检测方法


[0001]本专利技术属于数据处理
,主要涉及一种数据集中孤立点检测方法,该方法首先对数据集中的数据进行正向抽取,然后利用抽取数据的特点对原始数据集中的数据进行检测,进而发现原始数据中的孤立点

孤立点又称异常点,孤立点检测可应用于银行欺诈检测

入侵检测

结构缺陷检测

系统健康检测

文本错误检测等很多领域


技术介绍

[0002]孤立点检测又称异常检测

目前,主流的异常检测方法主要包括:通过概率分布进行异常检测,通过聚类进行异常检测,通过深度学习进行异常检测

[0003]通过概率分布进行检测的理论基础是正常的数据分布是具有一定特点的,如果某个数据与正常的分布偏离较大,我们认为该数据很可能是不正常的,很可能就是孤立点

这种方法能够很好利用数据的统计特性,在一定的领域表现较好,但该类方法需要对数据集进行统计分析,获取正常数据的分布特征,这个过程往往较困难

特别是当数据集包含多种数据时,用同一种概率分布,同时描述多种数据的分布情况显然是不科学的,也不可能精确的描述数据的特征,进行孤立点检测是必然不会取得好的效果

本专利技术首先对数据进行抽取,运用抽取数据对原始数据集进行分类,把原始数据集分成几个类别,然后进行孤立点检测,从而克服了以往检测方法中,把正常数据当成一个类别,把孤立点当成一个类别然后进行分类所带来的缺陷,能够大大提高检测的精度

[0004]通过聚类进行异常检测,首先对原始数据集进行聚类,然后根据每条记录距离聚类中心的距离来判断哪些数据是孤立点,一般认为距离聚类中心较远的记录就是孤立点

这种方法需要进行聚类,聚类的过程是比较耗时,且聚类数的多少对检测效果影响较大,目前对聚类数的确定没有统一的方法

目前的检测方法中孤立点数据是参与聚类的过程的,这会造成两个不好的结果,第一

孤立点数据参与聚类的过程,会加大聚类的计算代价;第二

孤立点的数据被当成正常数据参与聚类,实际上是在原始数据集中的添加了噪声,进而降低了聚类结果的合理性

本专利技术首先进行抽取,抽取非孤立点的正常数据,进而得到更合理的分类器,并运用该分类器进行孤立点检测,从而在提高效率的前提下提高孤立点检测的精度

[0005]通过深度学习进行孤立点检测,主要通过训练一个深度神经网络来检测数据集中的异常值

就目前情况来看,这种方法多数情况下表现较好,但是,训练的神经网络高度依赖于样本数据集,对于不同类别的数据集上,很难训练出比较理想的网络模型,且训练网络的过程往往比较耗时

在已经拥有大量样本数据的条件下,通过深度学习进行孤立点检测,往往能够获得比较好的效果

但是对于一个崭新的数据集,没有历史数据可以参考的情况下,是很难得到一个比较科学高效的网络的

[0006]综上所述,现存技术的主要问题是:计算量比较大,效率比较低

无论是采用统计

聚类还是深度学习的方法,进行孤立点检测时,计算量都比较大,检测精度不高

[0007]本专利技术首先进行正常数据抽取,然后对正常数据进行分类,然后运用各个子类进
行孤立点检测

该专利技术主要特点是运用抽取的正常数据得到分类器,然后把正常数据分成几个子类,把距离任何子类都很远的数据判定为孤立点

该专利技术一方面提高了聚类的效率,另一方面不再把正常数据当成一类,而是当成几个子类,把不属于任何子类的数据判定未孤立点,故而提高了孤立点检测的精度


技术实现思路

[0008]针对现有技术存在的问题,本专利技术公开了一种新的孤立点检测方法,该方法提高了孤立点检测的效率和精度

[0009]本专利技术:一种基于正向抽取与反向检测的孤立点检测方法,所述孤立点检测方法发包括三个过程,
(

)、
数据抽取;
(

)、
正常数据聚类;
(

)、
孤立点检测,具体包括:
[0010](

)、
正常数据抽取;基于非异常因子从原始数据集中抽取正常数据

对于数据集
D

x
i

D
中一条记录,
m
为一常数,
distance(x
i
,x
j
)
表示记录
x
i

x
j
之间的距离,定义
x
i
的非异常因子为其中
x
j

1,


m
表示距离
x
i
最近的
m
条记录

依据每条记录的非异常因子的值,按照非正常因子的值从小到大的顺序对所有数据进行排序

根据数据本身的特征和异常检测的要求抽取排在前部分的数据,一般情况下抽取排在前
60


80
%的数据记录

[0011](

)、
抽取数据聚类;从数据集
D
抽取的数据集记为
D

,然后对
D

进行聚类,具体过程如算法1所示;
[0012]算法1:
[0013]输入:抽取的数据集
D'
,初始化参数
k0,
[0014]输出:最终划分
D
′1,D
′2,

,D

k
[0015](1)k
=2[0016](2)while k<k
0 or d

d

<d0[0017](3)d

d'
[0018](4)

D

上运行
k

means
,把
D

划分成
k
个子类,分别记为
D
′1,D
′2,

,D

k
[0019](5)k++
[0020](6)
计算
D
′1,D
′2,

,D

k
类内各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
本发明公开了一种基于正向抽取与反向检测的孤立点检测方法,该方法提高了孤立点检测的效率和精度;一种基于正向抽取与反向检测的孤立点检测方法,所述孤立点检测方法发包括三个过程,
(

)、
数据抽取;
(

)、
正常数据聚类;
(

)、
孤立点检测
。2.
根据权利要求1所述的一种基于正向抽取与反向检测的孤立点检测方法,其特征在于,对于数据集
D

x
i

D
中一条记录,
m
为一常数,
distance(x
i
,x
j
)
表示记录
x
i

x
j
之间的距离,定义
x
i
的非异常因子为其中
x
j

1,


m
表示距离
x
i
最近的
m
条记录
。3.
根据权利要求1和权利要求2所述的一种基于正向抽取与反向检测的孤立点检测方法,依据每条记录的非异常因子的值,按照非正常因子的值从小到大的顺序对所有数据进行排序

根据数据本身的特征和异常检测的要求抽取排在前部分的数据,一般情况下抽取排在前
60


80
%的数据记录
。4.
根据权利要求1所述的一种基于正向抽取与反向检测的孤立点检测方法,其特征在于抽取数据聚类,从数据集
D
抽取的数据集记为
D

,然后对
D

进行聚类
。5.
根据权利要求1和权要求4所述的一种基于正向抽取与反向检测的孤立点检测方法,其聚类算法具体为:算法1:输入:抽取的数据集
D'
,初始化参数
k0,输出:最终划分
D
′1,D
′2,

,D

k
(1)k

2(2)while k<k
0 or d

d

...

【专利技术属性】
技术研发人员:宋法根胡大洋巩永旺陈传杰许贺洋黄曙荣
申请(专利权)人:盐城工学院技术转移中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1