一种异常数据检测方法及装置制造方法及图纸

技术编号:43883846 阅读:27 留言:0更新日期:2024-12-31 19:08
本发明专利技术涉及一种异常数据检测方法及装置。其中,检测方法包括以下步骤:S0使用设定窗长的滑动窗口以设定步长沿待测数据滑动一次,将每次滑动后获得的窗口内数据元素组成的序列作为一个子序列;S1对于当前子序列中的任意序列元素,分别计算其与该子序列内所有其他序列元素间的距离,并统计大于安全阈值的所述距离的个数作为该序列元素的安全度元素;S2获取当前子序列中全部序列元素的所述安全度元素的集合作为当前子序列的安全度;S3根据当前子序列的所述安全度中元素分布情况分析获得离群异常点。本发明专利技术能够可靠有效的检测复杂变化数据中的异常数据。

【技术实现步骤摘要】

本专利技术涉及数据挖掘,特别是涉及一种异常数据检测方法及装置


技术介绍

1、数据的异常类型可以分为点异常和序列异常。点异常是指某个数据点与它周围的数据点有显著差异;序列异常是指某段数据与它周围的数据有显著差异。目前,数据异常值检测的常见方法主要包括如下。

2、1)基于统计的方法。该方法主要用于检测数值型数据,常见有拉依达准则[3-4]、z-score[5]、箱型图[6]、格拉布斯假设检验[7]等。这些方法可用于处理无序或平稳的数据集,但是对于波动起伏较大的数据集并不适用。

3、2)基于距离的方法。该方法包括k最近邻分类[8]算法和k均值聚类[9]算法等。k最近邻分类算法是监督学习中的一种分类算法,k均值聚类算法是无监督学习中的一种分类算法,两者都是基于欧氏距离来进行分类。这两种方法均需要预先指定k值,且对簇的形状和大小敏感,存在局限性。

4、3)基于密度的方法。该方法包括局部离群因子[10](local outlier factor,lof)算法,dbscan[11](density-based spatial clu本文档来自技高网...

【技术保护点】

1.一种异常数据检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤S3之前,还包括:

3.根据权利要求1所述的方法,其特征在于,步骤S3是通过对当前子序列的所述安全度进行基于均值漂移聚类算法的聚类分析来实现的。

4.根据权利要求3所述的方法,其特征在于,所述对当前子序列的所述安全度进行基于均值漂移聚类算法的聚类分析,包括:

5.根据权利要求4所述的方法,其特征在于,所述核函数为高斯核,其最优带宽表示为

6.根据权利要求1所述的方法,其特征在于,还包括利用辅助信息判断提取到的离群异常点是否为异常数...

【技术特征摘要】

1.一种异常数据检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤s3之前,还包括:

3.根据权利要求1所述的方法,其特征在于,步骤s3是通过对当前子序列的所述安全度进行基于均值漂移聚类算法的聚类分析来实现的。

4.根据权利要求3所述的方法,其特征在于,所述对当前子序列的所述安全度进行基于均值漂移聚类算法的聚类分析,包括:

5.根据权利要求4所述的方法,...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:中科水研科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1