【技术实现步骤摘要】
本专利技术涉及数据挖掘,特别是涉及一种异常数据检测方法及装置。
技术介绍
1、数据的异常类型可以分为点异常和序列异常。点异常是指某个数据点与它周围的数据点有显著差异;序列异常是指某段数据与它周围的数据有显著差异。目前,数据异常值检测的常见方法主要包括如下。
2、1)基于统计的方法。该方法主要用于检测数值型数据,常见有拉依达准则[3-4]、z-score[5]、箱型图[6]、格拉布斯假设检验[7]等。这些方法可用于处理无序或平稳的数据集,但是对于波动起伏较大的数据集并不适用。
3、2)基于距离的方法。该方法包括k最近邻分类[8]算法和k均值聚类[9]算法等。k最近邻分类算法是监督学习中的一种分类算法,k均值聚类算法是无监督学习中的一种分类算法,两者都是基于欧氏距离来进行分类。这两种方法均需要预先指定k值,且对簇的形状和大小敏感,存在局限性。
4、3)基于密度的方法。该方法包括局部离群因子[10](local outlier factor,lof)算法,dbscan[11](density-based s
...【技术保护点】
1.一种异常数据检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤S3之前,还包括:
3.根据权利要求1所述的方法,其特征在于,步骤S3是通过对当前子序列的所述安全度进行基于均值漂移聚类算法的聚类分析来实现的。
4.根据权利要求3所述的方法,其特征在于,所述对当前子序列的所述安全度进行基于均值漂移聚类算法的聚类分析,包括:
5.根据权利要求4所述的方法,其特征在于,所述核函数为高斯核,其最优带宽表示为
6.根据权利要求1所述的方法,其特征在于,还包括利用辅助信息判断提取到的离
...【技术特征摘要】
1.一种异常数据检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤s3之前,还包括:
3.根据权利要求1所述的方法,其特征在于,步骤s3是通过对当前子序列的所述安全度进行基于均值漂移聚类算法的聚类分析来实现的。
4.根据权利要求3所述的方法,其特征在于,所述对当前子序列的所述安全度进行基于均值漂移聚类算法的聚类分析,包括:
5.根据权利要求4所述的方法,...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:中科水研科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。