基于动态网格优化的LOF聚类数据异常点检测方法和检测系统技术方案

技术编号:16399265 阅读:41 留言:0更新日期:2017-10-17 19:39
本发明专利技术公开了一种基于动态网格优化的LOF聚类数据异常点检测方法和检测系统,其中检测方法包括如下步骤:1、根据初始单元网格向量M0和增长向量△p,得到最优单元网格向量Mopt;2、根据最优单元网格向量Mopt将数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt;3、对步骤2中得到的过渡区域Rt中的每一个网格,根据网格周边密度比向量F划分为稠密区域网格G′d和稀疏区域网格G′s;将稀疏区域网格G′s加入到稀疏区域Rs中,组成数据空间的稀疏区域Regions;4、对数据空间的稀疏区域Regions应用LOF算法检测异常点。该方法通过动态网格缩小了LOF算法的运算数据量,极大地降低了LOF算法的计算时间。

Outlier detection method and detection system for LOF clustering data based on dynamic mesh optimization

The invention discloses a data clustering based on LOF dynamic mesh optimization outlier detection method and detection system, the detection method comprises the following steps: 1, according to the initial mesh vector M0 and vector p, the optimal grid unit vector Mopt; 2, according to the optimal grid unit vector Mopt data space is divided into dense Rd, Rs and Rt sparse region transition region; each grid Rt transition region 3, to get in step 2, according to the grid density around than vector F into dense region grid G 'd and G' s sparse grids; sparse region grid G 's into the sparse region in Rs Regions, the sparse region of data space; 4, the sparse region of data space Regions application LOF algorithm to detect outliers. This method reduces the computation data of LOF algorithm by dynamic grid, and greatly reduces the computing time of LOF algorithm.

【技术实现步骤摘要】
基于动态网格优化的LOF聚类数据异常点检测方法和检测系统
本专利技术属于数据挖掘领域,主要涉及数据异常点检测方法和检测系统。
技术介绍
随着大数据时代的到来,如何有效和高效地分析并挖掘包含在这些大规模数据集中的信息具有重要意义。在大规模的数据库数据集包含的信息中,数据异常点往往包含着潜在的有价值的信息。异常点检测作为数据挖掘的一个重要的研究分支,其主要功能是从庞大而复杂的数据中提取与主流数据有着极大区别同时数量极少的数据。目前研究人员已提出了大量异常点检测算法,主要包括基于统计分布的方法、基于距离的方法以及基于聚类的检测方法等。然而现有的大多数异常点算法都具有时间复杂度高,在处理大规模数据时往往会花费很大的时间和空间。此外,目前大多数数据挖掘软件对待检测的数据库环境具有较高的依赖性,通用性差。暂不存在能对任意基础数据库进行数据异常点自动挖掘的软件,极大限制了异常点检测的应用。
技术实现思路
专利技术目的:针对现有技术中存在的问题,本专利技术公开了一种基于动态网格优化的LOF聚类数据异常点检测方法和检测系统,所述检测方法通过动态网格缩小了LOF算法的运算数据量,极大地降低了LOF算法的计算本文档来自技高网...
基于动态网格优化的LOF聚类数据异常点检测方法和检测系统

【技术保护点】
一种基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,包括如下步骤:(1)根据初始单元网格向量M0和增长向量Δp,得到最优单元网格向量Mopt;(2)根据最优单元网格向量Mopt将数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt;(3)对步骤(2)中得到的过渡区域Rt中的每一个网格,根据网格周边密度比向量F划分为稠密区域网格G′d和稀疏区域网格Gs′;将稀疏区域网格Gs′加入到稀疏区域Rs中,组成数据空间的稀疏区域Regions;(4)对数据空间的稀疏区域Regions应用LOF算法检测异常点。

【技术特征摘要】
1.一种基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,包括如下步骤:(1)根据初始单元网格向量M0和增长向量Δp,得到最优单元网格向量Mopt;(2)根据最优单元网格向量Mopt将数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt;(3)对步骤(2)中得到的过渡区域Rt中的每一个网格,根据网格周边密度比向量F划分为稠密区域网格G′d和稀疏区域网格Gs′;将稀疏区域网格Gs′加入到稀疏区域Rs中,组成数据空间的稀疏区域Regions;(4)对数据空间的稀疏区域Regions应用LOF算法检测异常点。2.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,步骤(1)中计算最优单元网格向量Mopt步骤如下:(1.1)n维数据空间的边界表示为S(s1,s2,…,sn),根据初始单元网格向量M0(m1,m2,…,mn)和增长向量Δp(Δp1,Δp2,…,Δpn)生成单元网格向量集合Φ:Φ{M0,M1,1,…,M1,l1,M2,1,…,M2,l2,…,Mn,1,Mn,ln};其中Mi,j为Mi,j(m1,...,mi+Δpi*j,...,mn),且1≤i≤n,1≤j≤max(l1,...,ln),mi+Δpi*j≤si;(1.2)根据集合Φ中的单元网格向量将n维数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt,计算如下比值:过渡区域内网格与稠密区域内网格的数据量比p1=G1:C1;过渡区域内网格与稀疏区域内网格的数据量比p2=G1:X1;遍历单元网格向量集合Φ中的单元网格向量,得到p1取最小值时的单元网格向量M1和p2取最小值时的单元网格向量M2;(1.3)如果M1=M2,则最优单元网格向量Mopt为M1;如果M1≠M2,则最优单元网格向量Mopt=(M1+M2)/2。3.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,根据选定的单元网格向量将数据空格划分为N个网格,统计每个网格内的数据量,并按数据量从大到小对网格进行排序;所述稠密区域为数据量最大的前个网格组成的区域;所述稀疏区域...

【专利技术属性】
技术研发人员:金鑫刘晓晖卢明许田丹叶健聪张硕戴楠
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1