The invention requests to protect an improved algorithm based on DBSCAN for anomaly mining of density irregular data, which relates to the field of data mining. In order to overcome the disadvantage of DBSCAN algorithm for non-uniform density data sets, an improved K_means algorithm combined with DBSCAN is proposed. Firstly, the differential evolution method is used to improve the K_means algorithm to accelerate the convergence speed of the algorithm and obtain the optimal clustering partition and number. Then, the improved K_means is used to partition the non-uniform density data sets initially, and then the improved K_means is used to partition the non-uniform density data sets Secondly, DBSCAN algorithm is used to detect the anomalies of the divided sub-datasets. Finally, the detection results are analyzed and merged. Get the final set. Compared with the traditional improved algorithm, this method not only improves the accuracy, but also speeds up and improves the efficiency, which meets the requirements of high efficiency of abnormal data mining.
【技术实现步骤摘要】
一种基于DBSCAN对密度不规则数据进行异常挖掘的改进算法
本专利技术属于数据挖掘领域,尤其涉及一种基于DBSCAN对密度不规则数据进行异常挖掘的改进算法。
技术介绍
在信息化时代数据量日益增大是人们面临的首要问题,如何快速有效的利用这些数据,或发现数据背后所隐藏的有价值的信息,成为现代科技的一个重要挑战。数据挖掘是人工智能、模式识别、机器学习和统计学等学科的交叉,是适应信息化社会从海量的数据集中,提取有用知识的需要而产生的新的学科。数据挖掘是一种非平凡的过程,其目的就是大量数据集中获取有用的、新奇的、潜在的、最终可以理解的知识和信息。异常数据挖掘正式进入人们的视野是在1887年,是由统计学家弗朗西斯·伊西德罗·埃奇沃思一篇不一致试验数据论文开始的。国内外针对异常数据产生的原因以及应用领域的不同提出了许多异常数据挖掘算法,其中DBSCAN算法是最常用的方法之一,该算法不需要事先设定聚类的数目。输入数据的顺序对聚类结果的影响也很小。而且算法对多维数据集和带有"噪声"的空间数据库也有良好的效果。使用DBSCAN算法对数据进行聚类时,如果某些数据对象不包含在任何簇中,则 ...
【技术保护点】
1.一种基于DBSCAN对密度不规则数据进行异常挖掘的改进算法,其特征在于,包括以下步骤:1)、首先引入差分进化算法,通过多次执行样本抽样技术,用最大最小距离算法建立一系列初始聚类;2)、然后利用差分进化算法改进K‑means算法再对密度不均匀的数据集进行初步划分;该算法的所有种群个体,在初始化时得到了一组较优的聚类数目,且在进化过程中通过当代最优种群个体指引,不断的调整聚类数目,实现了对聚类数目的扰动和寻优,然后再利用k‑means算法对所有种群个体进行局部搜索,在提高收敛速度的同时获得最优聚类数目和聚类中心即获得初步划分;3)、之后再采用DBSCAN基于密度应用于噪声的 ...
【技术特征摘要】
1.一种基于DBSCAN对密度不规则数据进行异常挖掘的改进算法,其特征在于,包括以下步骤:1)、首先引入差分进化算法,通过多次执行样本抽样技术,用最大最小距离算法建立一系列初始聚类;2)、然后利用差分进化算法改进K-means算法再对密度不均匀的数据集进行初步划分;该算法的所有种群个体,在初始化时得到了一组较优的聚类数目,且在进化过程中通过当代最优种群个体指引,不断的调整聚类数目,实现了对聚类数目的扰动和寻优,然后再利用k-means算法对所有种群个体进行局部搜索,在提高收敛速度的同时获得最优聚类数目和聚类中心即获得初步划分;3)、之后再采用DBSCAN基于密度应用于噪声的空间聚类算法对已经划分的子数据集进行异常检测,最后再将检测的结果进行分析、合并。2.根据权利要求1所述的基于DBSCAN对密度不规则数据进行异常挖掘的改进算法,其特征在于,所述差分进化算法在种群进化过程中,以每代最优种群个体为指引,对种群个体动态调整聚类数目和聚类中心,然后利用差分进化算法的全局寻优能力,调整个体聚类数目和聚类中心并进行变异交叉,对聚类数目和聚类中心同时进行优化;并且在进化过程中,还对种群个体执行k-means局部搜索和选择操作,得到最佳聚类划分和聚类数目。3.根据权利要求2所述的基于DBSCAN对密度不规则数据进行异常挖掘的改进算法,其特征在于,所述步骤1)中用最大最小距离算法建立一系列初始聚类,将这些初始聚类的聚类中心和数目作为差分进化算法的初始种群,具体包括:对数据集采用样本抽样技术,对每组样本子集用最大最小距离算法输出k_i个初始聚类中心,作为初始种群个体xi,具体步骤如下:①随机抽样:从n个对象中随机抽取m个对象,构成抽样样本sm={z1,z2,…,zm};②从sm中随机选择一个对象zi作为第一个聚类中心M1,即M1=zi;然后从sm中寻找到离zi距离最大的对象zj作为第二个类的聚类中心M2,即M2=zj;③对sm中剩余的每个对象sk分别计算到M1和M2的距离dk1和dk2,让其中的较小值为④计算记录所对应的对象sk,其中sk∈sm;⑤若average表示取平均值,λ仅表示1/2到1之间的一个数值,则将sk作为第三个类的聚类中心M3,其中,λ∈[1/2,1);⑥重复步骤第三到第五步,直到再找不到符合条件的新的聚类中心;⑦将k_i个聚类中心构成种群的一个个体xi,即xi={M1;M2;…;;MK_i}⑧重复以上过程,直至产生N个种群个体;通过上述操作,每个种群的信息既包含一个较优的初始聚类中心信息又包含聚类数k的信息。4.根据权利要求2所述的基于DBSCAN对密度不规则数据进行异常挖掘的改进算法,其特征在于,所述动态调...
【专利技术属性】
技术研发人员:罗志勇,季良缘,李洪丞,罗蓉,汪源野,蔡婷,郑焕平,韩冷,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。