基于信息熵聚类的异常检测方法技术

技术编号:20682029 阅读:42 留言:0更新日期:2019-03-27 19:14
本发明专利技术公开的一种基于信息熵聚类的异常检测方法,属于机器学习和数据挖掘领域。本发明专利技术的异常检测算法基于聚类算法的思想,克服了传统K‑means聚类算法随机选择初始聚类中心易导致聚类结果陷入局部最优的问题,提出基于信息熵选取初始聚类中心的方法。本发明专利技术提出的方法是将数据集平均分成比K值多的数据块,进而使用熵值法得到每个数据块的目标价值函数,选取前k个目标价值函数值最小的数据块对应的质心作为初始聚类中心,利用熵值法保证了初始聚类中心选取的高效性,并在算法的迭代过程中实现了异常检测的功能。同传统的基于K‑means的聚类算法相比,本发明专利技术提出的算法无论是在聚类效果和异常检测能力上均高于传统K‑means聚类算法。有一定的实际意义。

【技术实现步骤摘要】
基于信息熵聚类的异常检测方法
本专利技术涉及机器学习和数据挖掘
,具体是基于信息熵聚类的异常检测算法。
技术介绍
随着近代以来信息技术的迅猛发展,在诸多领域中一些和大多数数据不同的特殊数据受到人们的广泛关注,这些特殊数据称为异常数据。异常是在数据集中与众不同的数据,使人怀疑这些数据并非偏差,而是产生于完全不同的机制。异常检测常用方法包括:基于统计的异常检测方法、基于数据流算法的异常检测方法和基于无监督学习的机器学习方法。数据挖掘、机器学习在异常检测中的应用得到了广泛关注。数据挖掘是指从海量数据中搜索出隐藏信息的过程,它通常与机器学习、模式识别等方法结合来实现上述目标数据挖掘技术的异常检测分为分类、聚类和关联规则三种。聚类分析作为数据挖掘的重要分支,是对事先未知的数据对象进行类的划分,目标是将数据集分成若干的簇,并保证同一簇内的数据点相似度尽可能大,簇于簇之间的数据点相似度尽可能小。K-means方法就是一种基于无监督的划分聚类算法,因其高效性和简单性被广泛用于异常检测领域。但由于该算法的初、始聚类中心选择过程是随机的,因此容易导致最终聚类结果陷入局部最优而非全局最优。另一种比较本文档来自技高网...

【技术保护点】
1.一种基信息熵聚类的异常检测算法,其特征在于,包括以下步骤:步骤1)确定初始聚类中心个数K,聚类函数精度ε步骤2)设置初始聚类准则函数值J0=0,数据集中每个数据点x的初始异常度Abnx=0;步骤3)将数据对象平均分成k1(k1>k)个子集,从各个子集中随机选出一个数据对象,并将其作为聚类种子中心,扫描数据集合,根据其与各聚类中心的相似度(赋权后的欧氏距离),将其归于其最相似的簇中,形成k1个初始类簇;步骤4)计算k1个聚类的σi,并按照σi值递增顺序排序,选取前k个σi值对应的质心作为初始聚类中心cj;步骤5)计算所有数据集中所有数据点和各个聚类中心的欧式距离

【技术特征摘要】
1.一种基信息熵聚类的异常检测算法,其特征在于,包括以下步骤:步骤1)确定初始聚类中心个数K,聚类函数精度ε步骤2)设置初始聚类准则函数值J0=0,数据集中每个数据点x的初始异常度Abnx=0;步骤3)将数据对象平均分成k1(k1>k)个子集,从各个子集中随机选出一个数据对象,并将其作为聚类种子中心,扫描数据集合,根据其与各聚类中心的相似度(赋权后的欧氏距离),将其归于其最相似的簇中,形成k1个初始类簇;步骤4)计算k1个聚类的σi,并按照σi值递增顺序排序,选取前k个σi值对应的质心作为初始聚类中心cj;步骤5)计算所有数据集中所有数据点和各个聚类中心的欧式距离其中,i=1,2,...,n且j=1,2,...,K,m代表数据集的维度。对于数据点x,若cj使得D(xi,cj)=minD(xi,cj),j=1,2,...,K,则将点x划分到cj所代表的簇;步骤6)在形成的K个类簇中,若属于该簇的数据点x与该聚类簇中心距离大于平均距离,即其中Nj是cj代表簇拥有数据点的总数,则Abnx++;步骤7)若Abnx≥3,则判断x为异常点,将其从数据集中剔除,并入异常集U中;步骤8)判断聚类准则函数是否满足收敛条件|J′-J|≤ε(J是上次迭代聚类准则函数,J′是本次聚类准则函数值),若不满足,转步骤9)继续迭代。若满足收敛条件,则算法结束,输出各个类簇和异常点集合U;步骤9)重新计算各类簇的聚类中心:然后转步骤5),Nj是cj代表的簇中拥有的数据点总数。2.根据权利要求1所述的基于信息熵聚类的异常检测算法,其特征在于:所述步骤1)中,跟传统K-means聚类算法一样,本发明提出的算法仍需要根据实际经验提前确定聚类的个数K,以及判断聚类结果是否收敛的精度ε。3.根据权利要求1所述的基于信息熵聚类的异常检测算法,其特征在于:所述步骤2)中,设置每个数据点x的初...

【专利技术属性】
技术研发人员:方锡谭文安赵璐
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1