一种基于相对密度的异常检测算法制造技术

技术编号:16038279 阅读:160 留言:0更新日期:2017-08-19 20:07
本发明专利技术公开的一种基于相对密度的异常检测算法,属于机器学习和数据挖掘领域。本发明专利技术的异常检测算法基于最近邻思想,采取了局部相对密度的方法,异常点由数据点的密度和其近邻密度之间的差异而判定,对于一个给定的数据点,其与近邻之间的相对密度差异越大,则该数据点的异常性越大。同传统的基于密度的方式相比,相对密度方法更具准确性,不仅能够解决基于距离的方法无法检测局部异常的问题,而且能够克服基于密度方法对稀疏数据失效的缺陷。对于不同的数据能够检测出不同的异常类型的点。

【技术实现步骤摘要】
一种基于相对密度的异常检测算法
本专利技术涉及数据挖掘和机器学习
,具体是基于相对密度的异常检测算法。
技术介绍
异常检测在数据挖掘和机器学习领域中是非常重要的任务。异常检测主要是在大量复杂的数据集中挖掘稀少的模式。在实际应用中异常模式所含有的信息往往比正常模式所含有的信息更加重要,例如在医疗诊断中挖掘出癌症病症(稀少模式)比正常信息要有用。异常检测技术广泛的应用于各种领域,例如网络流量入侵,信用卡检测,医疗健康检测等。机器学习和数据挖掘已经定义了许多异常值检测方法,例如基于分布[1],基于距离[2][3],基于密度[4],基于聚类[5][6][7][8]。基于分布的异常检测需要先验的知道数据服从某种分布,然而在现实世界中很难得到数据的真实分布。[2]提出一种基于距离的异常检测方法,把数据点到其k-th近邻的距离作为该点的异常性。然而这种方法只能够检测到全局异常,对于局部异常的检测就会失效。[4]提出一种基于密度的异常检测,为一个数据点分配异常因子根据他所围绕的近邻。异常因子反映了一个数据点与其近邻的接近程度。这种方法是很好的异常检测方法,但是在稀疏的数据集上有一定的缺陷性。[本文档来自技高网...
一种基于相对密度的异常检测算法

【技术保护点】
一种基于相对密度的异常检测算法,其特征在于,包括以下步骤:步骤1)确定算法输入变量,包括待检测的无标记样本集D,最近邻的个数k,根据先验知识获得的异常点的个数n;步骤2)将数据集D归一化,使得每个属性的取值在[0,1]之间,归一化的数据集记为D′;步骤3)数据D中给定的样本点p,根据距离函数dist(),获取点p的k个最近邻Nk(p);步骤4)计算点p到Nk(p)中所有的点的平均距离distknn(p),则根据distknn(p)可以计算点p的密度density(p);步骤5)对于集合Nk(p)中的每一个数据点o∈Nk(p),分别计算其distknn(o),则可以计算点p的近邻密度nn_den...

【技术特征摘要】
1.一种基于相对密度的异常检测算法,其特征在于,包括以下步骤:步骤1)确定算法输入变量,包括待检测的无标记样本集D,最近邻的个数k,根据先验知识获得的异常点的个数n;步骤2)将数据集D归一化,使得每个属性的取值在[0,1]之间,归一化的数据集记为D′;步骤3)数据D中给定的样本点p,根据距离函数dist(),获取点p的k个最近邻Nk(p);步骤4)计算点p到Nk(p)中所有的点的平均距离distknn(p),则根据distknn(p)可以计算点p的密度density(p);步骤5)对于集合Nk(p)中的每一个数据点o∈Nk(p),分别计算其distknn(o),则可以计算点p的近邻密度nn_density(p);步骤6)计算点p的相对密度Rdensity(p);步骤7)数据集D′中的所有的样本都计算其Rdensity,可得到一个Rdensities[]数组;步骤8)将Rdensities[]中的元素按照降序排列得到一个sorted_Rdensities[]数组;步骤9)选取sorted_Rdensities[]中top-n个样本将其定义为异常点。2.根据权利要求1所述的基于相对密度的异...

【专利技术属性】
技术研发人员:关东海陈凯袁伟伟
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1