【技术实现步骤摘要】
一种度量空间离群检测方法及装置
本公开涉及数据挖掘
,具体涉及一种基于自适应密度峰值支撑点的度量空间离群检测方法。
技术介绍
度量空间离群检测方法适用于大多数数据类型,图像、音视频、蛋白质等复杂数据类型。但传统算法存在着索引效率低下、离群检测速度较慢等问题。下面以与本公开最为接近的iORCA算法为例介绍度量空间离群检测方法。ORCA算法是iORCA算法的前身,它分块检测数据集,并应用简单的剪枝规则,一旦计算得对象的当前离群度低于TOPn离群点阈值,则该对象再也可能成为离群点(因为其所用的离群点定义就是该对象与其k最近邻的距离之和,或者该对象与其第k个最近邻的距离,显然随着k最近邻搜索的进行,离群度不可能增大),获得近似线性的检测速度,成为离群检测领域的state-of-art算法。iORCA算法是本领域代表性算法。算法专利技术者认为,离群点在数据集中占的比较非常小,因此被随机选中的概率非常低。故而该算法随机选取数据集一个对象作为支撑点,然后计算所有对象与其距离,再按降序排序,从而建立简单索引。基于该索引,相当于按照与支撑点的距离,从远到近检测离群点。实验表明该算法较ORCA算法检测速度有了很大的提升。iORCA算法的缺点①iORCA算法随机选取一个支撑点,算法性能波动较大,即如果离群点或者较稀疏处的正常点被选到,都会导致算法不能尽早结束而使性能下降。②iORCA算法每检测完一个数据块,才检查下一个数据块的首个对象是否符合终止规则(即能否直接作为非离群点排除,从而能够直接排除剩下所有未检测的对象,提前终止离群检测程序)。如此,终止程序的时机比较滞后。③ ...
【技术保护点】
1.一种度量空间离群检测方法,其特征在于,所述方法包括以下步骤:步骤1,选取数据集自适应密度峰值的支撑点;步骤2,根据支撑点建立数据集的度量空间支撑点索引;步骤3,定义剪枝规则;步骤4,根据剪枝规则与支撑点索引进行离群检测;步骤5,输出离群点。
【技术特征摘要】
1.一种度量空间离群检测方法,其特征在于,所述方法包括以下步骤:步骤1,选取数据集自适应密度峰值的支撑点;步骤2,根据支撑点建立数据集的度量空间支撑点索引;步骤3,定义剪枝规则;步骤4,根据剪枝规则与支撑点索引进行离群检测;步骤5,输出离群点。2.根据权利要求1所述的一种度量空间离群检测方法,其特征在于,在步骤1中,选取数据集自适应密度峰值的支撑点的方法包括以下步骤,步骤1.1,随机选取数据集的m个候选支撑点,所述m为整数可由用户输入,默认值为数据集规模的0.1%;步骤1.2,计算数据集中所有对象,例如对象x,与第1个候选支撑点p1的距离并存储距离信息d(p1,x),并保存最大距离值maxDistance,将所有候选支撑点的密度值初始化为0;步骤1.3,检查这些已经保存的距离信息,如果d(x,p1)<0.1*maxDistance,则候选支撑点p1的密度值加3,否则如果d(x,p1)<0.2*maxDistance,则候选支撑点p1的密度值加2;否则如果d(x,p1)<0.4*maxDistance,则候选支撑点p1的密度值加1;步骤1.4,对于数据集的每个对象x与除第1个之外的其它每个候选支撑点pi,2≤i≤m,如果||d(p1,pi)-d(p1,x)||<0.4*maxDistance,则计算对象x与对象pi的距离d(x,pi),否则不必计算;步骤1.5,如果d(x,pi)<0.1*maxDistance,则候选支撑点pi的密度值加3;否则如果d(x,pi)<0.2*maxDistance,则候选支撑点pi的密度值加2;否则如果d(x,pi)<0.4*maxDistance,则候选支撑点pi的密度值加1;步骤1.6,根据所有候选支撑点的密度值,取具有最大密度值的候选支撑点作为支撑点P输出。3.根据权利要求1所述的一种度量空间离群检测方法,其特征在于,在步骤2中,根据支撑点建立数据集的度量空间支撑点索引的方法包括以下步骤,步骤2.1,将整个数据集的所有对象与支撑点P计算距离,并保存这些距离信息,称为支撑点空间;步骤2.2,将这些距离信息按从大到小排序,形成支撑点索引,后续进行离群检测时,即是按照索引顺序。4.根据权利要求1所述的一种度量空间离群检测方法,其特征在于,在步骤3中,定义剪枝规则的方法包括以下步骤,步骤3.1,假设给定D为数据集,c为离群度阈值,P为支撑点,x为离群检测方法正在检测的数据对象,d()为距离函数,nnk(P,D)表示对象P在数据集D中的第k最近邻;步骤3.2,设定剪枝规则的终止规则为,如果d(x,P)+d(P,nnk(P,D))<c,那么...
【专利技术属性】
技术研发人员:许红龙,黄文俊,罗云,
申请(专利权)人:广东奥博信息产业股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。