一种度量空间离群检测方法及装置制造方法及图纸

技术编号：20655078 阅读：31 留言：0更新日期：2019-03-23 06:47

本公开公开了一种度量空间离群检测方法及装置，从多个随机选取的支撑点之中，选择密度最大的支撑点，实时检查当前正在检测的对象是否符合终止规则，对确认为非离群点的对象，使用度量空间三角不等性以检查最近邻数量最近邻能否也作为非离群点而提前排除，完全基于距离的离群点检测算法，对不同的数据类型具有很强的通用性，本公开在保持基于距离的通用性的同时，具有较高的检测效率，且兼容多种离群点定义，有利于缩短程序运行时间，减少距离计算次数，建立索引时间开销较小，索引加速效果好。

全部详细技术资料下载

【技术实现步骤摘要】
一种度量空间离群检测方法及装置
本公开涉及数据挖掘
，具体涉及一种基于自适应密度峰值支撑点的度量空间离群检测方法。
技术介绍
度量空间离群检测方法适用于大多数数据类型，图像、音视频、蛋白质等复杂数据类型。但传统算法存在着索引效率低下、离群检测速度较慢等问题。下面以与本公开最为接近的iORCA算法为例介绍度量空间离群检测方法。ORCA算法是iORCA算法的前身，它分块检测数据集，并应用简单的剪枝规则,一旦计算得对象的当前离群度低于TOPn离群点阈值，则该对象再也可能成为离群点(因为其所用的离群点定义就是该对象与其k最近邻的距离之和，或者该对象与其第k个最近邻的距离，显然随着k最近邻搜索的进行，离群度不可能增大)，获得近似线性的检测速度，成为离群检测领域的state-of-art算法。iORCA算法是本领域代表性算法。算法专利技术者认为，离群点在数据集中占的比较非常小，因此被随机选中的概率非常低。故而该算法随机选取数据集一个对象作为支撑点，然后计算所有对象与其距离，再按降序排序，从而建立简单索引。基于该索引，相当于按照与支撑点的距离，从远到近检测离群点。实验表明该算法较ORCA算法检测速度有了很大的提升。iORCA算法的缺点①iORCA算法随机选取一个支撑点，算法性能波动较大，即如果离群点或者较稀疏处的正常点被选到，都会导致算法不能尽早结束而使性能下降。②iORCA算法每检测完一个数据块，才检查下一个数据块的首个对象是否符合终止规则(即能否直接作为非离群点排除，从而能够直接排除剩下所有未检测的对象，提前终止离群检测程序)。如此，终止程序的时机比较滞后。③...

【技术保护点】
1.一种度量空间离群检测方法，其特征在于，所述方法包括以下步骤：步骤1，选取数据集自适应密度峰值的支撑点；步骤2，根据支撑点建立数据集的度量空间支撑点索引；步骤3，定义剪枝规则；步骤4，根据剪枝规则与支撑点索引进行离群检测；步骤5，输出离群点。

【技术特征摘要】
1.一种度量空间离群检测方法，其特征在于，所述方法包括以下步骤：步骤1，选取数据集自适应密度峰值的支撑点；步骤2，根据支撑点建立数据集的度量空间支撑点索引；步骤3，定义剪枝规则；步骤4，根据剪枝规则与支撑点索引进行离群检测；步骤5，输出离群点。2.根据权利要求1所述的一种度量空间离群检测方法，其特征在于，在步骤1中，选取数据集自适应密度峰值的支撑点的方法包括以下步骤，步骤1.1，随机选取数据集的m个候选支撑点，所述m为整数可由用户输入，默认值为数据集规模的0.1％；步骤1.2，计算数据集中所有对象，例如对象x，与第1个候选支撑点p1的距离并存储距离信息d(p1,x)，并保存最大距离值maxDistance，将所有候选支撑点的密度值初始化为0；步骤1.3，检查这些已经保存的距离信息，如果d(x,p1)<0.1*maxDistance，则候选支撑点p1的密度值加3，否则如果d(x,p1)<0.2*maxDistance，则候选支撑点p1的密度值加2；否则如果d(x,p1)<0.4*maxDistance，则候选支撑点p1的密度值加1；步骤1.4，对于数据集的每个对象x与除第1个之外的其它每个候选支撑点pi，2≤i≤m，如果||d(p1,pi)-d(p1,x)||<0.4*maxDistance，则计算对象x与对象pi的距离d(x,pi)，否则不必计算；步骤1.5，如果d(x,pi)<0.1*maxDistance，则候选支撑点pi的密度值加3；否则如果d(x,pi)<0.2*maxDistance，则候选支撑点pi的密度值加2；否则如果d(x,pi)<0.4*maxDistance，则候选支撑点pi的密度值加1；步骤1.6，根据所有候选支撑点的密度值，取具有最大密度值的候选支撑点作为支撑点P输出。3.根据权利要求1所述的一种度量空间离群检测方法，其特征在于，在步骤2中，根据支撑点建立数据集的度量空间支撑点索引的方法包括以下步骤，步骤2.1，将整个数据集的所有对象与支撑点P计算距离，并保存这些距离信息，称为支撑点空间；步骤2.2，将这些距离信息按从大到小排序，形成支撑点索引，后续进行离群检测时，即是按照索引顺序。4.根据权利要求1所述的一种度量空间离群检测方法，其特征在于，在步骤3中，定义剪枝规则的方法包括以下步骤，步骤3.1，假设给定D为数据集，c为离群度阈值，P为支撑点，x为离群检测方法正在检测的数据对象，d()为距离函数，nnk(P,D)表示对象P在数据集D中的第k最近邻；步骤3.2，设定剪枝规则的终止规则为，如果d(x,P)+d(P,nnk(P,D))<c，那么...

【专利技术属性】
技术研发人员：许红龙，黄文俊，罗云，
申请(专利权)人：广东奥博信息产业股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人