A fast random dense support point-based outlier detection method for metric space includes the following steps: step A: select fast random dense support points and edge support points to obtain support points with maximum density and approximate edge support points; step B: establish metric space index; step C: carry out outlier detection for data set to get outlier sets. The invention proposes a metric space outlier detection method based on fast random dense support points, realizes fast selection of better quality support points and fast calculation of truncation distance, which is conducive to shortening the running time of the program, and uses multiple pruning rules to exclude non-C nearest neighbors and non-outliers as far as possible, thereby reducing the calculation times of distance, less time overhead of index establishment and index addition. The effect of speed is good.
【技术实现步骤摘要】
一种基于快速随机密集支撑点的度量空间离群检测方法
本专利技术涉及数据集检测领域,尤其涉及一种基于快速随机密集支撑点的度量空间离群检测方法。
技术介绍
度量空间离群检测适用于大多数数据类型,图像、音视频、蛋白质等复杂数据类型,现有技术中近似的技术有ADPOD方法。ADPOD方法,即基于快速随机密集支撑点的离群检测算法,随机选取若干候选支撑点,然后每个候选支撑点都与全局数据集计算距离,按自适应截断距离计算每个候选支撑点的密度,排序得出密度最大者,作为支撑点。离群检测算法则基于该支撑点建立简单索引,从远到近检测离群点。但是ADPOD方法存在以下缺陷:1、对于每个候选支撑点都与全局数据集计算距离,计算量较大,不适用于较大的数据集,特别是无法一次性调入内存的数据集;2、对于截断距离的确定依赖于候选支撑点与全局数据集的距离计算,计算开销较大;3、单独使用密集支撑点,对减少距离计算次数的效果较差。
技术实现思路
本专利技术的目的在于针对
技术介绍
中的缺陷,提出一种基于快速随机密集支撑点的度量空间离群检测方法,以解决
技术介绍
中的缺陷问题。为达此目的,本专利技术采用以下技术方案:一种基于快速随机密集支撑点的度量空间离群检测方法,包括以下步骤:步骤A:选取快速随机密集支撑点,得到支撑点的最大密度值;步骤B:建立度量空间索引;步骤C:对数据集进行离群检测,得到离群点集。优选的,在步骤A中,选取快速随机密集支撑点的具体步骤如下:步骤A1:在数据集中随机选取m个候选支撑点,组成候选支撑点集,m为数据集规模的0.1%-1%;步骤A2:计算候选支撑点集中,每个候选支撑点与其他m-1个候选支撑 ...
【技术保护点】
1.一种基于快速随机密集支撑点的度量空间离群检测方法,其特征在于:包括以下步骤:步骤A:选取快速随机密集支撑点和边缘支撑点,得到具有最大密度值的支撑点和近似的边缘支撑点;步骤B:建立度量空间索引;步骤C:对数据集进行离群检测,得到离群点集。
【技术特征摘要】
1.一种基于快速随机密集支撑点的度量空间离群检测方法,其特征在于:包括以下步骤:步骤A:选取快速随机密集支撑点和边缘支撑点,得到具有最大密度值的支撑点和近似的边缘支撑点;步骤B:建立度量空间索引;步骤C:对数据集进行离群检测,得到离群点集。2.根据权利要求1所述一种基于快速随机密集支撑点的度量空间离群检测方法,其特征在于:在步骤A中,选取快速随机密集支撑点的具体步骤如下:步骤A1:在数据集中随机选取m个候选支撑点,组成候选支撑点集,m为数据集规模的0.1%-1%;步骤A2:计算候选支撑点集中,每个候选支撑点与其他m-1个候选支撑点的距离并存储为距离信息,保存其中的最大距离值maxDistance及该最大距离相对应的两个候选支撑点,将其命名为第一边缘支撑点pe1和第二边缘支撑点pe2;步骤A3:每一个候选支撑点与其他m-1个候选支撑点的距离之和,称为稀疏度;计算第一个候选支撑点与其他m-1个候选支撑点的距离之和,将其作为第一稀疏度,并将其赋值于当前最小稀疏度,则当前最小稀疏支撑点为第一个候选支撑点(拥有当前最小稀疏度的候选支撑点为当前最小稀疏支撑点);步骤A4:从第二个候选支撑点开始,依次计算每个候选支撑点与其他m-1个候选支撑点的距离之和,设当前计算的是第i个候选支撑点(2≤i≤m),则赋值为第i稀疏度,并与当前最小稀疏度做比较,若第i稀疏度小于当前最小稀疏度,则将第i稀疏度赋值给当前最小稀疏度,将当前最小稀疏支撑点重新赋值为该候选支撑点,即第i稀疏度对应的候选支撑点;将计算第i稀疏度时,是将某个候选支撑点与其他m-1个候选支撑点的距离进行累加,并将每累加一次得到的第i稀疏度实时与当前最小稀疏度作比较,若出现第i稀疏度大于或等于当前最小稀疏度,则停止计算该候选支撑点的稀疏度;若出现第i稀疏度小于或等于当前最小稀疏度,则继续累加该候选支撑点与后续其他候选支撑点的距离然后再次实时比较;步骤A5:当m个候选支撑点都完成步骤A4之后,取具有当前最小稀疏度的当前最小稀疏支撑点作为密集支撑点pm3并将其输出。3.根据权利要求2所述一种基于快速随机密集支撑点的度量空间离群检测方法,其特征在于:在步骤B中,建立度量空间索引的具体步骤如下:步骤B1:将整个数据集的所有对象与第一边缘支撑点、第二边缘支撑点和密集支撑点计算距离,并保存距离信息命名为支撑点空间;步骤B2:将整个数据集的所有对象,按照其与密集支撑点的距离从大到小进行...
【专利技术属性】
技术研发人员:许红龙,黄文俊,罗云,喻骏,
申请(专利权)人:广东奥博信息产业股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。