The present invention discloses a support metric spatial outlier detection method based on points, including the choice of the distance function steps: according to the data type, select the distance function; step selection support: read data set, choose not to repeat the intensive support point and edge support; indexing steps: calculating all objects and intensive the supporting point of the distance, sorting, forming a one-dimensional index, calculate all objects and edge point distance, denoted as second distance to the first and second distances as coordinates, support the formation of space; outlier detection steps: one-dimensional index is divided into a plurality of blocks of data, and the data block by block outliers detection. By selecting dense support points and multiple edge support points simultaneously, the invention avoids the technical problem of data distortion caused by single support points, and reduces the time cost of index establishment, reduces the number of distance computation, and improves the speed of outlier detection. The present invention is used to detect outliers in a data set.
【技术实现步骤摘要】
一种基于多种支撑点的度量空间离群检测方法
本专利技术涉及数据挖掘领域,更具体地说涉及一种基于多种支撑点的度量空间离群检测方法。
技术介绍
离群点是数据集中与众不同的数据点,其表现与其它点如此不同,以至于使人怀疑这些数据并非随机的偏差,而是由另外一种完全不同的机制所产生的。离群点也称异常点或者异常对象。离群点检测也称为异常检测、偏差检测或离群点挖掘,它就是按照一定的算法把数据集中的离群点检测出来。换言之,离群点检测就是挖掘海量数据中极少数与主流数据显著不同的点。传统的离群检测技术,大多数是面向多维空间的,仅适用于多维数据,对于图像、音频视频、蛋白质等复杂数据类型无可奈何。仅有的少数离群检测方法基于度量空间,适用于大多数数据类型,但是却存在着索引效率低下,离群检测速度较慢等问题,其中以iORCA算法以及HIOD算法最为常用。所述iORCA算法是本领域代表性算法,该算法随即选取数据集一对象作为支撑点,然后计算所有对象与支撑点的距离,再按降序排序,从而建立简单索引,检测离群点时,便是基于该索引,相当于按照与支撑点的距离,从远到近检测。上述iORCA算法缺点在于仅仅使用一个支撑点,在节省建立索引时间的同时却导致了数据空间的扭曲,降低了索引质量,不能很好地发挥剪枝效率,而且该算法并未提供支撑点选取算法,所选取的支撑点是随即选取的,离群检测效果部稳定,最后该算法只用一个终止规则来判断是否停止检测离群点,未能发挥度量空间三角不等性作用来进一步减少距离计算次数。所述HIOD算法针对iORCA算法中数据扭曲和忽略稀疏区域的问题而提出的,该算法首先选取两个支撑点以减少数据扭曲, ...
【技术保护点】
一种基于多种支撑点的度量空间离群检测方法,其特征在于,所述方法包括以下步骤:选择距离函数步骤:根据数据集的数据类型,选择相应的距离函数;支撑点选取步骤:读取数据集,在数据集中选取密集支撑点以及边缘支撑点,所述密集支撑点与边缘支撑点不重复;建立索引步骤:分别计算数据集中所有对象与密集支撑点的距离,记为第一距离,按第一距离从大到小顺序排序,形成一维索引,分别计算数据集中所有对象与边缘支撑点的距离,记为第二距离,以第一距离和第二距离作为坐标,形成支撑点空间;离群检测步骤:将所述一维索引划分成多个数据块,并对所述数据块逐块进行离群点检测。
【技术特征摘要】
1.一种基于多种支撑点的度量空间离群检测方法,其特征在于,所述方法包括以下步骤:选择距离函数步骤:根据数据集的数据类型,选择相应的距离函数;支撑点选取步骤:读取数据集,在数据集中选取密集支撑点以及边缘支撑点,所述密集支撑点与边缘支撑点不重复;建立索引步骤:分别计算数据集中所有对象与密集支撑点的距离,记为第一距离,按第一距离从大到小顺序排序,形成一维索引,分别计算数据集中所有对象与边缘支撑点的距离,记为第二距离,以第一距离和第二距离作为坐标,形成支撑点空间;离群检测步骤:将所述一维索引划分成多个数据块,并对所述数据块逐块进行离群点检测。2.根据权利要求1所述的一种基于多种支撑点的度量空间离群检测方法,其特征在于,所述支撑点选取步骤中选取密集支撑点包括以下步骤:从数据集中随机选取一个对象作为第一基准点;计算数据集中所有对象与第一基准点的距离,记为第三距离;按照第三距离大小对数据集中的所有对象进行排序,并将所述数据集划分成多个数据段,每个数据段中对象的数量相等;计算每个数据段的距离增量,距离增量最小的数据段记为最密集区域;计算所述最密集区域的中点,记为密集支撑点。3.根据权利要求2所述的一种基于多种支撑点的度量空间离群检测方法,其特征在于,所述支撑点选取步骤中选取边缘支撑点包括以下步骤:设置支撑点数量阈值,设置边缘支撑点集并初始化为空集;在数据集中随机选取一个对象作为第二基准点,添加到边缘支撑点...
【专利技术属性】
技术研发人员:许红龙,戎海武,何敏藩,文翰,杨勇,
申请(专利权)人:佛山科学技术学院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。