The invention relates to an outlier detection method based on data structure, which includes: input data set; constructing a multi-dimensional binary tree according to data set, searching K neighbors nearest to each node in the tree by using binary tree search algorithm; constructing data structure map of data points based on a multi-dimensional binary tree, combining each node in the tree. The Euclidean distance between data points is calculated by the neighborhood relationship of nodes. Considering the similarity between data points and the neighborhood relationship of data points in the tree, the Euclidean distance is ranked by the calculated Euclidean distance, and the threshold P is set to automatically determine the outliers. The invention improves the performance of outlier detection and better reflects the structural characteristics of data sets. In addition, the invention is weakly influenced by data distribution and data dimension, and has a wider application scope in practical application. It solves the shortcomings of the existing technology in the detection accuracy of special points and poor detection performance of high-dimensional data.
【技术实现步骤摘要】
一种基于数据结构的异常点检测方法
本专利技术属于数据检测领域,尤其涉及一种基于数据结构的异常点检测方法。
技术介绍
在识别异常点的过程中异常值检测是一项最重要的任务,由于异常点分布不均衡等原因,传统的异常点检测方法会导致不准确甚至错误的识别结果。异常值检测技术能够有效的提高异常点检测的性能。传统的异常点检测技术主要是聚类、分类以及模式识别,这些传统的技术是找到一种通用模式来识别数据中有意义的模式,而异常点检测技术只需要识别出异常点,而不需要识别出正常点。例如,在一个检测生命紊乱的系统中,把正常的人看作正常点,把生命特征紊乱的病人或者把生命危险的病人看作异常点,这样此系统就可以帮助观察病人的生命特征情况,特别是针对和异常点生命特征相符合的病人重点观察。因此,异常值检测比正常模式检测更重要。现有的技术方案主要包括:利用统计学来研究异常点数据和基于距离的检测方法。利用统计学来研究异常点数据是一种比较早使用的方法,通过分析数据的分布情况及离散程度来识别异常点,此方法通常需要一些数据特征变化的指标来判断是否是异常点。目前常用的指标有均差、标准差及特征变化指标,变化指标越大则表示该数据集变化较大,离散程度强;变化指标值越小,则说明该数据变化较小,较密集分布。然而,基于统计的方法有一个严重的缺陷,使用该方法检测出来的异常点也可以使用其它多种方法检测出来,这会产生多义性,也就是说产生这些异常点的原理不一样;除此之外,使用统计方法类检测异常点很大程度上需要依赖于数据点的分布是趋近于某种数学分布,这对检测的准确性有很重要的意义。基于距离的检测方法以距离为测量单位,常用的距离包 ...
【技术保护点】
1.一种基于数据结构的异常点检测方法,其特征在于,包括以下步骤:S1)输入数据集X∈Rm×n,其中X表示m×n的数据矩阵,数据样本xi∈Rn,i∈{1,2,…m},n表示数据样本维度,m表示数据集X的样本个数;S2)设定计算数据样本邻居距离时所需要的邻居个数k,k∈[5,floor(5log10(m))];S3)针对数据集X构建一棵多维二叉树T,利用二叉树搜索算法搜索距离树中每个节点xi,i∈{1,2,…m}最近的k个邻居;S4)针对各个样本点xi,i∈{1,2,…m},利用Dijkstra算法计算出k个邻居与节点的距离dk(xi),其公式为:
【技术特征摘要】
1.一种基于数据结构的异常点检测方法,其特征在于,包括以下步骤:S1)输入数据集X∈Rm×n,其中X表示m×n的数据矩阵,数据样本xi∈Rn,i∈{1,2,…m},n表示数据样本维度,m表示数据集X的样本个数;S2)设定计算数据样本邻居距离时所需要的邻居个数k,k∈[5,floor(5log10(m))];S3)针对数据集X构建一棵多维二叉树T,利用二叉树搜索算法搜索距离树中每个节点xi,i∈{1,2,…m}最近的k个邻...
【专利技术属性】
技术研发人员:李孝杰,郭峰,史沧红,娄苗苗,王录涛,吕建成,吴锡,
申请(专利权)人:成都信息工程大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。