一种基于测地线距离的异常点检测方法技术

技术编号:19635662 阅读:19 留言:0更新日期:2018-12-01 16:18
本发明专利技术涉及一种基于测地线距离的异常点检测方法,其包括:输入数据集X;针对数据集X构建邻接图G,利用Dijkstra算法创建测地距离矩阵;针对各样本点计算测地距离ηi以及各点的度deg(xi);计算平均测地距离

An anomaly detection method based on geodesic distance

The invention relates to an anomaly detection method based on geodesic distance, which includes: input data set X; constructing adjacency graph G for data set X, using Dijkstra algorithm to create geodesic distance matrix; calculating geodesic distance I and degree DEG (xi) for each sample point; calculating average geodesic distance.

【技术实现步骤摘要】
一种基于测地线距离的异常点检测方法
本专利技术属于数据挖掘领域,尤其涉及一种基于测地线距离的异常点检测方法。
技术介绍
在识别异常点的过程中异常值检测是一项最重要的任务,由于异常点分布不均衡等原因,传统的异常点检测方法会导致不准确甚至错误的识别结果。异常值检测技术能够有效的提高异常点检测的性能。传统的异常点检测技术主要是聚类、分类以及模式识别,这些传统的技术是找到一种通用模式来识别数据中有意义的模式,而异常点检测技术只需要识别出异常点和边界点,而不需要识别出正常点。例如,在一个检测生命紊乱的系统中,把正常的人看作正常点,把生命特征紊乱的病人看作异常点,把生命危险的病人看作边界点,这样此系统就可以帮助观察病人的生命特征情况,特别是针对和异常点、边界点生命特征相符合的病人重点观察。异常值检测比正常模式检测更重要。现有的技术方案主要包括:利用统计学来研究异常点数据和基于距离的检测方法。利用统计学来研究异常点数据是一种比较早使用的方法,通过分析数据的分布情况及离散程度来识别异常点,此方法通常需要一些数据特征变化的指标来判断是否是异常点。目前常用的指标有均差、标准差及特征变化指标,变化指标越大则表示该数据集变化较大,离散程度强;变化指标值越小,则说明该数据变化较小,较密集分布。然而,基于统计的方法有一个严重的缺陷,使用该方法检测出来的异常点也可以使用其它多种方法检测出来,这会产生多义性,也就是说产生这些异常点的原理不一样;除此之外,使用统计方法类检测异常点很大程度上需要依赖于数据点的分布是趋近于某种数学分布,这对检测的准确性有很重要的意义。基于距离的异常点检测是近几年来比较受欢迎的技术之一,该技术是对于两个给定的点之间计算欧式距离。然而单纯的计算欧式距离并不能有效、准确地识别所有异常点。根据检测方法是否需要标签,可以把检测方法分为监督式、半监督式及无监督式,其中无监督式是最具有挑战性的一种方法,因为缺乏有效的标签训练,并且再加上数据分布的不平衡性,就更加剧了检测结果的不准确性。针对此问题,传统的解决方式是局部异常值模式,但此方法也会因数据分布的不平衡性导致检测结果的不稳定性以及不准确性。综上,现有的异常点检测算法在特定条件或特定领域下效果较好,或者对较低维空间的异常点检测效果较好,当数据的维度较高,这些算法的效果并不理想,泛化能力较弱。目前高维空间的异常点检测研究还处于起步阶段。例如,Kriegel提出了基于角度的异常点检测算法(ABOD),该算法不依赖于参数选择问题。然而,ABOD算法仅考虑当前点与邻居的关系,而没考虑其邻居之间的更多关系,导致该算法识别到错误的异常点。因此,对于高维空间中的异常点检测算法还有待更加深入的研究。因此,如何进一步提高异常点检测精度和效率成为目前数据挖掘领域需要解决的技术问题。
技术实现思路
针对现有技术之不足,本专利技术提出了一种基于测地线距离的异常点检测方法,其包括以下步骤:S1)输入数据集X∈Rm×n,其中X表示m×n的数据矩阵,数据样本xi∈Rm,i∈{1,2,…n},m表示数据样本维度,n表示数据集X的样本个数;S2)针对数据集X构建邻接图G,利用Dijkstra算法创建测地距离矩阵D∈Rn×n,dij为其元素;S3)基于测地距离矩阵D∈Rn×n,针对各个样本点xi,i∈{1,2,…n}计算测地距离ηi以及各点的度deg(xi),具体如下所示:其中其中,xi表示所述数据X中第i个数据样本,deg(xi)用于统计与xi的邻居个数;如果数据集中第i个数据点xi和第j个数据点xj的有直接连接关系,则χ(dij)为1,否则为0;S4)计算平均测地距离其公式为:S5)设定阈值τ,计算数据集X中样本点xi的实际度Rdeg(xi),其公式为:Rdeg(xi)=#{di1<τ,di2<τ,…din<τ}(2)其中,Rdeg(xi)用于统计数据集X中与xi点相连接且其dij小于τ的个数;S6)判定异常点,其包括:S6.1)给定数据集X,t是一常数且t<1,假设Ω包括实际度数满足的数据点xi,Ψ包括满足的数据点xi,其中,为数据集Rdeg(xi)的均值,为数据集的均值;S6.2)如果xi∈{Ω∪Ψ},则xi被判定为异常点。本专利技术的具有以下有益效果:1、本专利技术是一种鲁棒的异常点检测方法,通过测地线距离发现数据点之间全局空间结构关系,揭示了蕴含于距离中的用于异常检测的异常特征。本专利技术可更好地反映数据集的结构特征,并且同时检测出异常点和边缘点,适用于分布未知的数据。2、本专利技术基于测地线距离考虑数据之间的距离与度用于判断数据点为异常点的可能性,该指标不仅考虑了数据的全局结构特征,而且考虑了数据的局部结构特征,通过设定阈值t来确定异常点,提高了异常点检测的性能与鲁棒性,更好的反应了数据集的结构特征,满足异常点检测在实际应用环境的需求。3、本专利技术受数据分布和数据维度的影响较弱,因此同样适用于高维数据,在实际应用中适用范围更广。附图说明图1示出了本专利技术异常点检测方法的流程图;图2示出了对UCI数据集使用本专利技术方法和传统方法判定异常点的AUC值结果对比图;图3示出了对MNIST数据集使用本专利技术方法和传统方法进行异常点判定的实验结果图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。需要说明的是,本专利技术中的τ门限值是指:确定的临界常数,用于评价当前观测点属于异常点的程度,它被定义为与当前观测点距离有关的全局点的个数的函数。本专利技术中的特殊点包括异常点和边缘点。如图1所示,本专利技术提出的一种基于测地线距离的异常点检测方法,包括以下步骤:S1)输入数据集X∈Rm×n,阈值τ,其中X表示m×n的数据矩阵,所述数据集X的每一列表示一个数据样本,即X包括n个样本,每个样本具有m维,数据样本xi∈Rm,i∈{1,2,…n},m表示数据样本维度,n表示数据集X的样本个数。S2)针对数据集X构建邻接图G,利用Dijkstra算法创建测地距离矩阵D∈Rn×n,dij为其元素。S3)基于D∈Rn×n,针对各个样本点xi,i∈{1,2,…n}计算测地距离ηi以及各顶点的度deg(xi),具体如下所示:其中其中,xi表示所述数据X中第i个数据样本,deg(xi)用于统计与xi的邻居个数。如果数据集中第i个数据点xi和第j个数据点xj的有直接连接关系,则χ(dij)为1,否则为0。S4)计算平均测地距离公式如(1)所示:S5)设定阈值τ,计算数据集X中样本点xi的实际度(即排除部分无效连接后),采用公式(2)计算:Rdeg(xi)=#{di1<τ,di2<τ,…din<τ}(2)其中,与deg(xi)不同,Rdeg(xi)用于统计数据集X中与xi点相连接且其dij小于τ的个数。S6)判定特殊点和异常点,包括如下步骤:S6.1)给定数据集X,t是一常数且t<1,假设Ω包括实际度数满足的数据点xi,Ψ包括的数据点xi。其中,为数据集Rdeg(xi)的均值,为数据集的均值。S6.2)如果xi∈{Ω∪Ψ},则xi被判定为异常点。判定异常点的步本文档来自技高网
...

【技术保护点】
1.一种基于测地线距离的异常点检测方法,其特征在于,包括以下步骤:S1)输入数据集X∈Rm×n,其中X表示m×n的数据矩阵,数据样本xi∈Rm,i∈{1,2,…n},m表示数据样本维度,n表示数据集X的样本个数;S2)针对数据集X构建邻接图G,利用Dijkstra算法创建测地距离矩阵D∈Rn×n,dij为其元素;S3)基于测地距离矩阵D∈Rn×n,针对各个样本点xi,i∈{1,2,…n}计算测地距离ηi以及各点的度deg(xi),具体如下所示:

【技术特征摘要】
1.一种基于测地线距离的异常点检测方法,其特征在于,包括以下步骤:S1)输入数据集X∈Rm×n,其中X表示m×n的数据矩阵,数据样本xi∈Rm,i∈{1,2,…n},m表示数据样本维度,n表示数据集X的样本个数;S2)针对数据集X构建邻接图G,利用Dijkstra算法创建测地距离矩阵D∈Rn×n,dij为其元素;S3)基于测地距离矩阵D∈Rn×n,针对各个样本点xi,i∈{1,2,…n}计算测地距离ηi以及各点的度deg(xi),具体如下所示:其中其中,xi表示所述数据X中第i个数据样本,deg(xi)用于统计与xi的邻居个数;如果数据集中第i个数据点x...

【专利技术属性】
技术研发人员:李孝杰史沧红罗超吴锡吕建成周激流
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1