当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于模糊距离的不确定离群点检测方法技术

技术编号:13059614 阅读:61 留言:0更新日期:2016-03-23 23:57
本发明专利技术公开了一种基于模糊距离的不确定离群点检测方法,包括:计算不确定数据集中,各数据点到其对应邻域中的每一数据点的模糊距离;对所述各数据点到其邻域中的每一数据点的模糊距离进行加权计算,得到各数据点的邻域平均距离;根据所述邻域平均距离计算得到各数据点的可达距离;根据所述可达距离计算各个数据点的离群度,并选择离群度大于预设阈值的数据点为离群点。本发明专利技术可以有效地从不确定数据集中发现隐藏在其中的离群数据,确定每个数据的离群度。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,尤其涉及一种基于模糊距离的不确定离群点检测 方法。
技术介绍
离群数据挖掘技术是目前数据挖掘领域的研究热点之一,目前已有的离群数据挖 掘主要基于距离或最近邻概念进行的确定离群挖掘,随着互联网和移动互联网的广泛普 及,大量的不确定数据在金融和经济分析、电子通信、现代物流等不同领域广泛应用,数据 本身的不确定性,难以准确判断数据是否异常,导致难以给出确切的离群数据。在不确定的 数据集,即使一个数据点本身并不像是一个离群点,但如果它的不确定程度非常高,这个数 据也很可能会被怀疑是异常的。因此基于不确定数据集的离群检测,需要确定每个数据的 不确定程度即离群度。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种基于模糊距离的不确定离群点检测方 法,可以有效地从不确定数据集中发现隐藏在其中的离群数据,确定每个数据的离群度,可 以广泛应用于金融和经济分析、电子通信、现代物流等领域。 为了解决上述技术问题,本专利技术提供了一种基于模糊距离的不确定离群点检测方 法,包括: 计算不确定数据集中,各数据点到其对应邻域中的每一数据点的模糊距离; 对所述各数据点到其邻域中的每一数据点的模糊距离进行加权计算,得到各数据 点的邻域平均距离; 根据所述邻域平均距离计算得到各数据点的可达距离; 根据所述可达距离计算各个数据点的离群度,并选择离群度大于预设阈值的数据 点为离群点。 进一步的,所述计算不确定数据集中,各数据点到其对应邻域中的每一数据点的 模糊距离,具体包括: 将不确定数据集形式化;其中,形式化后的不确定数据集为D= {Xi,X2,…,Xn},其 中,η表示不确定数据集D的大小,&表示数据集中的第i个元组,Xi之间相互独立,且Xi =〈r(\),p(\)〉,r(XJ表示数据记录,p(XJ表示数据记录的概率值; 根据所述不确定数据集建立可能世界实例,并计算所述可能世 界实例的概率均值;其中,对不确定数据集中的数据点〇建立的可能世界 实例为抒7(0) = 011euj,可能世界实例W(〇)的概率均值为|W(〇)I表示W(〇)中数据点的个数; , 根据建立的可能世界实例计算数据点和其邻域中的每一数据点的模糊距离;其 中,数据点0到其邻域中的数据点P的模糊距离为ud(P, 〇) =pNWd(〇,p),peN(O),式中, d(〇,p) =Io-pI为数据点〇、p之间的距离,Λ7_(ο)=丨/;IVpe妒(〇),且p乒〇}表示数据点 〇的邻域,PNW为数据点〇的邻域N(〇)的概率。 进一步的,所述对所述各数据点和其邻域中的每一对象的模糊距离进行加权计 算,得到各数据点的邻域平均距离,具体包括: 对所述各数据点和其邻域中的每一对象的模糊距离进行加权计算,得到各数据点的邻域平均距离,其中,数据点0的邻域平均距离为 式中, |Ν(ο) |表示Ν(ο)数据点的个数。 进一步的,所述根据所述邻域平均距离计算得到各数据点的可达距离,具体包 括: 根据所述邻域平均距离选取各数据点的最小邻域;其中,数据点0的最小邻域 Ν(〇)咖为Ν(ο)中满足条件ρΝ(0)彡Θ和Ravg(N(o))最小的邻域,Θ表示阈值; 根据所述最小邻域获取各数据点的核心邻域;其中,数据点〇的核心邻域是,式中,'表示最小邻域N(0)_的核心 距离,是在N(o)_中到数据点〇的最大距离; 根据所述核心邻域计算各数据点的可达距离;其中,数据点〇的可达距离为 进一步的,所述根据所述可达距离计算各个数据点的离群度,并选择离群度大于 预设阈值的数据点为离群点,具体包括: 根据所述可达距离计算各个数据点的离群度,其中,数据点0的离群度为 选择离群度大于预设阈值σ的数据点为离群点。实施本专利技术,具有如下有益效果:本专利技术是一种基于模糊距离的不确定离群点检 测方法,可以有效地从不确定数据集中发现隐藏在其中的离群数据,确定每个数据的离群 度,可以广泛应用于金融和经济分析、电子通信、现代物流等领域。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。图1是本专利技术提供的基于模糊距离的不确定离群点检测方法的一个实施例的流 程不意图。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。图1是本专利技术提供的基于模糊距离的不确定离群点检测方法的一个实施例的流 程示意图,如图1所示,包括: S101、计算不确定数据集中,各数据点到其对应邻域中的每一数据点的模糊距离。 具体的,步骤S101包括步骤: sum、将不确定数据集形式化。 其中,形式化后的不确定数据集为D= {Xi,X2,…,XJ,其中,η表示不确定数据集 D的大小,&表示数据集中的第i个元组,Xi之间相互独立,且Xi由两部分组成,即X1 = 〈r(\),p(XJ〉,r(XJ表示数据记录,p(XJ表示数据记录的概率值(或可信度)。S1012、根据所述不确定数据集建立可能世界实例,并计算所述可能世界实例的概 率均值。 其中,对不确定数据集中的数据点。建立的可能世界实例为铲(Θ) = {w|爾[εW丨'可 能世界实例W(0)的概率均值)I表示W(0)中数据点的个数。S1013、根据建立的可能世界实例计算数据点和其邻域中的每一数据点的模糊距 离。 其中,数据点〇到其邻域中的数据点p的模糊距离为ud(p, 〇) =pNW (1(〇,口),?£~(〇),式中,(1(〇,口)= |〇-口|为数据点〇、?之间的距离,況(0)=丨]?|冲€,(0),且 p辛〇}表示数据点〇的邻域,ρΝω为数据点〇的邻域N(o)的概率。S102、对所述各数据点到其邻域中的每一数据点的模糊距离进行加权计算,得到 各数据点的邻域平均距离。 具体的,步骤S102具体包括当前第1页1 2 本文档来自技高网...

【技术保护点】
一种基于模糊距离的不确定离群点检测方法,其特征在于,包括:计算不确定数据集中,各数据点到其对应邻域中的每一数据点的模糊距离;对所述各数据点到其邻域中的每一数据点的模糊距离进行加权计算,得到各数据点的邻域平均距离;根据所述邻域平均距离计算得到各数据点的可达距离;根据所述可达距离计算各个数据点的离群度,并选择离群度大于预设阈值的数据点为离群点。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘文婷
申请(专利权)人:河海大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1