一种基于偏离特征的离群点挖掘方法技术

技术编号:17007495 阅读:23 留言:0更新日期:2018-01-11 03:51
本发明专利技术公开了一种基于偏离特征的离群点挖掘方法,包括以下步骤:(1)将数据集的各个维度划分为h个等间距的间隔,则整个数据集被划分为h

【技术实现步骤摘要】
一种基于偏离特征的离群点挖掘方法
本专利技术涉及离群点挖掘领域,具体涉及一种基于偏离特征的离群点挖掘方法。
技术介绍
离群点挖掘是数据挖掘的一个重要的研究分支,有效的应用在日志分析、入侵检测、质量控制等现实生活领域,离群点挖掘包括离群点检测和离群点分析。离群点检测是运用适当的算法,检测出不同于大部分行为的异常行为,得到一些真实但又罕见的离群信息;离群点分析则是对检测出来的信息进行深入分析,得出知识或模式;它的任务是识别其数据特征显著不同于其他数据对象的观测值。离群点检测在数据挖掘中非常重要,因为如果异常是由固有数据的变异造成的,那么对它们进行分析可以发现蕴藏在其中更深层次的、潜在的、有价值的信息。因此,离群点检测是一个非常有意义的研究方向。数据挖掘专家将离群点定义为“离群点是数据集中与众不同的数据对象,其表现与其它数据对象非常不同,以至于使人怀疑这些数据对象并非随机的偏差,而是由另外一种完全不同的机制所产生的”。这个定义一定程度上揭示了离群的本质,被广泛引用。但这只是一个并不严格的描述型定义。事实上,长期以来学术界并没有一个统一的关于离群点的形式化定义。研究者们常常根据不同的应用环境给出离群点的形式化定义。多年来,研究者们已经针对不同类型的数据集提出了不同的数学方法用于检测不同情况下所存在的离群点。虽然离群点不服从数据的普遍分布规律,可能是由某种异常机制产生的,但是挖掘研究这些点却有着很高的实用价值,其中隐含的知识,有时甚至比正常数据更重要,而随意的忽略或丢弃这些点,则有可能会丢失很有价值的知识,对结果产生巨大的影响。总的来说,离群点检测技术主要分为基于统计的技术、基于距离的技术、基于密度的技术、基于聚类的技术。为了解决基于距离的离群点检测技术无法检测局部离群点的问题,人们提出了基于密度的离群点检测技术:LOF算法及其变体。该技术解决了局部离群程度的度量及其判断问题,能够检测出局部离群点,并且对于数据对象在不同密度的区域也能够很好的处理。其难点在于算法的参数选择比较困难。目前,基于密度的LOF检测算法已经广泛应用在离群点挖掘上,但是由于在处理海量数据信息时,LOF算法的时间复杂度很高,限制了其应用范围。本专利技术改进针对于LOF离群点检测算法时间复杂度较高的问题,从偏离特征的角度,提出了一种快速LOF检测算法,记为F_LOF。F_LOF检测算法不再基于整个数据集去计算各个数据点的局部离群因子(离群程度),而是通过将数据空间划分为网格,基于各个网格的质心来计算数据点的局部离群因子。此外,该算法还可以有效地用于实时离群值检测,每次向数据集添加新数据点时,可以利用现有数据点的网格结构,仅需要识别数据点所处在网格的位置,而不需要进一步的计算新数据点的局部离群因子。F_LOF检测算法在实现和传统检测算法相近的检测精度时,明显减少了计算时间,提高了效率,最终得到理想的检测效果。
技术实现思路
本专利技术的目的是为了解决LOF检测算法时间复杂度较高的问题,从偏离特征的角度,提出了一种改进的快速LOF检测算法的一种基于偏离特征的离群点挖掘方法。本专利技术为了实现上述目的,采用以下技术方案实现:一种基于偏离特征的离群点挖掘方法,包括以下步骤:(1)将数据集D的各个维度划分为h个等间距的间隔,则整个数据集被划分为hd个网格;(2)将每个数据点xi∈D与网格索引j={1,...,hd}做一个关联,如果一个网格中不包含数据点,则不考虑该网格;(3)对于划分形成的空间中的各个网格j,求出网格的质心Cj,并计算质心Cj的局部离群因子Lofk(Cj);(4)计算每个数据对象的局部离群因子值,数据集中对象的局部离群因子等于所属网格质心的离群因子。所述步骤(3)中的网格的质心Cj和质心Cj的局部离群因子Lofk(Cj)计算过程如下:(3.1)计算质心Cj的第k距离k_dist(Cj);对于数据空间中的两个对象Cj和o,以欧式距离为度量,对给定的正整数k,将Cj的第k距离概括为Cj与o之间的距离,记为k_dist(Cj),其中对象o满足如下条件为:至少存在k个对象o'∈D\{Cj}满足d(Cj,o')≤d(Cj,o);至少存在k-1个对象o'∈D\{Cj}满足d(Cj,o')<d(Cj,o);(3.2)计算质心Cj的第k距离领域Nk(Cj);通常将数据空间中与质心Cj的距离小于或者等于k_dist(Cj)的质心对象集合定义为Nk(Cj),用公式表示为:Nk(Cj)={o|d(Cj,o)≤k_dist(Cj)};(3.3)计算质心Cj与其Nk(Cj)中数据点的可达距离;质心Cj相对于其他质心o的可达距离是指Cj的第k距离和Cj与o之间距离的较大值,用如下公式表示为:reach_distk(Cj,o)=max{k_dist(o),d(Cj,o)};其中,o∈Nk(Cj);(3.4)计算质心Cj的局部可达密度lrdk(Cj);lrdk(Cj)是将质心Cj与其第k距离领域Nk(Cj)中所有对象的平均可达距离求倒,计算公式为:(3.5)通过以上得出的结果,求出质心Cj的局部离群因子Lofk(Cj),公式为:所述步骤(4)中计算每个数据对象的局部离群因子值,如果数据集D中的对象xi属于网格j,则该对象的局部离群因子表示为:LofG_k(xi)=Lofk(Cj)。本专利技术的有益效果在于:本专利技术一种基于偏离特征的离群点挖掘方法,在检测数据集中的离群点时,为了降低计算时间,提高检测效率,F_LOF检测算法不再基于整个数据集来计算各个数据点的局部离群因子,而是将数据空间划分为网格,基于网格的质心来计算数据点的局部离群因子。由于网格的数量少于数据点的数量,在可接受的误差下,明显降低了时间复杂度。此外,该算法还可以有效地用于实时离群值检测,每次向数据集添加新数据点时,可以利用现有数据点的网格结构,仅需要识别数据点的网格位置,而不需要进一步的计算新数据点的Lof值。附图说明图1为本专利技术的挖掘过程图;图2为本专利技术的流程框图;图3为本专利技术的F_LOF检测算法在UCI数据库中四个数据集上的计算时间对比图;图4为本专利技术的F_LOF检测算法和LOF算法在数据集上的局部离群因子差异对比图;图5为本专利技术的F_LOF检测算法在UCI数据库中四个数据集上的检测精确度对比图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照例图,对本专利技术进一步详细说明。目前,无论国内还是国外,都在对离群点挖掘方法进行积极的研究,学者们提出了多种模型方法和相应的算法,它们针对不同的离群点类型和具体的实际问题,各有特点。本专利技术在前人研究的基础上,针对于LOF离群点检测算法时间复杂度较高的问题,从偏离特征的角度,同时结合了经典算法中的优点和创新,提出了一种改进的快速LOF检测算法。结合图1为本专利技术的挖掘过程图;挖掘过程从获得离群点的定义到数据预处理然后是执行离群点检测方法,从检测方法中得到评估和解释,最后获得知识的过程。结合图2所示,本专利技术的流程框图;F_LOF检测算法将整个数据空间划分为一定数量的网格,计算每个网格质心的Lof值,而非整个数据集中数据对象的Lof值局部离群因子。对于数据集中的各个数据对象,其Lof值与所属网格的质心的Lof值相等。对于由n个d维数据对象组成的数本文档来自技高网
...
一种基于偏离特征的离群点挖掘方法

【技术保护点】
一种基于偏离特征的离群点挖掘方法,其特征在于,包括以下步骤:(1)将数据集D的各个维度划分为h个等间距的间隔,则整个数据集被划分为h

【技术特征摘要】
1.一种基于偏离特征的离群点挖掘方法,其特征在于,包括以下步骤:(1)将数据集D的各个维度划分为h个等间距的间隔,则整个数据集被划分为hd个网格;(2)将每个数据点xi∈D与网格索引j={1,...,hd}做一个关联,如果一个网格中不包含数据点,则不考虑该网格;(3)对于划分形成的空间中的各个网格j,求出网格的质心Cj,并计算质心Cj的局部离群因子Lofk(Cj);(4)计算每个数据对象的局部离群因子值,数据集中对象的局部离群因子等于所属网格质心的离群因子。2.根据权利要求1所述的一种基于偏离特征的离群点挖掘方法,其特征在于,所述步骤(3)中的网格的质心Cj和质心Cj的局部离群因子Lofk(Cj)计算过程如下:(3.1)计算质心Cj的第k距离k_dist(Cj);对于数据空间中的两个对象Cj和o,以欧式距离为度量,对给定的正整数k,将Cj的第k距离概括为Cj与o之间的距离,记为k_dist(Cj),其中对象o满足如下条件为:至少存在k个对象o'∈D\{Cj}满足d(Cj,o')≤d(Cj,o);至少存在k-1个对象o'∈D\{Cj}满足d(Cj,o')<d(Cj,o);(3.2)计算质心Cj的第k距离领域Nk(Cj);通常将数据空间中与质心Cj的距离小于或者等于k_dist(Cj)的质心对象集合定义为...

【专利技术属性】
技术研发人员:王红滨冯梦园何鸣王念滨尹新亮顾正浩苏畅童鹏鹏曾庆宇张海彬
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1