一种面向行为识别的密度适应性聚类方法技术

技术编号:15059185 阅读:128 留言:0更新日期:2017-04-06 08:57
本发明专利技术公开了一种面向行为识别的密度适应性聚类方法,涉及聚类分析技术领域,包括按照由高到低的次序,从最高密度阈值到最低密度阈值以此对给定数据集进行聚类分析。上一次的聚类过程产生的结果可以直接作为下一次的聚类过程的输入,并在当前密度阈值下对上一次的聚类结果进行必要的修正,从而实现了对不同密度数据簇的聚类。由于基本聚类算子采用基于密度的聚类方法,其聚类过程为典型的迭代扩展过程,因此可以克服基于距离算法只能发现类圆形的聚类簇的缺点,因此该方法对噪音数据不敏感,可自动排除噪音数据对聚类过程的影响,并且能发现任意形状的簇。

【技术实现步骤摘要】

本专利技术涉及数据识别
,尤其涉及一种面向行为识别的密度适应性聚类方法
技术介绍
基于密度的聚类方法是基于聚类方法的一个重要分支,其主要通过度量区域中所包含的点的数量来进行聚类。经典的基于密度的聚类方法主要有DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)和OPSTICS(OrderingPointstoIdentifytheClusteringStructure)。传统的基于密度的算法的主要优点有以下三个方面。1.对噪音数据不敏感,可自动排除噪音数据对聚类过程的影响。2.能发现任意形状的簇。由于其聚类过程为典型的迭代扩展过程,因此可以克服基于距离算法只能发现类圆形的聚类簇的缺点。3.能发现任意数量的聚类簇,事先不需要知道聚类簇的个数。较为优良的聚类性能使其在科学研究及工程实践中均具有重要的应用意义。传统的基于密度的聚类算法使用全局唯一的密度参数(ε,MinPts),因此当数据分布不均匀,即聚类簇间密度差异较大便可能出现一下两种状况:1.当密度参数设置的过低时可能会导致离的较近的多个簇被合并成一个簇。2.当密度参数设置的过高时,密度较低的簇则会被视为噪音数据。其上述不足限制了其应用范围。
技术实现思路
针对上述缺陷或不足,本专利技术提供一种面向行为识别的密度适应性聚类方法,能够通过输入最的最高密度阈值、最低密度阈值和密度层次数产生多个密度阈值,并在多个密度阈值上使用修正过的DBSCAN算法对数据进行多次聚类。为达到以上目的,本专利技术的技术方案为:包括以下步骤:1)设定密度层次及最高、最低密度阈值,并根据所设定的密度层次及最高、最低密度阈值计算各个层次上的密度阈值;2)将密度阈值从高到低进行排列,选取密度阈值中最高密度阈值对数据进行第一次聚类,产生聚类族;3)将剩余密度阈值重新从高到底进行排列,选取密度阈值中最高密度阈值对数据进行第i次聚类,产生聚类族;其中,第i次聚类过程产生的聚类簇,在后续聚类过程中只能被扩展而不能被分割或者合并到其他簇;满足当前密度阈值的新簇应该被优先提取以避免与被已存在的簇合并;4)重复步骤3),直到根据所有的密度阈值将数据聚类完成,将所聚类的数据进行行为识别。所述步骤1)具体为:设定密度层次DensityLevel、最低密度阈值(Epsl,MinPtsl),最高密度阈值(Epsh,MinPtsh),根据所设定的密度层次DensityLevel,设定聚类的多个密度阈值(Epsi,MinPtsi),i=1,2,......,其中:Epsi=Epsh-(i-1)*Epsh-EpslDensityLevelMinPtsi=MinPtsh-(i-1)*MinPtsh-MinPtslDensityLevel.]]>所述步骤3)中,进行第i次聚类,对定点p的领域数据Neighbors进行划分:1)如果定点p已经在前聚类过程中被赋予类标号p.cid则其邻居应包含:a)所有和类标号为p.cid的数据点;b)所有没有类标号但满足:dist(p,q)<Epsi的数据点;其中,q为没有类标号的任意数据点,dist(p,q)为数据点p和q的点-点距。2)如果p并未在先前聚类过程中被赋予类标号则其邻居应包含:所有没有类标号但满足:dist(p,q)<Epsi的数据点。与现有技术比较,本专利技术的技术方案为:本专利技术提供了一种面向行为识别的密度适应性聚类方法,按照由高到低的次序,从最高密度阈值到最低密度阈值以此对数据进行输入。上一次的聚类过程产生的结果可以直接作为下一次的聚类过程的输入,并在当前密度阈值下对上一次的聚类结果进行必要的修正,对聚类过程进行了两方面的约束,以确保:1.随着密度阈值的降低,先前聚类过程产生的较高密度的聚类簇不会被合并;2.满足当前密度阈值的簇(即应当当初出现的簇)被正确的发现,而不是合并到先前产生的密度较高的簇当中,因此,本专利技术本文的算法就是通过使用从高到底的多个密度阈值,迭代的对数据进行聚类,最终发现多个密度层次上的聚类簇,准确的应用于行为识别中,帮助解决实际问题。附图说明图1是本专利技术面向行为识别的密度适应性聚类方法的流程框图;图2是MDL-DBSCAN算法聚类过程示意图;其中,(a)待聚类数据点;(b)第一次聚类,使用最高密度阈值(ε1,MinPts1)=(15,8);(c)第二次聚类,使用密度阈值(ε2,MinPts2)=(10,14);(d)第三次聚类使用密度阈值(ε3,MinPts3)=(5,20);图3是使用原始DBSCAN聚类轨迹拐点图一;图4是使用原始DBSCAN聚类轨迹拐点图二;图5是使用MDL-DBSCAN算法聚类轨迹拐点,最低密度阈值(εl,MinPtsl)=(0.5e-3,4),最高密度阈值(εh,MinPtsh)=(0.2e-3,20),密度层次DensityLevel=3。具体实施方式下面结合附图对本专利技术做详细描述。如图1所示,本专利技术提供了一种面向行为识别的密度适应性聚类方法,包括以下步骤:1)设定密度层次及最高、最低密度阈值,并根据所设定的密度层次及最高、最低密度阈值计算各个层次上的密度阈值;所述步骤1)具体为:设定密度层次DensityLevel、最低密度阈值(εl,MinPtsl),最高密度阈值(εh,MinPtsh),根据所设定的密度层次DensityLevel,设定聚类的多个密度阈值(εi,MinPtsi),i=1,2,......,其中:Epsi=Epsh-(i-1)*Epsh-EpslDensityLevelMinPtsi=MinPtsh-(i-1)*MinPtsh-MinPtslDenistyLevel.]]>2)将密度阈值从高到低进行排列,选取密度阈值中最高密度阈值对数据进行第一次聚类,产生聚类族;3)将剩余密度阈值重新从高到低进行排列,选取密度阈值中最高密度阈值对数据进行第i次聚类,产生聚类族;其中,第i次聚类过程产生的聚类簇,在后续聚类过程中只能被扩展而不能被分割或者合并到其他聚类簇中;并且满足当前密度阈值的簇被优先提取出来;算法依次对数据在密度阈值(εi,MinPtsi),i=1,2,......,DensityLevel下聚类,第i次聚类的结果直接作为第i+1次聚类的输入。为了让在不同密度阈值上的聚类结果具有可继承性,MDL-DBSCAN对聚类过程有两个本文档来自技高网...

【技术保护点】
一种面向行为识别的密度适应性聚类方法,其特征在于,包括以下步骤:1)设定密度层次及最高、最低密度阈值,并根据所设定的密度层次及最高、最低密度阈值计算各个层次上的密度阈值;2)将密度阈值从高到低进行排列,选取密度阈值中最高密度阈值对数据进行第一次聚类,产生聚类族;3)将剩余密度阈值重新从高到底进行排列,选取密度阈值中最高密度阈值对数据进行第i次聚类,产生聚类族;其中,第i次聚类过程产生的聚类簇,在后续聚类过程中只能被扩展而不能被分割或者合并到其他簇;满足当前密度阈值的新簇应该被优先提取以避免与被已存在的簇合并;4)重复步骤3),直到根据所有的密度阈值将数据聚类完成,将所聚类的数据进行行为识别。

【技术特征摘要】
1.一种面向行为识别的密度适应性聚类方法,其特征在于,包括以下步
骤:
1)设定密度层次及最高、最低密度阈值,并根据所设定的密度层次及最
高、最低密度阈值计算各个层次上的密度阈值;
2)将密度阈值从高到低进行排列,选取密度阈值中最高密度阈值对数据
进行第一次聚类,产生聚类族;
3)将剩余密度阈值重新从高到底进行排列,选取密度阈值中最高密度阈
值对数据进行第i次聚类,产生聚类族;其中,第i次聚类过程产生的聚类
簇,在后续聚类过程中只能被扩展而不能被分割或者合并到其他簇;满足当
前密度阈值的新簇应该被优先提取以避免与被已存在的簇合并;
4)重复步骤3),直到根据所有的密度阈值将数据聚类完成,将所聚类
的数据进行行为识别。
2.根据权利要求1所述的面向行为识别的密度适应性聚类方法,其特征
在于,所述步骤1)具体为:
设定密度层次DensityLevel、最低密度阈值(Epsl,MinPtsl),最高密度
阈值(Epsh,MinP...

【专利技术属性】
技术研发人员:倪红波王天本周兴社张大庆王柱贾江波
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1