一种基于随机采样的DBSCAN参数自动生成方法技术

技术编号:33288738 阅读:12 留言:0更新日期:2022-05-01 00:02
本发明专利技术提出一种基于采样的DBSCAN算法参数自动生成方法,对于任意一个需要进行DBSCAN聚类的数据集,该方案均能给出合理的聚类参数。因为DBSCAN对输入参数敏感,所以该方案解决了在缺乏相关领域知识下参数设定的难题。该方案包括按密度进行采样和迭代验证两部分。本发明专利技术通过对原始数据按密度进行采样,从中生成候选参数并且利用采样数据对候选参数进行验证,解决了原始数据很大时对时间和空间消耗过大的问题。同时利用聚类效果评判标准对聚类结果的优劣做了量化,确保了聚类参数的效果。上述方法保证在较短时间内给出任意数据集的合理聚类参数,解决了DBSCAN参数难以确定的问题,增强了DBSCAN算法的实用性。增强了DBSCAN算法的实用性。增强了DBSCAN算法的实用性。

【技术实现步骤摘要】
一种基于随机采样的DBSCAN参数自动生成方法


[0001]本专利技术属计算机采样
,尤其涉及一种基于随机采样的DBSCAN参数自动生成方法。

技术介绍

[0002]DBSCAN算法是最为经典与常用的密度聚类算法,利用该算法可以在大量数据中有效地发现任意形状的聚类并且过滤掉孤立的数据点。但是该算法对参数邻域半径 Eps和密度阈值Minpts非常敏感,如果参数设置的不合理,那么聚类效果一落千丈。所以该算法在实际应用中面临的最大难题是如何在缺乏领域相关知识的情况下,选择合理有效的参数。
[0003]自DBSCAN算法提出以来,其参数选择问题就备受关注。北京大学学报(自然科学版2004(03):480

486)
ꢀ“
屏蔽了输入参数敏感性的DBSCAN改进算法”(作者:蔡颖琨,谢昆青,马修军)提出通过记录类间的连接信息,有效屏蔽了输入参数的敏感性,但是为了取得较好的聚类效果仍然需要人为确定哪些类别可以进行合并。西安理工大学学报(2012,28(03):289

292)“DBSCAN算法中参数自适应确定方法的研究”(作者:周红芳,王鹏)中提出了通过计算数据集中所有样本间的距离分布矩阵来确定Eps和Minpts的方法,由于需要计算所有样本间的距离,因此当数据量增大时,该方法对时间和空间的消耗将非常巨大。中国科学院研究生院学报(2009,26(04):530

538)“一种自适应基于密度聚类算法”(作者:夏鲁宁,荆继武)提出了一种通过分析数据集的统计特性来自动确定Eps和Minpts的方法,该方法同样需要考虑所有数据,因此同样不适合处理大规模的数据。
[0004]另外,上述方法虽然在一定程度上解决了参数敏感的问题,但是并没有结合聚类效果评价标准验证所得参数的有效性。因此如何针对不同数据集给出合理有效的聚类参数仍是有待解决的问题。

技术实现思路

[0005]为解决上述技术问题,本专利技术提出了一种基于采样的DBSCAN算法参数自动生成方法,其特征在于,所述方法包括将原始数据集按密度进行采样和对候选参数进行迭代验证的两个处理过程,其中采样包括以下步骤:步骤1,选择多个初始点;步骤2,寻找每个初始点的k个最近邻点,k≥2,每个初始点及其k个最近邻一起构成一个小组;步骤3,使用方差或标准差法计算每个初始点和它的最近邻点的密度;步骤4,去除密度较小的小组,剩余小组作为最终采样结果;针对最终采样结果执行迭代验证,其包括以下步骤:步骤5,根据第一次采样生成k

1组候选参数,并判断是否存在第二次采样;如果存在第二次采样,使用第二次采样结果作为验证数据集;如果没有第二次采样,则第一次采样的数据集作为验证数据集;
步骤6,第一次聚类时,i赋值为1,取第i组候选参数,利用该参数对验证数据执行聚类;其中i=2,3,

,k

1;步骤7,使用评价指标评定聚类效果,聚类效果评价指标选择已有的或新提出的评价指标;步骤8,令i=i+1,判断是否i>k

1,如果否,返回步骤6;如果是,转入步骤9;步骤9,输出最优参数。
[0006]进一步的,步骤1包括:初始点的数量由原始数据量决定;原始数据量大,需要选取足够多的初始点。
[0007]进一步的,步骤3包括:每个初始点和它周围的k个近邻点构成同一个小组。
[0008]进一步的,步骤4还包括子步骤:步骤4.1,采样一组数据用于生成候选参数;步骤4.2,如果原始数据量大,则采样第二组数据用来验证候选参数的效果。
[0009]进一步的,步骤6包括:当Minpts取其中某值时,Eps取对应小组的初始点第i个近邻距离的最小值。
[0010]进一步的,步骤7中聚类评价指标包括:S_Dbw、DBCV。
[0011]采用本专利技术的方法,对原始数据集按密度进行采样的过程和对候选参数进行迭代验证的过程两部分。首先从原始数据集中选择部分数据用来生成候选参数,再对原始数据进行一次采样用来验证候选参数的效果。之后,将一系列候选参数应用到采样数据上,利用聚类评价指标验证每种参数的效果,并从中选择效果最好的参数。
附图说明
[0012]图1是本方案的整体架构;图2是采样部分的详细流程;图3是一个数据集和它的采样实例;图4是迭代验证部分的详细流程;图5是一个包含两个小组的采样实例。
具体实施方式
[0013]鉴于已有的参数生成方案均需要分析整体数据,当数据量增大后,对时间和空间的消耗将非常巨大,并且这些方案没有利用验证生成的参数效果等问题。本专利技术提出了一种基于采样并且结合聚类效果评价指标的DBSCAN参数生成方案,不仅可以帮助缺乏相关知识的人员合理地设置参数,而且在大数据集的情况下仍然可以使用,增强了DBSCAN算法的实用性。其具体的技术方案为:基于采样的DBSCAN算法参数自动生成方案,其中包括对原始数据集按密度进行采样的过程和对候选参数进行迭代验证的过程两部分。首先从原始数据集中选择部分数据用来生成候选参数,再对原始数据进行一次采样用来验证候选参数的效果(若原始数据的数据量较小,可以不进行第二次采样,直接应用原始数据集)。之后,将一系列候选参数应用到采样数据上,利用聚类评价指标验证每种参数的效果,并从中选择效果最好的参数。
[0014]在采样的过程中,采样得到的数据需满足某种要求:即如果某一参数对于采样数
据聚类效果好,那么该参数对于原始数据仍然具有较好的效果。之所以需要样本数据满足上述要求,是因为此时便可利用样本数据验证每组参数的效果,而不必使用全体数据,这能极大地降低时间和空间复杂度。其采样过程为:在原始数据集中随机选取数个初始点,不要太少,并确定每个点的k个最近邻,以此组成采样数据,便可满足上述要求。采样一组数据用于生成候选参数。如果原始数据量较大,则采样第二组数据用来验证候选参数的效果。
[0015]在对候选参数进行迭代验证的过程中,将根据采样数据生成一系列候选参数:密度阈值Minpts由2至k的整数数列,邻域半径Eps为相应的最近邻距离,并在另一组采样数据(或原始数据)上验证参数效果。并且对每一个参数利用聚类效果评价指标对该参数的优劣进行量化,最终选出最好的参数。其中聚类效果评价指标可以是任何已有的或将来提出的评价指标。
[0016]以下结合附图对本专利技术的具体实施方式作出详细说明。
[0017]参照图一,本专利技术主要分为两部分:采样部分和迭代验证部分。采样部分负责从原始数据集中抽取两份采样数据,其中一份用来生成候选参数,另一份用于验证候选参数的有效性。迭代验证部分负责利用候选参数对采样数据进行聚类,并给出每次聚类效果的评价,最终选出较好的参数。
[0018]图二给出了采样部分的整体流程,图三给出了一个原始数据集和它的采样实例,下面结合图三对图二的采样流程做详细介绍。图三中所有的点一起构成了目标数据集,可以清晰地看到该数据集包含两个密度较为稠密的区域,即具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于采样的DBSCAN算法参数自动生成方法,其特征在于,所述方法包括将原始数据集按密度进行采样和对候选参数进行迭代验证的两个处理过程,其中采样包括以下步骤:步骤1,选择多个初始点;步骤2,寻找每个初始点的k个最近邻点,k≥2,每个初始点及其k个最近邻一起构成一个小组;步骤3,使用方差或标准差法计算每个初始点和它的最近邻点的密度;步骤4,去除密度较小的小组,剩余小组作为最终采样结果;针对最终采样结果执行迭代验证,其包括以下步骤:步骤5,根据第一次采样生成k

1组候选参数,并判断是否存在第二次采样;如果存在第二次采样,使用第二次采样结果作为验证数据集;如果没有第二次采样,则第一次采样的数据集作为验证数据集;步骤6,第一次聚类时,i赋值为1,取第i组候选参数,利用该参数对验证数据执行聚类;其中i=2,3,

,k

1;步骤7,使...

【专利技术属性】
技术研发人员:欧阳志宏薛磊丁锋毛毅张顺健李达
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1