【技术实现步骤摘要】
一种基于随机采样的DBSCAN参数自动生成方法
[0001]本专利技术属计算机采样
,尤其涉及一种基于随机采样的DBSCAN参数自动生成方法。
技术介绍
[0002]DBSCAN算法是最为经典与常用的密度聚类算法,利用该算法可以在大量数据中有效地发现任意形状的聚类并且过滤掉孤立的数据点。但是该算法对参数邻域半径 Eps和密度阈值Minpts非常敏感,如果参数设置的不合理,那么聚类效果一落千丈。所以该算法在实际应用中面临的最大难题是如何在缺乏领域相关知识的情况下,选择合理有效的参数。
[0003]自DBSCAN算法提出以来,其参数选择问题就备受关注。北京大学学报(自然科学版2004(03):480
‑
486)
ꢀ“
屏蔽了输入参数敏感性的DBSCAN改进算法”(作者:蔡颖琨,谢昆青,马修军)提出通过记录类间的连接信息,有效屏蔽了输入参数的敏感性,但是为了取得较好的聚类效果仍然需要人为确定哪些类别可以进行合并。西安理工大学学报(2012,28(03):289
‑
2 ...
【技术保护点】
【技术特征摘要】
1.一种基于采样的DBSCAN算法参数自动生成方法,其特征在于,所述方法包括将原始数据集按密度进行采样和对候选参数进行迭代验证的两个处理过程,其中采样包括以下步骤:步骤1,选择多个初始点;步骤2,寻找每个初始点的k个最近邻点,k≥2,每个初始点及其k个最近邻一起构成一个小组;步骤3,使用方差或标准差法计算每个初始点和它的最近邻点的密度;步骤4,去除密度较小的小组,剩余小组作为最终采样结果;针对最终采样结果执行迭代验证,其包括以下步骤:步骤5,根据第一次采样生成k
‑
1组候选参数,并判断是否存在第二次采样;如果存在第二次采样,使用第二次采样结果作为验证数据集;如果没有第二次采样,则第一次采样的数据集作为验证数据集;步骤6,第一次聚类时,i赋值为1,取第i组候选参数,利用该参数对验证数据执行聚类;其中i=2,3,
…
,k
‑
1;步骤7,使...
【专利技术属性】
技术研发人员:欧阳志宏,薛磊,丁锋,毛毅,张顺健,李达,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。