一种基于随机采样的DBSCAN参数自动生成方法技术

技术编号:33288738 阅读:26 留言:0更新日期:2022-05-01 00:02
本发明专利技术提出一种基于采样的DBSCAN算法参数自动生成方法,对于任意一个需要进行DBSCAN聚类的数据集,该方案均能给出合理的聚类参数。因为DBSCAN对输入参数敏感,所以该方案解决了在缺乏相关领域知识下参数设定的难题。该方案包括按密度进行采样和迭代验证两部分。本发明专利技术通过对原始数据按密度进行采样,从中生成候选参数并且利用采样数据对候选参数进行验证,解决了原始数据很大时对时间和空间消耗过大的问题。同时利用聚类效果评判标准对聚类结果的优劣做了量化,确保了聚类参数的效果。上述方法保证在较短时间内给出任意数据集的合理聚类参数,解决了DBSCAN参数难以确定的问题,增强了DBSCAN算法的实用性。增强了DBSCAN算法的实用性。增强了DBSCAN算法的实用性。

【技术实现步骤摘要】
一种基于随机采样的DBSCAN参数自动生成方法


[0001]本专利技术属计算机采样
,尤其涉及一种基于随机采样的DBSCAN参数自动生成方法。

技术介绍

[0002]DBSCAN算法是最为经典与常用的密度聚类算法,利用该算法可以在大量数据中有效地发现任意形状的聚类并且过滤掉孤立的数据点。但是该算法对参数邻域半径 Eps和密度阈值Minpts非常敏感,如果参数设置的不合理,那么聚类效果一落千丈。所以该算法在实际应用中面临的最大难题是如何在缺乏领域相关知识的情况下,选择合理有效的参数。
[0003]自DBSCAN算法提出以来,其参数选择问题就备受关注。北京大学学报(自然科学版2004(03):480

486)
ꢀ“
屏蔽了输入参数敏感性的DBSCAN改进算法”(作者:蔡颖琨,谢昆青,马修军)提出通过记录类间的连接信息,有效屏蔽了输入参数的敏感性,但是为了取得较好的聚类效果仍然需要人为确定哪些类别可以进行合并。西安理工大学学报(2012,28(03):289

292)“DBSCAN本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于采样的DBSCAN算法参数自动生成方法,其特征在于,所述方法包括将原始数据集按密度进行采样和对候选参数进行迭代验证的两个处理过程,其中采样包括以下步骤:步骤1,选择多个初始点;步骤2,寻找每个初始点的k个最近邻点,k≥2,每个初始点及其k个最近邻一起构成一个小组;步骤3,使用方差或标准差法计算每个初始点和它的最近邻点的密度;步骤4,去除密度较小的小组,剩余小组作为最终采样结果;针对最终采样结果执行迭代验证,其包括以下步骤:步骤5,根据第一次采样生成k

1组候选参数,并判断是否存在第二次采样;如果存在第二次采样,使用第二次采样结果作为验证数据集;如果没有第二次采样,则第一次采样的数据集作为验证数据集;步骤6,第一次聚类时,i赋值为1,取第i组候选参数,利用该参数对验证数据执行聚类;其中i=2,3,

,k

1;步骤7,使...

【专利技术属性】
技术研发人员:欧阳志宏薛磊丁锋毛毅张顺健李达
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1