一种自适应尺度网格和扩散强度的密度峰值聚类方法技术

技术编号:39577006 阅读:15 留言:0更新日期:2023-12-03 19:28
本发明专利技术涉及数据集聚类技术领域,具体涉及一种自适应尺度网格和扩散强度的密度峰值聚类方法;将原数据点按照自适应尺度网格划分映射到网格空间中,并根据网格密度阈值划分将网格划分为稠密网格和稀疏网格,并将数据点映射到网格空间

【技术实现步骤摘要】
一种自适应尺度网格和扩散强度的密度峰值聚类方法


[0001]本专利技术涉及数据集聚类
,尤其涉及一种自适应尺度网格和扩散强度的密度峰值聚类方法


技术介绍

[0002]聚类分析是一种无监督的学习方法,其目的是按照特定的标准,将数据划分到不同的簇中,探索数据的隐含信息,作为一种数据分析方法,聚类分析被广泛的应用于数据分析,图像处理,生物信息学,模式识别,机器学习等领域;目前在数据集聚类过程中,采用密度峰值聚类算法,即
DPC
算法,但采用密度峰值聚类算法进行数据集聚类时,无法处理更高维度的数据聚类


技术实现思路

[0003]本专利技术的目的在于提供一种自适应尺度网格和扩散强度的密度峰值聚类方法,能够获得处理更高维度的数据聚类的效果

[0004]为实现上述目的,本专利技术采用的一种自适应尺度网格和扩散强度的密度峰值聚类方法,包括如下步骤:
[0005]步骤1,将原数据点按照自适应尺度网格划分映射到网格空间中,并根据网格密度阈值划分将网格划分为稠密网格和稀疏网格,并将数据点映射到网格空间
T
g
,计算每个网格密度,将网格单元视为后续聚类步骤中的聚类对象;
[0006]步骤2,根据密度波动划分网格并计算连通度;
[0007]步骤3,计算相对距离和扩散强度,筛选假定中心并划分初始簇;
[0008]步骤4,查找簇间边缘网格的密度峰值;
[0009]步骤5,多簇合并;
[0010]步骤6,将网格聚类结果映射到原数据集

[0011]其中,在步骤2,根据密度波动划分网格并计算连通度的步骤中:
[0012]将
ρ
g

θ
记为稀疏网络,反之则记为稠密网格,计算每个稠密网格的连通度
h
g
和全局连通分支数
ω

[0013]其中,在步骤3,计算相对距离和扩散强度,筛选假定中心并划分初始簇的步骤中:
[0014]采用
d
维空间中的切比雪夫距离来计算网格
ob
i
的相对距离
δ
i
,其中
ob
ip
是该网格的
p
维坐标:
[0015][0016][0017]计算每个网格的中心度后将其降序排列并开始遍历查找,若在网格
i
周围
δ
i
的半径范围内,
γ
i

γ
j
(j≠i)
,该网格即为假定中心;非中心网格再根据最近邻且
γ
值最高的网格划分到该中心代表的簇中,执行该步骤直到剩余网格全部划分完毕

[0018]其中,在步骤4,查找簇间边缘网格的密度峰值的步骤中,按照以下条件,查找各簇之间的边缘网格:
[0019]找出簇
c
中网格
i
,在其
δ
i
范围内存在属于其他簇
c

的网格
j

[0020]i
是簇
c
中离
j
网格最近的网格;
[0021]一对簇
c

c

之间的边缘网格密度峰值记为
ρ
cc


[0022]其中,在步骤5,多簇合并的步骤中:
[0023]通过簇间边缘网格的密度峰值来判断是否需要合并该簇,若簇间的边缘网格密度峰值越高则说明两簇的相似度越高;若该网格所在簇
c
的密度峰值在一定密度波动范围,则认为该簇应该被合并邻近的簇
c

中,即满足以下公式:
[0024][0025]对所有簇的
ρ
cc

从高到低进行这项置信度判断,标记非聚类簇,并将其归并到距离最近的聚类
c



[0026]其中,在步骤6,将网格聚类结果映射到原数据集的步骤中:
[0027]将数据点对应的网格单元标记为该网格所属的簇类,建立数据与网格空间的查找表,将
T
g
中的簇类记录到数据集聚类结果表中

[0028]本专利技术的一种自适应尺度网格和扩散强度的密度峰值聚类方法,将原数据点按照自适应尺度网格划分映射到网格空间中,并根据网格密度阈值划分将网格划分为稠密网格和稀疏网格,并将数据点映射到网格空间
T
g
,计算每个网格密度,将网格单元视为后续聚类步骤中的聚类对象;根据密度波动划分网格并计算连通度;计算相对距离和扩散强度,筛选假定中心并划分初始簇;查找簇间边缘网格的密度峰值;多簇合并;将网格聚类结果映射到原数据集;通过利用自适应尺度网格划分将数据集映射到网格空间;定义自适应划分尺度和密度波动公式,用单个网格单元密度代替所含数据点的局部密度;定义扩散强度计算网格中心度;设计中心网格筛选方案和分配策略得到聚类结果;相较于原
DPC
算法,本方法依据网格划分优势和新的簇分配策略可以处理更高维度的数据聚类,无需再预设截断距离等参数;降低时间复杂度,提升聚类速度;同时解决原欧式距离存在的高维失效问题

附图说明
[0029]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0030]图1是本专利技术的自适应尺度网格和扩散强度的密度峰值聚类方法的步骤流程图

具体实施方式
[0031]请参阅图1,本专利技术提供了一种自适应尺度网格和扩散强度的密度峰值聚类方法,包括如下步骤:
[0032]步骤1:将原数据点按照自适应尺度网格划分映射到网格空间中,并根据网格密度阈值划分将网格划分为稠密网格和稀疏网格,并将数据点映射到网格空间
T
g
,计算每个网格密度,将网格单元视为后续聚类步骤中的聚类对象;
[0033]步骤2:根据密度波动划分网格并计算连通度;
[0034]步骤3:计算相对距离和扩散强度,筛选假定中心并划分初始簇;
[0035]步骤4:查找簇间边缘网格的密度峰值;
[0036]步骤5:多簇合并;
[0037]步骤6:将网格聚类结果映射到原数据集

[0038]在本实施方式中,将原数据点按照自适应尺度网格划分映射到网格空间中,并根据网格密度阈值划分将网格划分为稠密网格和稀疏网格,并将数据点映射到网格空间
T
g
,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种自适应尺度网格和扩散强度的密度峰值聚类方法,其特征在于,包括如下步骤:步骤1,将原数据点按照自适应尺度网格划分映射到网格空间中,并根据网格密度阈值划分将网格划分为稠密网格和稀疏网格,并将数据点映射到网格空间
T
g
,计算每个网格密度,将网格单元视为后续聚类步骤中的聚类对象;步骤2,根据密度波动划分网格并计算连通度;步骤3,计算相对距离和扩散强度,筛选假定中心并划分初始簇;步骤4,查找簇间边缘网格的密度峰值;步骤5,多簇合并;步骤6,将网格聚类结果映射到原数据集
。2.
如权利要求1所述的自适应尺度网格和扩散强度的密度峰值聚类方法,其特征在于,在步骤2,根据密度波动划分网格并计算连通度的步骤中:将
ρ
g

θ
记为稀疏网络,反之则记为稠密网格,计算每个稠密网格的连通度
h
g
和全局连通分支数
ω
。3.
如权利要求1所述的自适应尺度网格和扩散强度的密度峰值聚类方法,其特征在于,在步骤3,计算相对距离和扩散强度,筛选假定中心并划分初始簇的步骤中:采用
d
维空间中的切比雪夫距离来计算网格
ob
i
的相对距离
δ
i
,其中
ob
ip
是该网格的
p
维坐标:坐标:计算每个网格的中心度后将其降序排列并开始遍历查找,若在网格
i
周围
δ
i
的半径范围内,
γ
i

γ
j
(j≠i)
,该网格即为假定中心;非中心网格再根据最近邻且
γ
值最高...

【专利技术属性】
技术研发人员:王玥洋佘堃刘书舟于钥
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1