基于余弦相似度和树的动态标签传播的密度峰值聚类方法技术

技术编号:40544444 阅读:26 留言:0更新日期:2024-03-05 19:01
本发明专利技术涉及数据分类技术领域,具体涉及基于余弦相似度和树的动态标签传播的密度峰值聚类方法,该方法包括:根据余弦相似度方法和KNN方法,确定每一个数据点的局部密度;根据计算的局部密度和数据点之间的距离,确定每一个数据点的中心偏移距离;根据中心偏移距离和局部密度,确定聚类中心和离群点;根据聚类中心,对数据点进行标签分配,构建初始结构树;利用初始结构树和离群点,对数据点进行标签辐射,得到最终的聚类标签,最终形成多个聚类。本发明专利技术在数据信息处理方面可以通过聚类的方式发现数据之间的相似性和相异性,通过分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系,并提高了数据聚类效果。

【技术实现步骤摘要】

本专利技术涉及数据分类,具体涉及基于余弦相似度和树的动态标签传播的密度峰值聚类方法


技术介绍

1、随着大数据时代的来临,传统的数据处理和分析方法往往难以有效的处理大规模、高纬度、多样化的数据。在这样的背景下,聚类技术成为了处理和分析大数据的重要工具。

2、传统的聚类算法可以大致分为五类,包括分区聚类算法、层次聚类算法、网格聚类算法、模型聚类算法和密度聚类算法。k-means(k-means clustering algorithm,k均值聚类算法)是一种经典的分区聚类算法,它的聚类结果严重依赖初始聚类中心或者初始划分,往往无法找到任意形状的聚类,并且容易受到噪声或离群值的影响。分层聚类算法可以获得不同粒度的分层聚类结构,具有层次性、可视化、灵活性等优点,但同时也存在计算复杂度高、难以处理大规模数据等缺点。网格聚类算法是一种基于网格划分的聚类方法,它具有简单高效、易于实现和对噪声具有鲁棒性等优点。然而,它在网格大小选择、处理非凸簇结构和对数据分布的假设等方面存在一定的缺点。在应用网格聚类算法时,需要根据具体的数据特点和聚类需求进行评估,并结合其本文档来自技高网...

【技术保护点】

1.一种基于余弦相似度和树的动态标签传播的密度峰值聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于余弦相似度和树的动态标签传播的密度峰值聚类方法,其特征在于,所述根据余弦相似度方法和KNN方法,确定每一个数据点的局部密度,包括:

3.根据权利要求1所述的一种基于余弦相似度和树的动态标签传播的密度峰值聚类方法,其特征在于,所述根据计算的局部密度和数据点之间的距离,确定每一个数据点的中心偏移距离,包括:

4.根据权利要求1所述的一种基于余弦相似度和树的动态标签传播的密度峰值聚类方法,其特征在于,所述根据中心偏移距离和局部密度,确定聚类...

【技术特征摘要】

1.一种基于余弦相似度和树的动态标签传播的密度峰值聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于余弦相似度和树的动态标签传播的密度峰值聚类方法,其特征在于,所述根据余弦相似度方法和knn方法,确定每一个数据点的局部密度,包括:

3.根据权利要求1所述的一种基于余弦相似度和树的动态标签传播的密度峰值聚类方法,其特征在于,所述根据计算的局部密度和数据点之间的距离,确定每一个数据点的中心偏移距离,包括:

4.根据权利要求1所...

【专利技术属性】
技术研发人员:万洪浩李云峰杜勇宏黄方鸿金凯文
申请(专利权)人:西北核技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1