基于局部敏感哈希的多GPU密度峰值聚类方法技术

技术编号：19593416 阅读：182 留言：0更新日期：2018-11-28 04:53

本发明专利技术属于数据挖掘领域，针对解决现有密度峰值聚类方法在解决大型和高维数据集聚类问题时计算复杂性太高、时间消耗太高的问题，提供一种基于局部敏感哈希的多GPU密度峰值聚类方法，包括四个过程：计算距离矩阵；计算局部密度；计算距离δ；计算聚类中心并指派类簇。核心思想是原始数据通过局部敏感哈希进行划分，并利用共享内存提高读写速度。这种方法充分利用局部敏感哈希将相似数据划分到相同GPU中，能够减少不必要的距离计算。而且设计多个哈希函数通过或运算对数据划分，减少相似数据被映射到不同GPU中，基于消息传递接口MPI实现多GPU统计方法，提高了参数计算速度。

全部详细技术资料下载

【技术实现步骤摘要】
基于局部敏感哈希的多GPU密度峰值聚类方法
本专利技术属于数据挖掘领域，特别是涉及一种基于局部敏感哈希的多GPU(GraphicProcessingUnit，图形处理器)密度峰值聚类方法。
技术介绍
聚类(clustering)是一种无监督分类技术，其目的是按照数据间相似性将未标记的数据集分成有限类别或集群，最终使得组内数据相似度大，而组间差异性大。由于聚类可以在数据集中找到隐藏的模式，因此已被广泛应用于机器学习、计算机视觉和生物信息学等众多科学研究中。目前主要有以下几种聚类方法：(1)K-means和K-medoids方法，将数据点的中心作为相应的聚类中心，只能发现球形簇的缺点，不适用于非球形聚类，聚类结果敏感到集群的数量，且对噪声不敏感；(2)分层聚类方法，根据接近矩阵将数据组织成层次结构，但这种方法的时间复杂度很高，需要提前指定簇的数量；(3)自组织映射(Self-organizingMaps,SOM)等基于模型的聚类方法，为每个集群设置一个模型，并找到模型的最佳拟合，但该模型不一定正确，且聚类结果对参数敏感。2014年Rodriguez和Laio在《Science》发表的论文“Clusteringbyfastsearchandfindofdensitypeaks,DPC(基于密度峰值的聚类方法),Science,2014,344(6191):1492-1496”提出了密度峰值(DensityPeak，DP)聚类方法，为聚类算法的设计提供了新的思路，他们提出了局部密度和相对距离这两个假设，因而DP能够快速有效地发现任意形状的簇，已经广泛应用于各种领域...

【技术保护点】
1.基于局部敏感哈希的多GPU密度峰值聚类方法，其特征在于，包括以下步骤：第一步，计算距离矩阵；第二步，计算局部密度；第三步，计算距离δ；第四步，计算聚类中心并指派类簇。

【技术特征摘要】
1.基于局部敏感哈希的多GPU密度峰值聚类方法，其特征在于，包括以下步骤：第一步，计算距离矩阵；第二步，计算局部密度；第三步，计算距离δ；第四步，计算聚类中心并指派类簇。2.如权利要求1所述的基于局部敏感哈希的多GPU密度峰值聚类方法，其特征在于，所述第一步计算距离矩阵，包括以下步骤：1.1使用CPU对数据点p进行编码，记p是d维数据，所有点的每一位数据中最大值为C，则用C位0/1编码来表示p的每一维，这样每个数据点就用C×d位0/1编码来表示；接下来在[0,C×d]中选取k个数，组成哈希函数簇，k、d均为自然数，每个哈希函数用公式(3)表示：hi(p)＝pi(3)对于选取的第i个数[i]，哈希函数的结果为数据点p的0/1编码的第[i]位的值；这样k个哈希函数的输出结果就组成了一个k维哈希值，再经过哈希映射对应到一个哈希桶中，i为自然数；1.2在CPU端使用多组哈希函数建立数据索引，将数据分配到每个GPU中，方法是：记一个哈希函数簇包含k个哈希函数，选取b组不同的k值，将一个数据点映射到b个k维哈希值，b≥2；对于数据点X、Y，若b个哈希值进行或运算后，有一对哈希值相同，则数据点X、Y就会被映射到同一个GPU；只有当所有哈希值都不同时，两个数据点才会被映射到不同的GPU；1.3CPU按照GPU数量启动多个线程，调用每个GPU针对局部数据计算距离矩阵，方法是：数据点X被预先读取到共享内存，线程块中的每个线程从共享内存读取一个数据，从全局内存相应的数据点，再计算距离；完成后，这些线程使用共享内存中的下一个数据点来计算距离矩阵的其他元素。3.如权利要求1所述的基于局部敏感哈希的多GPU密度峰值聚类方法，其特...

【专利技术属性】
技术研发人员：李东升，葛可适，苏华友，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人