一种多GPU分布式并行的K-Means聚类方法技术

技术编号：35075877 阅读：18 留言：0更新日期：2022-09-28 11:41

本发明专利技术公开了一种多GPU分布式并行的K

全部详细技术资料下载

【技术实现步骤摘要】
一种多GPU分布式并行的K
‑
Means聚类方法

[0001]本专利技术涉及数据挖掘
，特别涉及一种基于Ring
‑
Allreduce框架的多GPU分布式并行的K
‑
Means聚类方法。

技术介绍

[0002]K
‑
Means聚类算法是在数据挖掘等领域中最常用的聚类算法之一，该算法适合处理样本数量比较多的数据集。而使用并行计算的方法是较为常用的提高机器学习方法效率的方法，其主要原理是给运算方式相同并且相互独立的数据运算分配不同的运算资源，从而更好地提高处理器性能，提高算法效率。而并行计算的优化效率与计算处理的硬件性能以及并行策略相关，并行策略即是给予数据运算分配多少线程、块、网格等GPU资源策略，而多GPU的并行策略是能够处理更大数据量的并行计算方法。
[0003]目前应用于K
‑
Means聚类算法的多GPU策略通常使用数据并行的传统策略，数据并行的分布式策略将聚类数据集划分为多个子集，然后将其分布到不同的GPU，每个GPU都单独运行K
‑
Means聚类算法。K
‑
Means聚类算法使用的数据并行策略能够有一定的计算效率优化，但是在工业软件等应用大型数据量的计算中，数据并行策略不一定能实现最优计算效率，会存在以下几个方面的问题：(1)随着GPU数量增加，计算成本增加。(2)随着计算数据量增大，计算成本增大。
[0004]江西理工大学廖列法等人提出基于Spark和ASPSO...

【技术保护点】

【技术特征摘要】
1.一种多GPU分布式并行的K
‑
Means聚类方法，其特征在于，包括以下步骤：S1：根据遥感图像的预想聚类数量划分，即设定簇数k，选定k个初始簇中心Q＝{Q1
…
Qk}，设定参与计算的k个GPU编号，即编号为GPU1到GPUk，把k个簇中心数据和整个数据集分别传递进k个数据集；其中存在的第i(1<＝i<＝k)块GPU，1<＝i<＝k，该GPU则会从CPU端传递获得数据集以及第i个编号的簇中心Qi，GPU把每个数据分配独立且不同线程或块并行运算资源；S2：第i块GPU的第i个线程的数据与GPU上的第i号的簇中心计算其距离Distance(Qi,i)；S3：GPU(i+1)计算簇中心Qi+1到第i+1线程数据的距离Distance(Qi+1,i+1)；S4：从GPUi传递Distance(Qi,i)至GPU(i+1)，与GPU(i+1)其中Distance(Qi+1,i+1)比较大小，较小...

【专利技术属性】
技术研发人员：王卓薇，林浩然，程良伦，
申请(专利权)人：广东能哥知识科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人