一种面向超大规模数据的球粒聚类方法技术

技术编号：41727704 阅读：36 留言：0更新日期：2024-06-19 12:50

一种面向超大规模数据的球粒聚类方法，用于提升大规模数据处理速度，包括如下步骤：对原始数据集进行预处理，将非规范化数据转换为数值型数据；对预处理后的数据通过多次抽样和球粒算法进行初步数据分布获取，识别出代表球及其球心，并据此得到数据的整体分布；再次利用球粒算法对识别出的所有代表球进行精细化处理以识别关键球，根据所述关键球构建数据的森林并分配标签；计算未标记数据点与已标记关键球的球心之间的最小欧式距离，进行全局标签的分配。本发明专利技术显著提升数据处理速度，不仅有助于推动大数据技术的发展，同时也可作为图像处理等其他领域预处理步骤的有效工具。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习和数据挖掘领域，特别是指一种面向超大规模数据的球粒聚类方法。

技术介绍

1、近年来，随着数据量的爆炸性增长，如何从中有效地提取有用信息成为了数据科学和机器学习领域的一个核心挑战。特别是在多领域，如生物信息学、金融分析、社交网络数据处理以及物联网设备数据分析等，面对超大规模数据的处理需求日益增长。在这些应用场景中，聚类算法作为一种无监督学习的方法，它能够将数据集中的样本分成若干个具有相似特征的组或“簇”，因此成为了一种重要的数据分析手段。

2、然而，随着数据规模的持续扩大，现有的聚类算法，如k-means,dbscan等在处理超大规模数据时面临着计算效率低下和内存消耗大的问题。目前，许多研究工作致力于优化和改进现有的聚类算法，以提高其在超大规模数据集上的处理能力。这些改进措施包括但不限于采用近似计算技术减少计算量、利用并行计算框架提高算法效率、引入数据降维技术减少内存使用等。

3、尽管如此，如何在保持算法聚类性能的同时，进一步提升处理超大规模数据的效率和可扩展性，依然是一个亟待解决的难题。因此...

【技术保护点】

1.一种面向超大规模数据的球粒聚类方法，用于提升大规模数据处理速度，其特征在于，包括如下步骤：

2.如权利要求1所述的一种面向超大规模数据的球粒聚类方法，其特征在于，采用映射方法将所述原始数据集的数据转换为数值型数据。

3.如权利要求1所述的一种面向超大规模数据的球粒聚类方法，其特征在于，所述初步数据分布获取具体包括：

4.如权利要求1所述的一种面向超大规模数据的球粒聚类方法，其特征在于，再次利用球粒算法对识别出的所有代表球进行精细化处理，且不限制粒球数量，生成的粒球称为关键球。

5.如权利要求1所述的一种面向超大规模数据的球粒聚类方法，其...

【技术特征摘要】

1.一种面向超大规模数据的球粒聚类方法，用于提升大规模数据处理速度，其特征在于，包括如下步骤：

2.如权利要求1所述的一种面向超大规模数据的球粒聚类方法，其特征在于，采用映射方法将所述原始数据集的数据转换为数值型数据。

3.如权利要求1所述的一种面向超大规模数据的球粒聚类方法，其特征在于，所述初步数据分布获取具体包括：

4.如权利要求1所述的一种面向超大规模数据的球粒聚类方法，其特征在于，再次利用球粒算法对识别出的所有代表球进行精细化处理，且不限制粒球数量，生成的粒球...

【专利技术属性】
技术研发人员：陈叶旺，赖清宏，夏书银，
申请(专利权)人：华侨大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人