一种对数据进行聚类的方法和装置制造方法及图纸

技术编号：21572501 阅读：22 留言：0更新日期：2019-07-10 15:39

本发明专利技术公开了一种对数据进行聚类的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：基于相似性划分，将待聚类的特征数据划分为多个特征子集，每一个特征子集中包括多个特征数据；将每一个特征子集划分为多个聚类簇；输出各个聚类簇内的特征数据。该实施方式能够解决对大量数据进行聚类时，所需计算资源非常多的问题。

A Method and Device for Clustering Data

全部详细技术资料下载

【技术实现步骤摘要】
一种对数据进行聚类的方法和装置
本专利技术涉及计算机
，尤其涉及一种对数据进行聚类的方法和装置。
技术介绍
随着互联网技术和数据存储技术的快速发展，各个机构组织积累了大量的数据。从海量的数据中提取潜在的、有价值的数据信息成为一项巨大的挑战。聚类分析是数据挖掘中的一种重要的方法。聚类分析能够将海量的杂乱无章的数据根据相似性归类至不同的聚类簇。在实现本专利技术构思的过程中，专利技术人发现现有技术中至少存在如下问题：当数据量越来越大时(比如超过10亿)，所需计算资源非常多。
技术实现思路
有鉴于此，本专利技术实施例提供一种对数据进行聚类的方法和装置，能够解决对大量数据进行聚类时，所需计算资源非常多的问题。为实现上述目的，根据本专利技术实施例的一个方面，提供了一种对数据进行聚类的方法，包括：基于相似性划分，将待聚类的特征数据划分为多个特征子集，每一个特征子集中包括多个特征数据；将每一个特征子集划分为多个聚类簇；输出各个聚类簇内的特征数据。可选地，将待聚类的特征数据划分为多个特征子集，包括：确定待聚类的特征数据的数量量级；根据所述数量量级，确定相似性划分的次数；通过至少一次的相似性划分，将待聚类的特征数据划分为多个特征子集。可选地，将待聚类的特征数据划分为多个特征子集，包括：随机抽取一定比例的特征数据作为样本，采用K-均值算法训练聚类模型，并确定聚类模型的多个虚拟中心点；计算所述各个虚拟中心点到某一特征数据的距离，与该特征数据距离最近的虚拟中心点的所属子集即为该特征的所属子集；逐个预测所有待聚类的特征数据的所属子集，从而将待聚类的特征数据划分为多个特征子集。可选地...

【技术保护点】
1.一种对数据进行聚类的方法，其特征在于，包括：基于相似性划分，将待聚类的特征数据划分为多个特征子集，每一个特征子集中包括多个特征数据；将每一个特征子集划分为多个聚类簇；输出各个聚类簇内的特征数据。

【技术特征摘要】
1.一种对数据进行聚类的方法，其特征在于，包括：基于相似性划分，将待聚类的特征数据划分为多个特征子集，每一个特征子集中包括多个特征数据；将每一个特征子集划分为多个聚类簇；输出各个聚类簇内的特征数据。2.根据权利要求1所述的方法，其特征在于，将待聚类的特征数据划分为多个特征子集，包括：确定待聚类的特征数据的数量量级；根据所述数量量级，确定相似性划分的次数；通过至少一次的相似性划分，将待聚类的特征数据划分为多个特征子集。3.根据权利要求1所述的方法，其特征在于，将待聚类的特征数据划分为多个特征子集，包括：随机抽取一定比例的特征数据作为样本，采用K-均值算法训练聚类模型，并确定聚类模型的多个虚拟中心点；计算所述各个虚拟中心点到某一特征数据的距离，与该特征数据距离最近的虚拟中心点的所属子集即为该特征的所属子集；逐个预测所有待聚类的特征数据的所属子集，从而将待聚类的特征数据划分为多个特征子集。4.根据权利要求1所述的方法，其特征在于，将每一个特征子集划分为多个聚类簇，包括：采用自适应阈值的密度聚类算法，将每一个特征子集划分为多个聚类簇。5.根据权利要求4所述的方法，其特征在于，采用自适应阈值的密度聚类算法，包括：在采用密度聚类算法进行聚类时，为每一个特征子集预先设定自适应系数a，0<a≤1，使得算法在为每一个特征子集执行聚类前，确定算法的两个条件：1)半径r＝DIS_MIN+a×(DIS_MAX-DIS_MIN)；2)半径范围内最少成员个数；其中，DIS_MIN是该特征子集内特征数据间的最小距离；DIS_MAX是该特征子集内特征数据间的最大距离。6.一种对数据进行聚类的装置，其特征在于，包括：划分模块，用于基于相似性划分，将待聚类的特征数据划分为多个特征子集，每一个特征子集中包括多个特征数据；聚类簇模块，用于将每一个...

【专利技术属性】
技术研发人员：汪振华，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人