一种对数据进行聚类的方法和装置制造方法及图纸

技术编号:21572501 阅读:22 留言:0更新日期:2019-07-10 15:39
本发明专利技术公开了一种对数据进行聚类的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:基于相似性划分,将待聚类的特征数据划分为多个特征子集,每一个特征子集中包括多个特征数据;将每一个特征子集划分为多个聚类簇;输出各个聚类簇内的特征数据。该实施方式能够解决对大量数据进行聚类时,所需计算资源非常多的问题。

A Method and Device for Clustering Data

【技术实现步骤摘要】
一种对数据进行聚类的方法和装置
本专利技术涉及计算机
,尤其涉及一种对数据进行聚类的方法和装置。
技术介绍
随着互联网技术和数据存储技术的快速发展,各个机构组织积累了大量的数据。从海量的数据中提取潜在的、有价值的数据信息成为一项巨大的挑战。聚类分析是数据挖掘中的一种重要的方法。聚类分析能够将海量的杂乱无章的数据根据相似性归类至不同的聚类簇。在实现本专利技术构思的过程中,专利技术人发现现有技术中至少存在如下问题:当数据量越来越大时(比如超过10亿),所需计算资源非常多。
技术实现思路
有鉴于此,本专利技术实施例提供一种对数据进行聚类的方法和装置,能够解决对大量数据进行聚类时,所需计算资源非常多的问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种对数据进行聚类的方法,包括:基于相似性划分,将待聚类的特征数据划分为多个特征子集,每一个特征子集中包括多个特征数据;将每一个特征子集划分为多个聚类簇;输出各个聚类簇内的特征数据。可选地,将待聚类的特征数据划分为多个特征子集,包括:确定待聚类的特征数据的数量量级;根据所述数量量级,确定相似性划分的次数;通过至少一次的相似性划分,将待聚类的特征数据划分为多个特征子集。可选地,将待聚类的特征数据划分为多个特征子集,包括:随机抽取一定比例的特征数据作为样本,采用K-均值算法训练聚类模型,并确定聚类模型的多个虚拟中心点;计算所述各个虚拟中心点到某一特征数据的距离,与该特征数据距离最近的虚拟中心点的所属子集即为该特征的所属子集;逐个预测所有待聚类的特征数据的所属子集,从而将待聚类的特征数据划分为多个特征子集。可选地,将每一个特征子集划分为多个聚类簇,包括:采用自适应阈值的密度聚类算法,将每一个特征子集划分为多个聚类簇。可选地,采用自适应阈值的密度聚类算法,包括:在采用密度聚类算法进行聚类时,为每一个特征子集预先设定自适应系数a,0<a≤1,使得算法在为每一个特征子集执行聚类前,确定算法的两个条件:1)半径r=DIS_MIN+a×(DIS_MAX-DIS_MIN);2)半径范围内最少成员个数;其中,DIS_MIN是该特征子集内特征数据间的最小距离;DIS_MAX是该特征子集内特征数据间的最大距离。另外,根据本专利技术实施例的另一个方面,提供了一种对数据进行聚类的装置,包括:划分模块,用于基于相似性划分,将待聚类的特征数据划分为多个特征子集,每一个特征子集中包括多个特征数据;聚类簇模块,用于将每一个特征子集划分为多个聚类簇;输出模块,用于输出各个聚类簇内的特征数据。可选地,将待聚类的特征数据划分为多个特征子集,包括:确定待聚类的特征数据的数量量级;根据所述数量量级,确定相似性划分的次数;通过至少一次的相似性划分,将待聚类的特征数据划分为多个特征子集。可选地,所述将待聚类的特征数据划分为多个特征子集,包括:随机抽取一定比例的特征数据作为样本,采用K-均值算法训练聚类模型,并确定聚类模型的多个虚拟中心点;计算所述各个虚拟中心点到某一特征数据的距离,与该特征数据距离最近的虚拟中心点的所属子集即为该特征的所属子集;逐个预测所有待聚类的特征数据的所属子集,从而将待聚类的特征数据划分为多个特征子集。可选地,所述聚类簇模块,用于:采用自适应阈值的密度聚类算法,将每一个特征子集划分为多个聚类簇。可选地,采用自适应阈值的密度聚类算法,包括:在采用密度聚类算法进行聚类时,为每一个特征子集预先设定自适应系数a,0<a≤1,使得算法在为每一个特征子集执行聚类前,确定算法的两个条件:1)半径r=DIS_MIN+a×(DIS_MAX-DIS_MIN);2)半径范围内最少成员个数;其中,DIS_MIN是该特征子集内特征数据间的最小距离;DIS_MAX是该特征子集内特征数据间的最大距离。根据本专利技术实施例的另一个方面,还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。根据本专利技术实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。上述专利技术中的一个实施例具有如下优点或有益效果:因为采用将待聚类的特征数据划分为多个特征子集,再将每一个特征子集划分为多个聚类簇的技术手段,所以克服了对大量数据进行聚类时,所需计算资源非常多的技术问题,本专利技术通过将待聚类的特征数据划分为多个特征子集,再将每一个特征子集划分为多个聚类簇,能够在计算资源固定的情况下高效处理不同规模的特征数据。而且,本专利技术实施例提供的方法采用自适应阈值的聚类算法进行聚类,能够自适应特征数据的多样性,动态决定各个特征子集的聚类阈值,以确保较高的聚类精度。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的对数据进行聚类的方法的主要流程的示意图;图2是根据本专利技术一个可参考实施例的对数据进行聚类的方法的主要流程的示意图;图3是根据本专利技术实施例的对数据进行聚类的装置的主要模块的示意图;图4是本专利技术实施例可以应用于其中的示例性系统架构图;图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。以K-均值算法为例,当K增大时,算法执行时间随之增加,因此K不能无限制增加,否则所需计算资源会非常多。举例:当待聚类数据的总量超过10亿时,预估每5个数据为一聚类簇,则需要指定K=2亿,指定算法最多迭代10次(即i=10),则根据Lloyd算法复杂度分析,时间复杂度O(nkdi)=1023,可见,所需计算资源非常多。为了降低计算资源,本专利技术提出了一种对数据进行聚类的方法,包括:将待聚类的特征数据划分为多个特征子集,每一个特征子集中包括多个特征数据;将每一个特征子集划分为多个聚类簇;和,输出各个聚类簇内的特征数据。图1是根据本专利技术实施例的对数据进行聚类的方法的主要流程的示意图。如图1所示,作为本专利技术的一个实施例,所述对数据进行聚类的方法可以包括:步骤101,基于相似性划分,将待聚类的特征数据划分为多个特征子集,每一个特征子集中包括多个特征数据。在本专利技术的实施例中,每一个特征数据对应于一个数据对象,通过聚类算法,将所有待聚类的数据对象的特征数据划分为多个特征子集。可以采用K-means(K-均值)、Brich、Optics等聚类算法。根据本专利技术的实施例,该数据对象包括以下中任意一项:数据文件、文档、图像、音频、或视频。当该数据对象为数据文件时,该数据对象的特征数据可以是该数据文件的格式信息、语言类型、或者算法等。当该数据对象为文档时,该数据对象的特征数据可以是文档的格式、文档的结构信息、文档内的词、词频信息、或者文档的语言类型等数据。当该数据对象为图本文档来自技高网...

【技术保护点】
1.一种对数据进行聚类的方法,其特征在于,包括:基于相似性划分,将待聚类的特征数据划分为多个特征子集,每一个特征子集中包括多个特征数据;将每一个特征子集划分为多个聚类簇;输出各个聚类簇内的特征数据。

【技术特征摘要】
1.一种对数据进行聚类的方法,其特征在于,包括:基于相似性划分,将待聚类的特征数据划分为多个特征子集,每一个特征子集中包括多个特征数据;将每一个特征子集划分为多个聚类簇;输出各个聚类簇内的特征数据。2.根据权利要求1所述的方法,其特征在于,将待聚类的特征数据划分为多个特征子集,包括:确定待聚类的特征数据的数量量级;根据所述数量量级,确定相似性划分的次数;通过至少一次的相似性划分,将待聚类的特征数据划分为多个特征子集。3.根据权利要求1所述的方法,其特征在于,将待聚类的特征数据划分为多个特征子集,包括:随机抽取一定比例的特征数据作为样本,采用K-均值算法训练聚类模型,并确定聚类模型的多个虚拟中心点;计算所述各个虚拟中心点到某一特征数据的距离,与该特征数据距离最近的虚拟中心点的所属子集即为该特征的所属子集;逐个预测所有待聚类的特征数据的所属子集,从而将待聚类的特征数据划分为多个特征子集。4.根据权利要求1所述的方法,其特征在于,将每一个特征子集划分为多个聚类簇,包括:采用自适应阈值的密度聚类算法,将每一个特征子集划分为多个聚类簇。5.根据权利要求4所述的方法,其特征在于,采用自适应阈值的密度聚类算法,包括:在采用密度聚类算法进行聚类时,为每一个特征子集预先设定自适应系数a,0<a≤1,使得算法在为每一个特征子集执行聚类前,确定算法的两个条件:1)半径r=DIS_MIN+a×(DIS_MAX-DIS_MIN);2)半径范围内最少成员个数;其中,DIS_MIN是该特征子集内特征数据间的最小距离;DIS_MAX是该特征子集内特征数据间的最大距离。6.一种对数据进行聚类的装置,其特征在于,包括:划分模块,用于基于相似性划分,将待聚类的特征数据划分为多个特征子集,每一个特征子集中包括多个特征数据;聚类簇模块,用于将每一个...

【专利技术属性】
技术研发人员:汪振华
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1