一种聚类分析方法及装置、服务器制造方法及图纸

技术编号:18895541 阅读:18 留言:0更新日期:2018-09-08 11:27
本申请提供了一种聚类分析方法及装置、服务器:获取待分析的数据集的距离矩阵,距离矩阵用于表征数据集中的任意两个数据之间的距离值。构建距离矩阵的直方图,并将直方图拟合为n个概率分布函数的加权和。在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。因为直方图反映的是矩阵中的元素值的统计特征,而距离矩阵包括的元素值是数据在空间中两两之间的距离值,所以,距离矩阵的直方图反映的是数据在空间中的分布情况,将这种分布情况拟合为概率分布函数,并通过概率分布函数的分离程度,确定空间中的数据是否可聚,与现有的可聚性分析方法相比,以数据在空间中的分布情况考虑数据集是否可聚,具有更高的准确性。

A clustering analysis method and device, server

This application provides a clustering analysis method and device, server: to obtain the distance matrix of the data set to be analyzed, the distance matrix is used to characterize the distance value between any two data sets in the data set. The histogram of the distance matrix is constructed, and the histogram is fitted as the weighted sum of the N probability distribution functions. In the case that n is greater than or equal to 2, the data set is determined to be clusterable according to the degree of separation of the N probability distribution functions. Because the histogram reflects the statistical characteristics of the value of the elements in the matrix, and the value of the elements included in the distance matrix is the distance between two data in space, so the histogram of the distance matrix reflects the distribution of the data in space, and the distribution is fitted as a probability distribution function, and the probability score is used. Distribution degree of distribution function determines whether the data in space is clusterable. Compared with the existing methods of clusterability analysis, it is more accurate to consider whether the data set is clusterable by considering the distribution of data in space.

【技术实现步骤摘要】
一种聚类分析方法及装置、服务器本申请要求于2017年02月28日提交中国专利局、申请号为201710114107.2、专利技术名称为“一种聚类分析方法及装置、服务器”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及电子信息领域,尤其涉及一种聚类分析方法及装置、服务器。
技术介绍
聚类分析也称群分析或点群分析,聚类分析是将个体或对象分类,使得同一类中的对象之间的相似性比与其它类的对象的相似性更强。其目的在于使类间对象的同质性最大化,类与类间对象的异质性最大化。简单说来,聚类分析就是把相似的研究对象归为一类,以方便研究。可聚性分析是聚类分析的一部分,是对数据可否被有意义地聚在一起的分析。现有的可聚性分析方法包括基于聚类中心扰动的可聚性分析方法(Centerperturbationclusterability)、基于最小样本对距离比率的可聚性分析方法(Worstpairratioclusterability)、基于区分性的可聚性分析方法(Separabilityclusterability)以及基于方差比率的可聚性分析方法(Varianceratioclusterability)等。现有的这些可聚性分析方法的关注点在于聚类中心的分布情况,例如聚类中心的扰动、以及类间距离和类内距离之间的比例等。这使得对高维空间的样本,可聚性分析的结果并不准确。
技术实现思路
本申请提供了一种聚类分析方法及装置、服务器,目的在于解决如何提高可聚性分析的准确性的问题。本申请的第一方面提供了一种聚类分析方法,包括以下步骤:获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值。构建所述距离矩阵的直方图,并将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数。在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。因为直方图反映的是矩阵中的元素值的统计特征,而距离矩阵用于表征的元素值是数据在空间中两两之间的距离值,所以,距离矩阵的直方图反映的是数据集在空间中的分布情况,将这种分布情况拟合为n个概率分布函数的加权和,并通过n个概率分布函数的分离程度,确定空间中的数据是否可聚,与现有的可聚性分析方法相比,以数据在空间中的分布情况考虑数据集是否可聚,具有更高的准确性。本申请的第二方面提供了一种聚类分析服务器,包括通信组件和处理器。通信组件用于获取待分析的数据集。处理器用于获取所述数据集的距离矩阵,所述距离矩阵用于表征所述数据中的任意两个数据之间的距离值,构建所述距离矩阵的直方图,并将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数,在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。所述聚类分析服务器以数据在空间中的分布情况考虑数据集是否可聚,具有更高的准确性。本申请的第三方面提供了一种聚类分析装置,包括:距离矩阵获取模块、直方图构建模块、拟合模块和可聚性确定模块。其中,距离矩阵获取模块用于获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值。直方图构建模块用于构建所述距离矩阵的直方图。拟合模块用于将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数。可聚性确定模块用于在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。在一个实现方式中,所述将所述直方图拟合为n个概率分布函数的加权和包括:将所述直方图拟合为n阶混合正态分布函数。因为自然界及工程技术中大量的随机现象都服从或近似服从正态分布,所以,将距离矩阵的直方图拟合为正态分布函数,可以进一步提高可聚性分析的准确性。在一个实现方式中,n等于2。所述n个概率分布函数的分离程度的计算方法包括:依据2阶混合模型中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度。进一步的,计算所述两个正态分布函数的Ashman'sD分数。均值和方差为正态分布函数最常用且容易获得的参数,所以,利用均值和方差,进一步的,利用Ashman'sD分数计算两个正态分布函数的分离程度,具有易于实现的优点。在一个实现方式中,所述依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚包括:如果所述两个正态分布函数的分离程度大于2,确定所述数据集可聚。在正态分布函数为两个的情况下,将阈值设置为2,有利于提高可聚性分析的准确性。在一个实现方式中,在所述确定所述数据集可聚之后,还包括:将所述距离矩阵转换为二值矩阵,并将所述二值矩阵作为邻接矩阵,构建连通图,确定所述连通图中连通子图的数量为所述数据可形成的聚类的数量。通过这种方式获得聚类的数量,可以实现自动聚类,而无需人工尝试聚类个数,能够提高聚类分析的效率。在一个实现方式中,所述将所述距离矩阵转换为二值矩阵包括:使用大津阈值算法,将所述距离矩阵转换为二值矩阵。大津阈值算法使用的阈值得到的分类间的类间方差最大,更为贴合聚类的特点,所以,相比于其它的二值化算法,更适用于可聚性分析过程。在一个实现方式中,所述构建所述距离矩阵的直方图包括:确定所述距离矩阵中元素的最大值和最小值的差值。获取预先设定的所述直方图的分组数目或者依据所述距离矩阵中的元素的个数的平方根确定所述直方图的分组数目。计算所述差值与所述分组数目的比值,所述比值为所述直方图中柱体的宽度,所述柱体的宽度表示所述距离矩阵中的元素值的范围。生成所述直方图,所述直方图中的任意一个柱体的高度等于所述距离矩阵中,元素值落在该柱体的宽度内的元素的个数。在一个实现方式中,在获取所述连通图中连通子图的数量之后,还包括:对所述数据集进行聚类。在一个实现方式中,在确定n等于1的情况下,确定所述数据集不可聚,而无需再计算概率分布函数的分离程度,是一种快速确定数据集不可聚的方法。附图说明图1为大数据分析的基本架构图;图2为运营商应用大数据分析得到用户群分类的场景示意图;图3为本申请实施例公开的一种聚类分析服务器的结构示意图;图4为本申请实施例公开的一种聚类分析方法的流程图;图5为本申请实施例公开的聚类分析过程中构建的距离矩阵的直方图;图6为本申请实施例公开的距离矩阵拟合为高斯正态分布函数的示意图;图7为本申请实施例公开的距离矩阵的二值矩阵对应的连通图;图8为本申请实施例公开的一种聚类分析装置的结构示意图。具体实施方式图1为大数据分析的基本架构,包括数据获取模块和数据挖掘分析平台,其中,数据获取模块用于数据的获取和预处理,并将处理后的数据发给数据挖掘分析平台。聚类分析模块为数据挖掘分析平台上的一个功能模块,包括可聚性分析子模块和聚类子模块,可聚性分析子模块用于对接收到的数据进行可聚性分析,得到可聚性分析结果(如数据集可聚类,以及聚类的数量),聚类子模块在可聚性分析结果表示数据可聚的情况下,得到数据集的聚类结果。图1所示的大数据分析的架构可用于各种场景,例如,图2为运营商应用大数据分析得到用户群分类的场景:其中,数据获取模块将电信用户的各种基础数据表单(例如用户的流量数据表单、用户的基本信息表单和用户的通话时长表单)中的用户行为数据进行汇总以及预处理,得到用户行为特征数据。数据挖掘与分析平台上的聚类分析模块本文档来自技高网...

【技术保护点】
1.一种聚类分析方法,其特征在于,包括:获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值;构建所述距离矩阵的直方图;将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数;在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。

【技术特征摘要】
2017.02.28 CN 20171011410721.一种聚类分析方法,其特征在于,包括:获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值;构建所述距离矩阵的直方图;将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数;在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。2.根据权利要求1所述的方法,其特征在于,所述将所述直方图拟合为n个概率分布函数的加权和,包括:将所述直方图拟合为n阶混合正态分布函数。3.根据权利要求2所述的方法,其特征在于,n等于2;所述n个概率分布函数的分离程度的计算方法包括:依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度。4.根据权利要求3所述的方法,其特征在于,所述依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度包括:计算所述两个正态分布函数的Ashman'sD分数。5.根据权利要求3所述的方法,其特征在于,所述依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚包括:如果所述两个正态分布函数的分离程度大于2,确定所述数据集可聚。6.根据权利要求1至5任一项所述的方法,其特征在于,在所述确定所述数据集可聚之后,还包括:将所述距离矩阵转换为二值矩阵;将所述二值矩阵作为邻接矩阵,构建连通图,确定所述连通图中连通子图的数量为所述数据集可形成的聚类的数量。7.根据权利要求6所述的所述,其特征在于,所述将所述距离矩阵转换为二值矩阵包括:根据大津阈值算法,将所述距离矩阵转换为二值矩阵。8.根据权利要求1所述的所述,其特征在于,所述构建所述距离矩阵的直方图包括:确定所述距离矩阵中元素的最大值和最小值的差值;获取预先设定的所述直方图的分组数目或者根据所述距离矩阵中的元素的个数确定所述直方图的分组数目;确定所述差值与所述分组数目的比值为所述直方图中柱体的宽度,所述柱体的宽度表示所述距离矩阵中的元素值的范围;生成所述直方图,所述直方图中的任意一个柱体的高度等于所述距离矩阵中,元素值落在该柱体的宽度内的元素的个数。9.根据权利要求1所述的方法,其特征在于,在获取所述连通图中连通子图的数量为所述数据集可形成的聚类的数量之后,还包括:根据所述可形成聚类的数量和预设的聚类算法,对所述数据集进行聚类。10.一种聚类分析服务器,其特征在于,包括:通信组件,用于获取待分析的数据集;处理器,用于获取所述数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值;构建所述距离矩阵的直方图,并将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数,在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。11.根据权利要求10所述的服务器,其特征在于,所述处理器用于将所述直方图拟合为n个概率分布函数的加权和,包括:所述处理器具体用于,将所述直方图拟合为n阶混合正态分布函数。12.根据权利要求11所述的服务器,其特征在于,n等于2;所述处理器还用于:依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度。13.根据权利要求12所述的服务器,其特征在于,所述处理器用于依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算两个正态分布函数的分离程度包括:所述处理器具体用于,计算所述两个正态分布函数的Ashman'sD分数。14.根据权利要求12所述的服务器,其特征在于,所述处理器用于依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚包括:所述处理器具体用于,如果所述两个正态分布函数的分离程度大于2,确定所述数据集可聚。15.根据权利要求10至14任一项所述的服务器,其特征在于,所...

【专利技术属性】
技术研发人员:程圣军熊安斌
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1