This application provides a clustering analysis method and device, server: to obtain the distance matrix of the data set to be analyzed, the distance matrix is used to characterize the distance value between any two data sets in the data set. The histogram of the distance matrix is constructed, and the histogram is fitted as the weighted sum of the N probability distribution functions. In the case that n is greater than or equal to 2, the data set is determined to be clusterable according to the degree of separation of the N probability distribution functions. Because the histogram reflects the statistical characteristics of the value of the elements in the matrix, and the value of the elements included in the distance matrix is the distance between two data in space, so the histogram of the distance matrix reflects the distribution of the data in space, and the distribution is fitted as a probability distribution function, and the probability score is used. Distribution degree of distribution function determines whether the data in space is clusterable. Compared with the existing methods of clusterability analysis, it is more accurate to consider whether the data set is clusterable by considering the distribution of data in space.
【技术实现步骤摘要】
一种聚类分析方法及装置、服务器本申请要求于2017年02月28日提交中国专利局、申请号为201710114107.2、专利技术名称为“一种聚类分析方法及装置、服务器”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及电子信息领域,尤其涉及一种聚类分析方法及装置、服务器。
技术介绍
聚类分析也称群分析或点群分析,聚类分析是将个体或对象分类,使得同一类中的对象之间的相似性比与其它类的对象的相似性更强。其目的在于使类间对象的同质性最大化,类与类间对象的异质性最大化。简单说来,聚类分析就是把相似的研究对象归为一类,以方便研究。可聚性分析是聚类分析的一部分,是对数据可否被有意义地聚在一起的分析。现有的可聚性分析方法包括基于聚类中心扰动的可聚性分析方法(Centerperturbationclusterability)、基于最小样本对距离比率的可聚性分析方法(Worstpairratioclusterability)、基于区分性的可聚性分析方法(Separabilityclusterability)以及基于方差比率的可聚性分析方法(Varianceratioclusterability)等。现有的这些可聚性分析方法的关注点在于聚类中心的分布情况,例如聚类中心的扰动、以及类间距离和类内距离之间的比例等。这使得对高维空间的样本,可聚性分析的结果并不准确。
技术实现思路
本申请提供了一种聚类分析方法及装置、服务器,目的在于解决如何提高可聚性分析的准确性的问题。本申请的第一方面提供了一种聚类分析方法,包括以下步骤:获取待分析的数据集的距离矩阵,所述距离矩阵用于 ...
【技术保护点】
1.一种聚类分析方法,其特征在于,包括:获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值;构建所述距离矩阵的直方图;将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数;在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。
【技术特征摘要】
2017.02.28 CN 20171011410721.一种聚类分析方法,其特征在于,包括:获取待分析的数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值;构建所述距离矩阵的直方图;将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数;在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。2.根据权利要求1所述的方法,其特征在于,所述将所述直方图拟合为n个概率分布函数的加权和,包括:将所述直方图拟合为n阶混合正态分布函数。3.根据权利要求2所述的方法,其特征在于,n等于2;所述n个概率分布函数的分离程度的计算方法包括:依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度。4.根据权利要求3所述的方法,其特征在于,所述依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度包括:计算所述两个正态分布函数的Ashman'sD分数。5.根据权利要求3所述的方法,其特征在于,所述依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚包括:如果所述两个正态分布函数的分离程度大于2,确定所述数据集可聚。6.根据权利要求1至5任一项所述的方法,其特征在于,在所述确定所述数据集可聚之后,还包括:将所述距离矩阵转换为二值矩阵;将所述二值矩阵作为邻接矩阵,构建连通图,确定所述连通图中连通子图的数量为所述数据集可形成的聚类的数量。7.根据权利要求6所述的所述,其特征在于,所述将所述距离矩阵转换为二值矩阵包括:根据大津阈值算法,将所述距离矩阵转换为二值矩阵。8.根据权利要求1所述的所述,其特征在于,所述构建所述距离矩阵的直方图包括:确定所述距离矩阵中元素的最大值和最小值的差值;获取预先设定的所述直方图的分组数目或者根据所述距离矩阵中的元素的个数确定所述直方图的分组数目;确定所述差值与所述分组数目的比值为所述直方图中柱体的宽度,所述柱体的宽度表示所述距离矩阵中的元素值的范围;生成所述直方图,所述直方图中的任意一个柱体的高度等于所述距离矩阵中,元素值落在该柱体的宽度内的元素的个数。9.根据权利要求1所述的方法,其特征在于,在获取所述连通图中连通子图的数量为所述数据集可形成的聚类的数量之后,还包括:根据所述可形成聚类的数量和预设的聚类算法,对所述数据集进行聚类。10.一种聚类分析服务器,其特征在于,包括:通信组件,用于获取待分析的数据集;处理器,用于获取所述数据集的距离矩阵,所述距离矩阵用于表征所述数据集中的任意两个数据之间的距离值;构建所述距离矩阵的直方图,并将所述直方图拟合为n个概率分布函数的加权和,n为大于0的整数,在确定n大于或等于2的情况下,依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚。11.根据权利要求10所述的服务器,其特征在于,所述处理器用于将所述直方图拟合为n个概率分布函数的加权和,包括:所述处理器具体用于,将所述直方图拟合为n阶混合正态分布函数。12.根据权利要求11所述的服务器,其特征在于,n等于2;所述处理器还用于:依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算所述两个正态分布函数的分离程度。13.根据权利要求12所述的服务器,其特征在于,所述处理器用于依据2阶混合正态分布函数中的两个正态分布函数的均值和方差,计算两个正态分布函数的分离程度包括:所述处理器具体用于,计算所述两个正态分布函数的Ashman'sD分数。14.根据权利要求12所述的服务器,其特征在于,所述处理器用于依据所述n个概率分布函数的分离程度,确定所述数据集是否可聚包括:所述处理器具体用于,如果所述两个正态分布函数的分离程度大于2,确定所述数据集可聚。15.根据权利要求10至14任一项所述的服务器,其特征在于,所...
【专利技术属性】
技术研发人员:程圣军,熊安斌,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。