一种基于簇内簇间相异度的分类型数据聚类方法技术

技术编号：26846477 阅读：34 留言：0更新日期：2020-12-25 13:09

本发明专利技术公开一种基于簇内簇间相异度的分类型数据聚类方法，基于簇内簇间相似性提出新的相异度计算方法，并基于该相异度完成了簇中心自动选择。本发明专利技术的相异度保留了数据的特征，做到了低簇内相异度高簇间相异性的标准，在聚类精度、纯度和召回率方面均有提高，有效提高了分类型数据的聚类效果，其可以防止聚类过程中的重要特征值的丢失，强化了簇内特征值之间的相似性，弱化了簇间特征值之间的相似性；通过簇中心自动选择方法，大大减少了随机选取簇中心或者手动选择选取簇中心给聚类带来的误差。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于簇内簇间相异度的分类型数据聚类方法
本专利技术涉及数据聚类
，具体涉及一种基于簇内簇间相异度的分类型数据聚类方法。
技术介绍
聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中，我们可以通过聚类算法将其分成一些不同的组。在理论上，相同的组的数据之间有相同的属性或者是特征，不同组数据之间的属性或者特征相差就会比较大。聚类算法是一种非监督学习算法，并且作为一种常用的数据分析算法在很多领域上得到应用。在数据科学领域，我们利用聚类算法实现聚类分析，通过将数据分组可以比较清晰的获取到数据信息。分类型数据聚类算法作为数据挖掘的重要组成部分，可以帮助分析人员从康复治疗方案推荐系统的数据库中概括出每一类患者的病情特点，让分析人员把注意力放在某一个特定的患者群体上，以做出进一步的分析。经典k-means算法在计算簇的均值以及数据对象之间的相异度时使用的是欧式距离，仅适用于连续特征的数值型数据集，对于离散特征的分类型数据集，k-means算法不再适用。Huang在1998年对k-means算法进行扩展，使用“modes”代替“means”，提出适用于分类型数据聚类的k-modes算法。k-modes算法采用简单汉明距离计算相异度，忽略了数据对象间同一分类特征的差异性，弱化了簇内相似性，没有充分反映同一分类特征下两个特征值之间的相异度，影响聚类结果的精度。另外，k-modes算法采用随机选择的方法确定初始簇中心和k值，采用基于频率的方法重新计算和更新簇中心，给聚类结果带来很大的不确定性。>
技术实现思路
本专利技术所要解决的是k-modes算法的精度和初始簇中心选择的问题，提供一种基于簇内簇间相异度的分类型数据聚类方法。为解决上述问题，本专利技术是通过以下技术方案实现的：一种基于簇内簇间相异度的分类型数据聚类方法，包括步骤如下：步骤1、对于具有n个数据对象的分类型数据集D，利用简单汉明距离计算每2个数据对象之间的相异度di,j；步骤2、对于分类型数据集D的每个数据对象xi，先将该数据对象xi与其他数据对应之间的相异度di,j进行升序排序，得到该数据对象xi的相异度向量d′i,j＝[d′i,1,d′i,2,...,d′i,n]；再将该相异度向量d′i,j中相邻两个相异度的最大差值作为数据对象xi的截断距离dc,i；步骤3、选取分类型数据集D中所有数据对象的截断距离dc,i的最小值作为分类型数据集D的截断距离dc；步骤4、基于分类型数据集D的截断距离dc，并利用方波内核函数法或高斯核函数法计算分类型数据集D的每个数据对象xi的局部邻域密度ρi；步骤5、计算分类型数据集D的每个数据对象xi的相对距离Li：步骤6、对于分类型数据集D的每个数据对象xi，利用该数据对象xi的局部邻域密度ρi和相对距离Li得到该数据对象xi的决策图Zi：Zi＝ρi×Li步骤7、先将分类型数据集D中所有数据对象的决策图Zi进行降序排序，得到排序序列；再基于该排序序列，以数据对象xi的下标i为横坐标，以数据对象xi的决策图Zi为纵坐标绘制分类型数据集D的决策图，该分类型数据集D的决策图的中的拐点处的横坐标即为选定的聚类个数k；步骤8、从分类型数据集D中选择k个数据对象构成当前簇中心集合；步骤9、基于当前簇中心集合，计算分类型数据集D剩余的n-k个数据对象xi与k个簇中心ql之间的相异度d(xi,ql)：步骤10、根据数据对象xi与簇中心ql之间的相异度d(xi,ql)，并基于就近原则将n-k个数据对象分配到离它最近的簇中，分配完成后，得到k个聚类簇，并标记这n-k个数据对象的簇标签，由此获得基于当前簇中心集合的聚类结果；步骤11、对于形成的k个聚类簇，从每个簇中选取每维特征上出现频率最高的特征值组成该簇新的簇中心，得到新的簇中心集合；步骤12、重复步骤9-11，直到各簇中心不再变化时或达到规定的最大迭代次数时，算法终止，输出基于当前簇中心集合的聚类结果；否则，将所得到的新的簇中心集合作为当前簇中心集合，并跳至步骤9继续迭代；迭代使得选取的簇中心越来越接近真实的簇中心，所以迭代过程会使聚类效果越来越好。聚类算法结束条件可由实验员根据实际情况具体选择：(1)迭代到达到最大迭代次数终止；(2)迭代到目标函数阈值终止。其中，i,j＝1,2,…,n，n为分类型数据集D的数据对象个数；s＝1,2,…,m，m为数据对象的特征的个数；l＝1,2,…,k，为聚类个数；δ(Ai,s,Aql,s)为第s维特征下数据对象xi与蔟中心ql的相异度；Ai,s为数据对象xi的第s维特征；Aql,s为蔟中心ql的第s维特征；为簇Cl内，特征值为As,t的数据对象个数；|Cl|为簇Cl内的数据对象的个数；ζl为调节系数。上述步骤4中，对于数据对象大于等于10TB的大规模分类型数据集D，利用方波内核函数法计算数据对象xi的局部邻域密度ρi；对于数据对象小于10TB的小规模分类型数据集D，利用高斯核函数法计算数据对象xi的局部邻域密度ρi。注：大规模数据一般指在10TB(1TB＝1024GB)规模以上的数据量。与现有技术相比，本专利技术具有如下特点：1、本专利技术基于簇内簇间相似性提出新的相异度计算方法，其可以防止聚类过程中的重要特征值的丢失，强化了簇内特征值之间的相似性，弱化了簇间特征值之间的相似性。2、本专利技术提出的簇中心自动选择方法，大大减少了随机选取簇中心或者手动选择选取簇中心给聚类带来的误差。3、本专利技术提出的相异度系数计算方法保留了数据的特征，做到了低簇内相异度高簇间相异性的标准，在聚类精度、纯度和召回率方面均有提高，有效提高了分类型数据的聚类效果。附图说明图1为k-modes算法对初始簇中心选取的敏感性示意图，(a)k＝1的聚类结果图，(b)k＝2的聚类结果图，(c)k＝3的聚类结果图。图2为xi的局部邻域密度不是最大密度时的情况图。图3为xi的局部邻域密度是最大密度时的情况图。图4为dc,i值的确定图。图5为二维数据集示意图。图6为决策图。图7为Zi决策图。图8为IKMCA流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本专利技术进一步详细说明。使用的相关符号及含义说明如表1所示。表1符号说明以数据对象xi和簇中心ql为例，定义经典k-modes算法的简单汉明距离，如公式(1)所示，此计算赋予各特征相同的权重。其中：k-modes算法通过简单汉明距离来最小化的目标函数。如公式(2)所示：在相异度系数上，经典k-modes算法的相异度系数没有考虑簇内特征值出现的相对频率，也没有考虑各特征的簇内簇间结构。导致新数据对象划分过程中，一些簇分配了较少的相似数据。为了方便说明，采用如表本文档来自技高网...

【技术保护点】
1.一种基于簇内簇间相异度的分类型数据聚类方法，其特征是，包括步骤如下：/n步骤1、对于具有n个数据对象的分类型数据集D，利用简单汉明距离计算每2个数据对象之间的相异度d

【技术特征摘要】
1.一种基于簇内簇间相异度的分类型数据聚类方法，其特征是，包括步骤如下：
步骤1、对于具有n个数据对象的分类型数据集D，利用简单汉明距离计算每2个数据对象之间的相异度di,j；
步骤2、对于分类型数据集D的每个数据对象xi，先将该数据对象xi与其他数据对应之间的相异度di,j进行升序排序，得到该数据对象xi的相异度向量d'i,j＝[d'i,1,d'i,2,...,d'i,n]；再将该相异度向量d'i,j中相邻两个相异度的最大差值作为数据对象xi的截断距离dc,i；
步骤3、选取分类型数据集D中所有数据对象的截断距离dc,i的最小值作为分类型数据集D的截断距离dc；
步骤4、基于分类型数据集D的截断距离dc，并利用方波内核函数法或高斯核函数法计算分类型数据集D的每个数据对象xi的局部邻域密度ρi；
步骤5、计算分类型数据集D的每个数据对象xi的相对距离Li：

步骤6、对于分类型数据集D的每个数据对象xi，利用该数据对象xi的局部邻域密度ρi和相对距离Li得到该数据对象xi的决策图Zi：
Zi＝ρi×Li
步骤7、先将分类型数据集D中所有数据对象的决策图Zi进行降序排序，得到排序序列；再基于该排序序列，以数据对象xi的下标i为横坐标，以数据对象xi的决策图Zi为纵坐标绘制分类型数据集D的决策图，该分类型数据集D的决策图的中的拐点处的横坐标即为选定的聚类个数k；
步骤8、从分类型数据集D中选择k个数据对象构成当前簇中心集合；
步骤9、基于当前簇中心集合，计算分类型数据...

【专利技术属性】
技术研发人员：宋玲，贾子琪，叶进，陈燕，王立颖，石森煌，
申请(专利权)人：广西大学，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人