当前位置: 首页 > 专利查询>广西大学专利>正文

一种基于簇内簇间相异度的分类型数据聚类方法技术

技术编号:26846477 阅读:44 留言:0更新日期:2020-12-25 13:09
本发明专利技术公开一种基于簇内簇间相异度的分类型数据聚类方法,基于簇内簇间相似性提出新的相异度计算方法,并基于该相异度完成了簇中心自动选择。本发明专利技术的相异度保留了数据的特征,做到了低簇内相异度高簇间相异性的标准,在聚类精度、纯度和召回率方面均有提高,有效提高了分类型数据的聚类效果,其可以防止聚类过程中的重要特征值的丢失,强化了簇内特征值之间的相似性,弱化了簇间特征值之间的相似性;通过簇中心自动选择方法,大大减少了随机选取簇中心或者手动选择选取簇中心给聚类带来的误差。

【技术实现步骤摘要】
一种基于簇内簇间相异度的分类型数据聚类方法
本专利技术涉及数据聚类
,具体涉及一种基于簇内簇间相异度的分类型数据聚类方法。
技术介绍
聚类算法是机器学习中涉及对数据进行分组的一种算法。在给定的数据集中,我们可以通过聚类算法将其分成一些不同的组。在理论上,相同的组的数据之间有相同的属性或者是特征,不同组数据之间的属性或者特征相差就会比较大。聚类算法是一种非监督学习算法,并且作为一种常用的数据分析算法在很多领域上得到应用。在数据科学领域,我们利用聚类算法实现聚类分析,通过将数据分组可以比较清晰的获取到数据信息。分类型数据聚类算法作为数据挖掘的重要组成部分,可以帮助分析人员从康复治疗方案推荐系统的数据库中概括出每一类患者的病情特点,让分析人员把注意力放在某一个特定的患者群体上,以做出进一步的分析。经典k-means算法在计算簇的均值以及数据对象之间的相异度时使用的是欧式距离,仅适用于连续特征的数值型数据集,对于离散特征的分类型数据集,k-means算法不再适用。Huang在1998年对k-means算法进行扩展,使用“modes本文档来自技高网...

【技术保护点】
1.一种基于簇内簇间相异度的分类型数据聚类方法,其特征是,包括步骤如下:/n步骤1、对于具有n个数据对象的分类型数据集D,利用简单汉明距离计算每2个数据对象之间的相异度d

【技术特征摘要】
1.一种基于簇内簇间相异度的分类型数据聚类方法,其特征是,包括步骤如下:
步骤1、对于具有n个数据对象的分类型数据集D,利用简单汉明距离计算每2个数据对象之间的相异度di,j;
步骤2、对于分类型数据集D的每个数据对象xi,先将该数据对象xi与其他数据对应之间的相异度di,j进行升序排序,得到该数据对象xi的相异度向量d'i,j=[d'i,1,d'i,2,...,d'i,n];再将该相异度向量d'i,j中相邻两个相异度的最大差值作为数据对象xi的截断距离dc,i;
步骤3、选取分类型数据集D中所有数据对象的截断距离dc,i的最小值作为分类型数据集D的截断距离dc;
步骤4、基于分类型数据集D的截断距离dc,并利用方波内核函数法或高斯核函数法计算分类型数据集D的每个数据对象xi的局部邻域密度ρi;
步骤5、计算分类型数据集D的每个数据对象xi的相对距离Li:



步骤6、对于分类型数据集D的每个数据对象xi,利用该数据对象xi的局部邻域密度ρi和相对距离Li得到该数据对象xi的决策图Zi:
Zi=ρi×Li
步骤7、先将分类型数据集D中所有数据对象的决策图Zi进行降序排序,得到排序序列;再基于该排序序列,以数据对象xi的下标i为横坐标,以数据对象xi的决策图Zi为纵坐标绘制分类型数据集D的决策图,该分类型数据集D的决策图的中的拐点处的横坐标即为选定的聚类个数k;
步骤8、从分类型数据集D中选择k个数据对象构成当前簇中心集合;
步骤9、基于当前簇中心集合,计算分类型数据...

【专利技术属性】
技术研发人员:宋玲贾子琪叶进陈燕王立颖石森煌
申请(专利权)人:广西大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1