一种聚类方法及装置制造方法及图纸

技术编号:20655436 阅读:62 留言:0更新日期:2019-03-23 07:01
本发明专利技术提供了一种聚类方法及装置,所述方法包括:获取包括多个聚类对象的待处理数据以及所述待处理数据的指定目标类别数;其中,所述待处理数据包括多媒体数据、文本数据和/或用户数据;依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别;计算各聚类类别的纯度;结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心。基于本发明专利技术提供的聚类方法,在聚类过程中引入了纯度的计算对聚类结果进行监督,在优化待处理数据聚类过程的同时,提升聚类结果的准确性。

【技术实现步骤摘要】
一种聚类方法及装置
本专利技术涉及数据处理
,特别是涉及一种聚类方法及装置。
技术介绍
聚类,即将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合。聚类分析是研究样本或指标分类问题的一种统计分析方法,同时也是数据挖掘以及模式识别等领域中的一个重要的技术之一。对于传统的聚类方法来讲,在数据的聚类过程中会存在一些问题,第一是数据的更新问题,另一个则是聚类的中心点不可控,当其在聚类过程中迭代到一定程度时,无论最后的聚类结果是否符合要求、中心点是否准确均无法判断,因此,也会影响最终的聚类结果的准确性。
技术实现思路
本专利技术提供了一种聚类方法及装置以克服上述问题或者至少部分地解决上述问题。根据本专利技术的一个方面,提供了一种聚类方法,包括:获取包括多个聚类对象的待处理数据以及所述待处理数据的指定目标类别数;其中,所述待处理数据包括多媒体数据、文本数据和/或用户数据;依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别;计算各聚类类别的纯度;结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输本文档来自技高网...

【技术保护点】
1.一种聚类方法,包括:获取包括多个聚类对象的待处理数据以及所述待处理数据的指定目标类别数;其中,所述待处理数据包括多媒体数据、文本数据和/或用户数据;依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别;计算各聚类类别的纯度;结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心。

【技术特征摘要】
1.一种聚类方法,包括:获取包括多个聚类对象的待处理数据以及所述待处理数据的指定目标类别数;其中,所述待处理数据包括多媒体数据、文本数据和/或用户数据;依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别;计算各聚类类别的纯度;结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心。2.根据权利要求1所述的方法,其中,所述依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别,包括:基于所述指定目标类别数随机初始化所述待处理数据的各聚类中心;计算所述待处理数据中每个聚类对象到各聚类中心的距离,并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别。3.根据权利要求2所述的方法,其中,所述计算所述待处理数据中每个聚类对象到各聚类中心的距离,并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别之后,还包括:计算各聚类类别的新聚类中心;获取所述每个聚类对象到所述新聚类中心的距离,并以最小距离将各聚类对象分类到对应的新聚类中心所属的聚类类别;迭代计算所述各聚类类别的新聚类中心指定次数,直至各聚类类别的新聚类中心的变化距离在预设范围内。4.根据权利要求3所述的方法,其中,所述结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心,包括:判断所述各聚类类别的新聚类中心的迭代计算次数是否达到最大迭代次数;若所述各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数,则筛选出纯度大于预设的初始筛选纯度的第一聚类类别;保存并输出所述第一聚类类别的聚类中心。5.根据权利要求4所述的方法,其中,所述若所述各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数,则筛选出纯度大于预设的初始筛选纯度的第一聚类类别之后,保存所述第一聚...

【专利技术属性】
技术研发人员:罗玄黄君实陈强
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1