一种聚类方法及装置制造方法及图纸

技术编号:20655436 阅读:50 留言:0更新日期:2019-03-23 07:01
本发明专利技术提供了一种聚类方法及装置,所述方法包括:获取包括多个聚类对象的待处理数据以及所述待处理数据的指定目标类别数;其中,所述待处理数据包括多媒体数据、文本数据和/或用户数据;依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别;计算各聚类类别的纯度;结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心。基于本发明专利技术提供的聚类方法,在聚类过程中引入了纯度的计算对聚类结果进行监督,在优化待处理数据聚类过程的同时,提升聚类结果的准确性。

【技术实现步骤摘要】
一种聚类方法及装置
本专利技术涉及数据处理
,特别是涉及一种聚类方法及装置。
技术介绍
聚类,即将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合。聚类分析是研究样本或指标分类问题的一种统计分析方法,同时也是数据挖掘以及模式识别等领域中的一个重要的技术之一。对于传统的聚类方法来讲,在数据的聚类过程中会存在一些问题,第一是数据的更新问题,另一个则是聚类的中心点不可控,当其在聚类过程中迭代到一定程度时,无论最后的聚类结果是否符合要求、中心点是否准确均无法判断,因此,也会影响最终的聚类结果的准确性。
技术实现思路
本专利技术提供了一种聚类方法及装置以克服上述问题或者至少部分地解决上述问题。根据本专利技术的一个方面,提供了一种聚类方法,包括:获取包括多个聚类对象的待处理数据以及所述待处理数据的指定目标类别数;其中,所述待处理数据包括多媒体数据、文本数据和/或用户数据;依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别;计算各聚类类别的纯度;结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心。可选地,所述依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别,包括:基于所述指定目标类别数随机初始化所述待处理数据的各聚类中心;计算所述待处理数据中每个聚类对象到各聚类中心的距离,并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别。可选地,所述计算所述待处理数据中每个聚类对象到各聚类中心的距离,并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别之后,还包括:计算各聚类类别的新聚类中心;获取所述每个聚类对象到所述新聚类中心的距离,并以最小距离将各聚类对象分类到对应的新聚类中心所属的聚类类别;迭代计算所述各聚类类别的新聚类中心指定次数,直至各聚类类别的新聚类中心的变化距离在预设范围内。可选地,所述结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心,包括:判断所述各聚类类别的新聚类中心的迭代计算次数是否达到最大迭代次数;若所述各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数,则筛选出纯度大于预设的初始筛选纯度的第一聚类类别;保存并输出所述第一聚类类别的聚类中心。可选地,所述若所述各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数,则筛选出纯度大于预设的初始筛选纯度的第一聚类类别之后,保存所述第一聚类类别的聚类中心之前,还包括:若判断存在纯度小于所述初始筛选纯度的第二聚类类别,则继续迭代计算所述第二聚类类别的新聚类中心;若所述第二聚类类别纯度达到所述初始筛选纯度,则保存并输出所述第二聚类类别的聚类中心。可选地,所述若所述各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数,则筛选出纯度大于预设的初始筛选纯度的第一聚类类别之后,还包括:若判断所述第一聚类类别的数量为零,则将所述初始筛选纯度下调指定数值;其中,下调后的筛选纯度大于指定类别筛选纯度基准;选取纯度达到当前筛选纯度的第三聚类类别;保存并输出所述第三聚类类别的聚类中心。可选地,所述若判断所述第一聚类类别的数量为零,则将所述初始筛选纯度下调指定数值之后,还包括:若判断存在纯度小于当前筛选纯度的第四聚类类别,则继续迭代计算所述第四聚类类别的新聚类中心;若所述第四聚类类别纯度达到当前筛选纯度,则保存并输出所述第四聚类类别的聚类中心。可选地,所述选取纯度大于当前筛选纯度的第三聚类类别之后,还包括:若判断所述第三聚类类别的数量为零,则执行至少一次基于当前筛选纯度下调指定数值、以及获取纯度达到新筛选纯度的聚类类别的步骤;若在任意一次基于当前筛选纯度下调指定数值的之后,判断此次下调后的筛选纯度小于所述指定类别筛选纯度基准,则保存并输出当前各聚类类别的聚类中心。可选地,所述判断所述各聚类类别的新聚类中心的迭代计算次数是否达到最大迭代次数之后,还包括:若所述各聚类类别的新聚类中心的迭代计算次数达到最大迭代次数,则将最后一次迭代计算时的各聚类类别作为最终聚类类别,保存并输出所述最终聚类类别的聚类中心。可选地,所述计算各聚类类别的纯度,包括:对于任一聚类类别,基于该聚类类别的所有聚类对象筛选出指定比例的第一聚类对象;分别获取与各所述第一聚类对象相邻的预设数量的第二聚类对象;基于所述第二聚类对象的类别属性计算所述聚类类别的纯度。可选地,所述计算各聚类类别的纯度,包括:结合KNN方法通过以下公式计算各聚类类别的纯度:其中,purityi表示聚类类别i的纯度;classi表示聚类类别i;knny表示样本y的k近邻;NUM(x)表示在聚类类别i中所有聚类对象取k近邻的聚类对象总数;NUM(x∈classi)表示所述聚类对象总数中属于聚类类别i的聚类对象数。根据本专利技术的另一个方面,还提供了一种聚类装置,包括:获取模块,获取包括多个聚类对象的待处理数据以及所述待处理数据的指定目标类别数;其中,所述待处理数据包括多媒体数据、文本数据和/或用户数据;聚类模块,配置为依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别;计算模块,配置为计算各聚类类别的纯度;确认模块,配置为结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心。可选地,所述聚类模块包括:初始化单元,配置为基于所述指定目标类别数随机初始化所述待处理数据的各聚类中心;第一分类单元,配置为计算所述待处理数据中每个聚类对象到各聚类中心的距离,并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别。可选地,所述聚类模块还包括:迭代计算单元,配置为计算各聚类类别的新聚类中心;获取所述每个聚类对象到所述新聚类中心的距离,并以最小距离将各聚类对象分类到对应的新聚类中心所属的聚类类别;迭代计算所述各聚类类别的新聚类中心指定次数,直至各聚类类别的新聚类中心的变化距离在预设范围内。可选地,所述确认模块包括:迭代次数判断单元,配置为判断所述各聚类类别的新聚类中心的迭代计算次数是否达到最大迭代次数;筛选单元,配置为当所述各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数时,筛选出纯度大于预设的初始筛选纯度的第一聚类类别;输出单元,配置为保存并输出所述第一聚类类别的聚类中心。可选地,所述筛选单元,还配置为在筛选出纯度大于预设的初始筛选纯度的第一聚类类别之后,判断存在纯度小于所述初始筛选纯度的第二聚类类别时,继续迭代计算所述第二聚类类别的新聚类中心;所述输出单元,还配置为当所述第二聚类类别纯度达到所述初始筛选纯度时,保存并输出所述第二聚类类别的聚类中心。可选地,所述筛选单元,还配置为判断所述第一聚类类别的数量为零时,将所述初始筛选纯度下调指定数值;其中,下调后的筛选纯度大于指定类别筛选纯度基准;所述输出单元,还配置为选取纯度达到当前筛选纯度的第三聚类类别,保存并输出所述第三聚类类别的聚类中心。可选地,所述筛选单元,还配置为在将所述初始筛选纯度下调指定数值之后,当判断存在纯度小于当前筛选纯度的第四聚类类别时,继续迭代计算所述第四聚类类别的新聚类中本文档来自技高网...

【技术保护点】
1.一种聚类方法,包括:获取包括多个聚类对象的待处理数据以及所述待处理数据的指定目标类别数;其中,所述待处理数据包括多媒体数据、文本数据和/或用户数据;依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别;计算各聚类类别的纯度;结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心。

【技术特征摘要】
1.一种聚类方法,包括:获取包括多个聚类对象的待处理数据以及所述待处理数据的指定目标类别数;其中,所述待处理数据包括多媒体数据、文本数据和/或用户数据;依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别;计算各聚类类别的纯度;结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心。2.根据权利要求1所述的方法,其中,所述依据各聚类对象的类别属性将所述待处理数据中的各聚类对象进行分类,获得所述指定目标类别数的聚类类别,包括:基于所述指定目标类别数随机初始化所述待处理数据的各聚类中心;计算所述待处理数据中每个聚类对象到各聚类中心的距离,并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别。3.根据权利要求2所述的方法,其中,所述计算所述待处理数据中每个聚类对象到各聚类中心的距离,并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别之后,还包括:计算各聚类类别的新聚类中心;获取所述每个聚类对象到所述新聚类中心的距离,并以最小距离将各聚类对象分类到对应的新聚类中心所属的聚类类别;迭代计算所述各聚类类别的新聚类中心指定次数,直至各聚类类别的新聚类中心的变化距离在预设范围内。4.根据权利要求3所述的方法,其中,所述结合所述各聚类类别的纯度确认所述待处理数据的最终聚类类别,并输出各最终聚类类别的聚类中心,包括:判断所述各聚类类别的新聚类中心的迭代计算次数是否达到最大迭代次数;若所述各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数,则筛选出纯度大于预设的初始筛选纯度的第一聚类类别;保存并输出所述第一聚类类别的聚类中心。5.根据权利要求4所述的方法,其中,所述若所述各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数,则筛选出纯度大于预设的初始筛选纯度的第一聚类类别之后,保存所述第一聚...

【专利技术属性】
技术研发人员:罗玄黄君实陈强
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1