The invention relates to a method and a device for label clustering. The method comprises: selecting initial tags from multiple tags, the initial label form sub label clusters, in which the initial labels for other labels with multiple labels in the average minimum similarity label; performing iterative processing to obtain the label with all sub labels within the cluster average similarity value is less than or equal to the preset minimum and new label the threshold, and get a new label after each update with the new label label clusters, the average similarity of all labels until the new label and label clusters is greater than the preset threshold value; sub cluster labels will be determined by the average similarity and sub label cluster of all values of the tag label is greater than the preset threshold before all tags the formation of the cluster as the target label.
【技术实现步骤摘要】
标签聚类的方法和装置
本申请涉及大数据挖掘领域,更具体地,涉及标签聚类的方法和装置。
技术介绍
随着互联网技术的快速发展,数据挖掘特别是对大数据的挖掘已经成为电信运营商进行市场营销和决策支持的重要手段。在过去,由于事件的种类和用户数量都很少,数据量也不大,现有的数据标签聚类方法能够满足针对时间及空间的性能需求。但随着大数据技术的引入,数据量和标签种类出现了几何倍数的增长,现有的数据标签聚类方法所消耗的时间和空间大幅增长,已经难以满足行业的需求。
技术实现思路
根据本申请的一个方面,提供了一种标签聚类的方法,包括:从多个标签中选择初始标签,以所述初始标签形成子标签簇,其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签;执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得所述新标签后以该新标签更新所述子标签簇,直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止;将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。根据本申请的另一方面,提供了一种标签聚类的装置,包括:初始标签确定单元,被配置为:从多个标签中选择初始标签,以所述初始标签形成子标签簇,其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签;新标签确定单元,被配置为:执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得所述新标签后以该新标签更新所述子标签簇,直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止 ...
【技术保护点】
一种标签聚类的方法,包括:从多个标签中选择初始标签,以所述初始标签形成子标签簇,其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签;执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得所述新标签后以该新标签更新所述子标签簇,直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止;将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。
【技术特征摘要】
1.一种标签聚类的方法,包括:从多个标签中选择初始标签,以所述初始标签形成子标签簇,其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签;执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得所述新标签后以该新标签更新所述子标签簇,直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止;将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。2.根据权利要求1所述的方法,其中,所述预设阈值根据聚类精确度的高低被确定。3.根据权利要求1所述的方法,其中,所述多个标签中的每个标签包括与该标签相关的多个事件,每个事件具有相应的重要性权重,并且所述每个事件的重要性权重的加和为1。4.根据权利要求3所述的方法,其中,所述新标签与所述子标签簇内的任一标签的相似度值为所述新标签与所述任一标签的事件相似度之和,其中所述事件相似度为所述新标签的该事件与所述任一标签的该事件之差乘以该事件对应的重要性权重。5.根据权利要求3所述的方法,其中,所述事件至少包括每户每月通话时间(MOU)、每户每月上网流量(DOU)、每户每月平均收入(ARPU)、经纬度坐标中的一者。6.一种标签聚类的装置,包括:初始标签确定单元,...
【专利技术属性】
技术研发人员:董琦琦,郑建兵,陈劼,
申请(专利权)人:中国移动通信集团江苏有限公司,中国移动通信集团公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。