用户通信消费数据的标签聚类的方法和装置制造方法及图纸

技术编号:15499960 阅读:91 留言:0更新日期:2017-06-03 22:02
本申请涉及一种标签聚类的方法和装置。该方法包括:从多个标签中选择初始标签,以该初始标签形成子标签簇,其中初始标签为与多个标签中其它标签的平均相似度最小的标签;执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得新标签后以该新标签更新子标签簇,直到新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止;将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。

Method and device for label clustering

The invention relates to a method and a device for label clustering. The method comprises: selecting initial tags from multiple tags, the initial label form sub label clusters, in which the initial labels for other labels with multiple labels in the average minimum similarity label; performing iterative processing to obtain the label with all sub labels within the cluster average similarity value is less than or equal to the preset minimum and new label the threshold, and get a new label after each update with the new label label clusters, the average similarity of all labels until the new label and label clusters is greater than the preset threshold value; sub cluster labels will be determined by the average similarity and sub label cluster of all values of the tag label is greater than the preset threshold before all tags the formation of the cluster as the target label.

【技术实现步骤摘要】
标签聚类的方法和装置
本申请涉及大数据挖掘领域,更具体地,涉及标签聚类的方法和装置。
技术介绍
随着互联网技术的快速发展,数据挖掘特别是对大数据的挖掘已经成为电信运营商进行市场营销和决策支持的重要手段。在过去,由于事件的种类和用户数量都很少,数据量也不大,现有的数据标签聚类方法能够满足针对时间及空间的性能需求。但随着大数据技术的引入,数据量和标签种类出现了几何倍数的增长,现有的数据标签聚类方法所消耗的时间和空间大幅增长,已经难以满足行业的需求。
技术实现思路
根据本申请的一个方面,提供了一种标签聚类的方法,包括:从多个标签中选择初始标签,以所述初始标签形成子标签簇,其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签;执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得所述新标签后以该新标签更新所述子标签簇,直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止;将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。根据本申请的另一方面,提供了一种标签聚类的装置,包括:初始标签确定单元,被配置为:从多个标签中选择初始标签,以所述初始标签形成子标签簇,其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签;新标签确定单元,被配置为:执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得所述新标签后以该新标签更新所述子标签簇,直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止;标签簇确定单元,被配置为:将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。根据本申请实施例的标签聚类的方法和装置提供了一种可以对分散存储在数据库中的元素或对象进行聚类划分,从而找出具有相似特征的对象的集合。附图说明从下面结合附图对本专利技术的具体实施方式的描述中可以更好地理解本专利技术,其中,相似的标号指示相同或功能类似的元件:图1示出根据本专利技术的实施例的标签聚类的方法的流程图。图2示出根据本专利技术的实施例的标签聚类的装置的框图。图3是能够实现根据本专利技术实施例的标签聚类的方法和装置的计算设备的示例性硬件架构的结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面将详细描述本专利技术的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本专利技术的全面理解。但是,对于本领域技术人员来说很明显的是,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术的更好的理解。本专利技术决不限于下面所提出的任何具体配置和算法,而是在不脱离本专利技术的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本专利技术造成不必要的模糊。现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本专利技术更全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中,为了清晰,可能夸大了区域和层的厚度。在图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本专利技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本专利技术的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料等。在其它情况下,不详细示出或描述公知结构、材料或者操作以避免模糊本专利技术的主要技术创意。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。对大数据标签进行挖掘,需要对标签进行分类,即对大数据标签进行聚类划分。现有的数据标签聚类方法主要包括k-means算法、层次聚类算法、SOM算法、FCM算法四种。在上述四种聚类算法中存在固定缺点:k-means聚类算法的初始点选择不稳定,是随机选取的,这就引起聚类结果的不稳定;层次聚类虽然不需要确定分类数,但是一旦一个分裂或者合并被执行,就不能修正,聚类质量受限制;FCM对初始聚类中心敏感,需要人为确定聚类数,容易陷入局部最优解;SOM与实际大脑处理有很强的理论联系,但是处理时间较长,需要进一步研究使其适应大型数据库。下面将详细描述本专利技术的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本专利技术的全面理解。但是,对于本领域技术人员来说很明显的是,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术的更好的理解。本专利技术决不限于下面所提出的任何具体配置和算法,而是在不脱离本专利技术的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本专利技术造成不必要的模糊。本专利技术提供了一种标签聚类的方法和装置,能够对分散存储在数据库中的元素或对象进行聚类划分,从而找出具有相似特征的对象的集合。下面结合附图对根据本专利技术实施例的执行标签聚类的方法和装置进行详细描述。图1示出根据本专利技术的实施例的标签聚类的方法。如图1所示,标签聚类方法100包括:S102,从多个标签中选择初始标签,以该初始标签形成子标签簇,其中该初始标签为与所述多个标签中其它标签的平均相似度最小的标签;S104,执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得该新标签后以该新标签更新上述子标签簇,直到新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止;以及S106,将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。在方法100中涉及的标签是由与该标签相关的若干事件组成的事件集合。例如,在电信运营商维护的关于用户的数据库中,可将每个用户看做一个标签,每个用户的行为或状态可以看作与该用户所对应的标签相关的事件。在该示例中,与标签相关的事件(即,用户的行为或状态)例如可以是(但不限于)每户每月通话时间(minutesofusage,MOU)、每户每月上网流量(dataflowofusage)、每户每月平均收入(AverageRevenuePerUser,ARPU)、位置信息(经纬度坐标)、城市信息、话费余额、通信费用、通信详单等。在一些实施例中,与标签相关的事件以数值方式表示并被存储在数据库中。在另一些实施例中,与标签相关的事件以文本形式表示并被存储在数据库中。在这种情形中,可以在数据库中维护文本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201611246029.html" title="用户通信消费数据的标签聚类的方法和装置原文来自X技术">用户通信消费数据的标签聚类的方法和装置</a>

【技术保护点】
一种标签聚类的方法,包括:从多个标签中选择初始标签,以所述初始标签形成子标签簇,其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签;执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得所述新标签后以该新标签更新所述子标签簇,直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止;将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。

【技术特征摘要】
1.一种标签聚类的方法,包括:从多个标签中选择初始标签,以所述初始标签形成子标签簇,其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签;执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签,并在每次获得所述新标签后以该新标签更新所述子标签簇,直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止;将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。2.根据权利要求1所述的方法,其中,所述预设阈值根据聚类精确度的高低被确定。3.根据权利要求1所述的方法,其中,所述多个标签中的每个标签包括与该标签相关的多个事件,每个事件具有相应的重要性权重,并且所述每个事件的重要性权重的加和为1。4.根据权利要求3所述的方法,其中,所述新标签与所述子标签簇内的任一标签的相似度值为所述新标签与所述任一标签的事件相似度之和,其中所述事件相似度为所述新标签的该事件与所述任一标签的该事件之差乘以该事件对应的重要性权重。5.根据权利要求3所述的方法,其中,所述事件至少包括每户每月通话时间(MOU)、每户每月上网流量(DOU)、每户每月平均收入(ARPU)、经纬度坐标中的一者。6.一种标签聚类的装置,包括:初始标签确定单元,...

【专利技术属性】
技术研发人员:董琦琦郑建兵陈劼
申请(专利权)人:中国移动通信集团江苏有限公司中国移动通信集团公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1