一种对象聚类方法、装置及介质制造方法及图纸

技术编号:27687055 阅读:19 留言:0更新日期:2021-03-17 04:05
本申请公开一种对象聚类方法、装置及介质,本申请通过获取多个对象的指标数据,并进行预聚类,得到预设数量个对象指标数据集和预设数量个对象指标数据集各自对应的主题词分布信息;基于预设数量个对象指标数据集对应的主题词分布信息,分别确定预设数量个聚类指标;基于预设对象关联指标和预设数量个聚类指标,确定目标聚类指标;基于目标聚类指标确定多个对象的指标数据的分布参数;确定多个对象的指标数据的分布参数所服从的先验分布;基于所述分布参数所服从的先验分布和目标聚类指标,对多个对象进行聚类,得到多个对象的对象类别信息,可以实现对数据量庞大、维度复杂的客户数据的客户类别划分。

【技术实现步骤摘要】
一种对象聚类方法、装置及介质
本专利技术涉及数据处理领域,尤其涉及一种对象聚类方法、装置及介质。
技术介绍
随着大数据的不断发展,通过数据挖掘,企业可以发掘对象数据中隐藏的信息,从而有效识别不同类型的客户对象实现精准营销。对象聚类的研究被广泛应用在金融业和通信业中。现有技术中,在训练模型时,难以事先确定对象信息的标签,一般通过K-means算法、K-means算法的改进等聚类算法对对象信息进行聚类。但是这些聚类算法需要人为提前设定聚簇的数量值,且该值的选择会较大程度影响聚类的效果,限制了聚类的准确性。或者使用层次聚类,对对象信息进行聚类,不需要预先设定对象的类别数,但该算法与非层次算法相比在数据量较大时计算速度非常缓慢,并且终止条件不明确,不适用于样本量大、维度复杂的对象信息。
技术实现思路
为了解决上述技术问题,本专利技术提供一种对象聚类方法、装置及介质,可以实现对数据量大且维度复杂的对象指标数据进行聚类,大大提高了对象聚类的准确性和效率。为了达到上述申请的目的,本申请提供了一种对象聚类方法,该方法可以包括:获取多个对象的指标数据;对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;基于预设对象关联指标和所述预设数量个聚类指标,确定目标聚类指标数据;确定狄利克雷过程混合模型中的先验分布;基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息另一方面,本申请还提供一种对象聚类装置,该装置包括:数据获取模块,用于获取多个对象的指标数据;预聚类模块,用于对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;聚类指标确定模块,用于基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;目标聚类指标确定模块,用于基于预设对象关联指标和所述预设数量个聚类指标,确定所述目标聚类指标;先验分布确定模块,用于确定狄利克雷过程混合模型中的先验分布;聚类模块,用于基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息。另外,本申请还提供一种存储介质,该存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一项对象聚类方法。实施本申请,具有如下有益效果:本申请通过获取多个对象的指标数据;对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;基于预设对象关联指标和所述预设数量个聚类指标,确定目标聚类指标数据;确定狄利克雷过程混合模型中的先验分布;基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息,可以实现对数据量庞大、维度复杂的对象数据的对象类别划分。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1为本申请实施例提供的一种对象聚类方法的流程示意图;图2为本申请实施例提供的一种获取多个对象的指标数据的流程示意图;图3为本申请实施例提供的一种利用狄利克雷混合模型进行聚类的流程示意图;图4为本申请实施例提供的一种确定先验分布的流程示意图;图5为本申请另一实施例提供的一种获取多个对象的指标数据的流程示意图;图6为本申请另一实施例提供的一种利用狄利克雷混合模型进行聚类的流程示意图;图7为本申请另一实施例提供的一种利用狄利克雷混合模型进行聚类的流程示意图;图8为本申请实施例提供的一种对象聚类装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了实现本申请的技术方案,让更多的工程技术工作者容易了解和应用本申请,将结合具体的实施例,进一步阐述本申请的工作原理。本申请可应用于数据处理领域,尤其在金融行业或通信行业可以应用于对客户进行聚类。以下介绍本申请一种对象聚类方法的实施例,图1是本申请实施例提供的一种对象聚类方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。具体的,如图1所示,该方法可以包括:S101:获取多个对象的指标数据。具体的,多个对象的指标数据是指多个对象各自对应的无量纲的标准化数据。在一些实施例中,如图2所示,获取多个对象的指标数据可以包括:S1011:获取多个对象的源数据。具体的,多个对象的源数据可以是从大数据中心平台采集的对象信息原始数据,多个对象的源数据可以具有不同的量纲和量纲单位。S1013:利用离差标准化函数对多个对象的源数据进行归一化处理,得到多个对象的指标数据。由于多个对象的源数据可以具有不同的量纲和量纲单位,在进行数据分析时,可以对多个对象的源数据进行归一化处理,消除差异数据对数据分析的影响。利用Min-MaxNormalization离差标准化函数可以将多个对象的源数据处理为同一数量级的数据,得到多个对象的指标数据。离差标准化函数的具体公式如下:<本文档来自技高网
...

【技术保护点】
1.一种对象聚类方法,其特征在于,所述方法包括:/n获取多个对象的指标数据;/n对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;/n基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;/n基于预设对象关联指标和所述预设数量个聚类指标,确定目标聚类指标数据;/n确定狄利克雷过程混合模型中的先验分布;/n基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息。/n

【技术特征摘要】
1.一种对象聚类方法,其特征在于,所述方法包括:
获取多个对象的指标数据;
对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;
基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;
基于预设对象关联指标和所述预设数量个聚类指标,确定目标聚类指标数据;
确定狄利克雷过程混合模型中的先验分布;
基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息。


2.根据权利要求1所述的方法,其特征在于,所述确定狄利克雷过程混合模型中的先验分布包括:
构建所述多个对象的指标数据的分布参数所服从的先验分布,所述分布参数所服从的先验分布为狄利克雷过程;
确定所述隐变量所服从的先验分布。


3.根据权利要求2所述的方法,其特征在于,所述基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息包括:
构建所述隐变量所服从的变分分布,所述隐变量包括所述多个对象的对象类别信息和独立变量,所述变分分布包含变分参数;
更新所述变分参数,直至所述隐变量所服从的变分分布与隐变量所服从的后验分布的相对熵满足第一预设条件,所述隐变量所服从的后验分布为与所述隐变量所服从的先验分布对应的后验分布;
基于更新后的隐变量所服从的变分分布和所述目标聚类指标,对所述隐变量所服从的后验分布求近似解,得到所述多个对象的对象类别信息。


4.根据权利要求3所述的方法,其特征在于,所述隐变量所服从的变分分布包括包含服从于贝塔分布的独立变量、服从于所述预设基分布的独立变量和服从于多项式分布的对象类别变量的变分分布。


5.根据权利要求1所述的方法,其特征在于,所述基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息之后,所述方法还包括:
利用轮廓系数对所述多个对象的对象类别信息进行分析;
确定每个对象的分析结果是否满足第二预设条件;
当所述多个对象的分析结果均满足所述第二预设条件时,确定所述多个对象各自对应的对象类别信息为所述多...

【专利技术属性】
技术研发人员:钟文良陈文静刘喆一沈玮
申请(专利权)人:粤开证券股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1