【技术实现步骤摘要】
一种对象聚类方法、装置及介质
本专利技术涉及数据处理领域,尤其涉及一种对象聚类方法、装置及介质。
技术介绍
随着大数据的不断发展,通过数据挖掘,企业可以发掘对象数据中隐藏的信息,从而有效识别不同类型的客户对象实现精准营销。对象聚类的研究被广泛应用在金融业和通信业中。现有技术中,在训练模型时,难以事先确定对象信息的标签,一般通过K-means算法、K-means算法的改进等聚类算法对对象信息进行聚类。但是这些聚类算法需要人为提前设定聚簇的数量值,且该值的选择会较大程度影响聚类的效果,限制了聚类的准确性。或者使用层次聚类,对对象信息进行聚类,不需要预先设定对象的类别数,但该算法与非层次算法相比在数据量较大时计算速度非常缓慢,并且终止条件不明确,不适用于样本量大、维度复杂的对象信息。
技术实现思路
为了解决上述技术问题,本专利技术提供一种对象聚类方法、装置及介质,可以实现对数据量大且维度复杂的对象指标数据进行聚类,大大提高了对象聚类的准确性和效率。为了达到上述申请的目的,本申请提供了一种对象聚类方法,该方法可以包括:获取多个对象的指标数据;对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;基于预设对象关联指标和所述预设数量个聚类指标,确定目标聚类指标数据;确定狄利克雷过程 ...
【技术保护点】
1.一种对象聚类方法,其特征在于,所述方法包括:/n获取多个对象的指标数据;/n对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;/n基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;/n基于预设对象关联指标和所述预设数量个聚类指标,确定目标聚类指标数据;/n确定狄利克雷过程混合模型中的先验分布;/n基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息。/n
【技术特征摘要】
1.一种对象聚类方法,其特征在于,所述方法包括:
获取多个对象的指标数据;
对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;
基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;
基于预设对象关联指标和所述预设数量个聚类指标,确定目标聚类指标数据;
确定狄利克雷过程混合模型中的先验分布;
基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息。
2.根据权利要求1所述的方法,其特征在于,所述确定狄利克雷过程混合模型中的先验分布包括:
构建所述多个对象的指标数据的分布参数所服从的先验分布,所述分布参数所服从的先验分布为狄利克雷过程;
确定所述隐变量所服从的先验分布。
3.根据权利要求2所述的方法,其特征在于,所述基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息包括:
构建所述隐变量所服从的变分分布,所述隐变量包括所述多个对象的对象类别信息和独立变量,所述变分分布包含变分参数;
更新所述变分参数,直至所述隐变量所服从的变分分布与隐变量所服从的后验分布的相对熵满足第一预设条件,所述隐变量所服从的后验分布为与所述隐变量所服从的先验分布对应的后验分布;
基于更新后的隐变量所服从的变分分布和所述目标聚类指标,对所述隐变量所服从的后验分布求近似解,得到所述多个对象的对象类别信息。
4.根据权利要求3所述的方法,其特征在于,所述隐变量所服从的变分分布包括包含服从于贝塔分布的独立变量、服从于所述预设基分布的独立变量和服从于多项式分布的对象类别变量的变分分布。
5.根据权利要求1所述的方法,其特征在于,所述基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息之后,所述方法还包括:
利用轮廓系数对所述多个对象的对象类别信息进行分析;
确定每个对象的分析结果是否满足第二预设条件;
当所述多个对象的分析结果均满足所述第二预设条件时,确定所述多个对象各自对应的对象类别信息为所述多...
【专利技术属性】
技术研发人员:钟文良,陈文静,刘喆一,沈玮,
申请(专利权)人:粤开证券股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。