数据聚类的处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:25440983 阅读:24 留言:0更新日期:2020-08-28 22:28
本申请涉及人工智能领域内的一种数据聚类的处理方法、装置、计算机设备和存储介质。所述方法包括:获取数据样本;所述数据样本是聚类业务中聚类对象的样本;通过聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;确定所述数据样本和所述样本特征的相关性;确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;至少根据所述相关性和所述评分值调整所述聚类模型;利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。采用本方法能够在无需人工标注的情况下有效提高数据聚类的精度。

【技术实现步骤摘要】
数据聚类的处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种数据聚类的处理方法、装置、计算机设备和存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能软件技术的其中一个重要方向是机器学习。聚类分析是机器学习的一种常用技术。图像、文本、语音等数据类型,均可以作为聚类的对象。通过聚类,可以将相似的对象归为同一类别,将不相似的对象归为不同类别。在传统的方式中,通过学习数据样本的标签特征,将标签特征作为聚类结果。但是对于互联网中海量的数据,如果进行人工标注将会消耗大量的人力资源。因此,如何在没有人工标注的情况下准确完成数据聚类成为目前需要解决的一个技术问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够在没有人工标注的情况下准确完成数据聚类的数据聚类的处理方法、装置、计算机设备和存储介质。一种数据聚类的处理方法,所述方法包括:获取数据样本;所述数据样本是聚类业务本文档来自技高网...

【技术保护点】
1.一种数据聚类的处理方法,其特征在于,所述方法包括:/n获取数据样本;所述数据样本是聚类业务中聚类对象的样本;/n通过聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;/n确定所述数据样本和所述样本特征的相关性;/n确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;/n至少根据所述相关性和所述评分值调整所述聚类模型;/n利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。/n

【技术特征摘要】
1.一种数据聚类的处理方法,其特征在于,所述方法包括:
获取数据样本;所述数据样本是聚类业务中聚类对象的样本;
通过聚类模型,映射所述数据样本为样本特征;所述样本特征包括样本类别特征和样本类内风格特征;
确定所述数据样本和所述样本特征的相关性;
确定所述样本特征服从于先验分布的评分值;所述先验分布包括所述样本类别特征对应的类别先验分布,和所述样本类内风格特征对应的类内风格先验分布;
至少根据所述相关性和所述评分值调整所述聚类模型;
利用调整后的聚类模型对聚类业务中的待聚类数据进行聚类。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述数据样本进行增强处理,通过所述聚类模型,映射得到增强后的样本特征;所述增强后的样本特征包括增强后的样本类别特征和增强后的样本类内风格特征;
确定所述样本类别特征和所述增强后的样本类别特征的类别特征差异;
所述至少根据所述相关性和所述评分值调整所述聚类模型包括:
根据所述相关性、所述类别特征差异和所述评分值调整所述聚类模型。


3.根据权利要求1所述的方法,其特征在于,所述数据样本包括第一样本和第二样本;所述确定所述数据样本和所述样本特征的相关性包括:
获取第一样本向量,利用所述第一样本的样本特征与所述第一样本向量进行拼接,生成拼接后的第一样本向量;
利用所述第二样本的样本特征与所述第一样本向量进行拼接,生成拼接后的第二样本向量;
通过判别器识别所述拼接后的第一样本向量与所述拼接后的第二样本向量之间的相关性,得到所述第一样本与所述第一样本的样本特征之间的相关性。


4.根据权利要求1所述的方法,其特征在于,所述确定所述样本特征服从于先验分布的评分值包括:
通过评价器确定所述样本类别特征对应的类别先验分布结果;
通过所述评价器确定所述样本类内风格特征对应的类内风格先验分布结果;
通过所述评价器对所述类别分布结果以及所述类内风格先验分布结果进行评分,得到所述样本特征服从于先验分布的评分值。


5.根据权利要求4所述的方法,其特征在于,所述类内风格先验分布包括高斯分布,所述通过所述评价器对所述类别先验分布结果以及所述类内风格先验分布结果进行评分包括:
对所述样本类别特征的类别分布向量与所述样本类内风格特征的高斯分布向量进行拼接,生成先验分布向量;
通过所述评价器对所述先验分布向量进行评分,得到所述样本特征服从于先验分布的评分值。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过判别器确定所述数据样本和所述样本特征的相关性;
通过评价器确定所述样本特征服从于先验分布的评分值;
所述至少根据所述相关性和所述评分值调整所述聚类模型包括:
至少根据所述相关性和所述评分值对所述聚类模型、所述判别器和所述评价器进行交替优化。


7.根据权利要求6所述的方法,其特征在于,所述至少根据所述相关性和所述评分值对所述聚类模型、所述判别器和所述评价器进行交替优化包括:
先根据所述评分值对所述评价器的网络参数进行至少一次优化;
再至少根据所述相关性和所述评分值对所述聚类模型的网络参数进行优化,及根据所述相关性对所述判别器的网络参数进行优化。


8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取互信息损失函数及权重、先验分布损失函数...

【专利技术属性】
技术研发人员:卢东焕赵俊杰马锴郑冶枫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1