一种样本聚类方法及装置制造方法及图纸

技术编号：21658636 阅读：26 留言：0更新日期：2019-07-20 05:38

本说明书实施例提供一种样本聚类方法及装置。所述方法包括：首先，获取多个样本的属性特征构成的特征向量；其次，基于所述多个样本的特征向量，确定所述多个样本的两两样本间相似度；接着，基于所述多个样本的两两样本间相似度，确定所述多个样本的网络结构；其中，所述多个样本作为所述网络结构中的节点，两两节点之间的连接边信息基于该两两节点所对应的两两样本间相似度而确定；然后，基于所述网络结构，采用无监督嵌入处理，得到所述多个样本各自的图节点向量；之后，基于所述多个样本的图节点向量，对所述多个样本进行聚类。

A Sample Clustering Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
一种样本聚类方法及装置
本说明书一个或多个实施例涉及计算机信息处理领域，尤其涉及一种样本聚类方法及装置。
技术介绍
在进行数据分析，特别是大数据分析时，聚类是一种常用的分析方法。直观上讲，聚类是指将相关高的样本聚在一起，从而形成一个样本类簇(cluster)。聚类可以把相关高的样本划分到一个样本类簇，使得同一个类簇内的样本相关度较高，而不同类簇之间的样本相关度较低。在很多场景中，都需要对样本进行聚类，例如，对电商用户进行聚类，得到不同类型的人群，进而为特定类型的人群提供针对性的服务，可以有效的改善用户体验。因此，提供一种能够对样本进行准确聚类的方法具有重要意义。
技术实现思路
本说明书一个或多个实施例描述了一种样本聚类方法及装置，可以提高样本聚类结果的准确度。根据第一方面，提供了一种样本聚类方法，所述方法包括：获取多个样本的属性特征构成的特征向量；基于所述多个样本的特征向量，确定所述多个样本的两两样本间相似度；基于所述多个样本的两两样本间相似度，确定所述多个样本的网络结构；其中，所述多个样本作为所述网络结构中的节点，两两节点之间的连接边信息基于该两两节点所对应的两两样本间相似度而确定；基于所述网络结构，采用无监督嵌入处理，得到所述多个样本各自的图节点向量；基于所述多个样本的图节点向量，对所述多个样本进行聚类。在一个实施例中，所述样本包括用户样本，所述属性特征包括用户样本的注册信息和/或行为信息。在一个实施例中，所述基于所述多个样本的特征向量，确定所述多个样本的两两样本间相似度，包括：对所述多个样本的特征向量进行归一化处理；基于归一化处理后的所述多个样本的特征向...

【技术保护点】
1.一种样本聚类方法，所述方法包括：获取多个样本的属性特征构成的特征向量；基于所述多个样本的特征向量，确定所述多个样本的两两样本间相似度；基于所述多个样本的两两样本间相似度，确定所述多个样本的网络结构；其中，所述多个样本作为所述网络结构中的节点，两两节点之间的连接边信息基于该两两节点所对应的两两样本间相似度而确定；基于所述网络结构，采用无监督嵌入处理，得到所述多个样本各自的图节点向量；基于所述多个样本的图节点向量，对所述多个样本进行聚类。

【技术特征摘要】
1.一种样本聚类方法，所述方法包括：获取多个样本的属性特征构成的特征向量；基于所述多个样本的特征向量，确定所述多个样本的两两样本间相似度；基于所述多个样本的两两样本间相似度，确定所述多个样本的网络结构；其中，所述多个样本作为所述网络结构中的节点，两两节点之间的连接边信息基于该两两节点所对应的两两样本间相似度而确定；基于所述网络结构，采用无监督嵌入处理，得到所述多个样本各自的图节点向量；基于所述多个样本的图节点向量，对所述多个样本进行聚类。2.根据权利要求1所述的方法，所述样本包括用户样本，所述属性特征包括用户样本的注册信息和/或行为信息。3.根据权利要求1所述的方法，所述基于所述多个样本的特征向量，确定所述多个样本的两两样本间相似度，包括：对所述多个样本的特征向量进行归一化处理；基于归一化处理后的所述多个样本的特征向量，计算所述多个样本的两两样本间余弦相似度或欧式距离，获得所述多个样本的两两样本间相似度。4.根据权利要求1所述的方法，所述基于所述多个样本的两两样本间相似度，确定所述多个样本的网络结构，包括：按照从大到小的顺序，对所述多个样本的两两样本间相似度进行排序；在排序结果中前M个或前百分之M’的两两样本间相似度对应的样本之间构建连接边，以得到所述多个样本的网络结构；其中，所述前M个或前百分之M’的两两样本间相似度作为各自对应的连接边的权值。5.根据权利要求1所述的方法，所述基于所述多个样本的两两样本间相似度，确定所述多个样本的网络结构，包括：从所述多个样本的两两样本间相似度中确定出第一两两样本间相似度，所述第一两两样本间相似度大于预设阈值；在所述第一两两样本间相似度对应的样本之间构建连接边，以得到所述多个样本的网络结构；其中，所述第一两两样本间相似度作为对应的连接边的权值。6.根据权利要求4或5所述的方法，所述基于所述网络结构，采用无监督嵌入处理，得到所述多个样本各自的图节点向量，包括：对于所述多个样本中的第一样本，基于第一样本和其邻居样本各自的特征向量，分别确定第一样本和其邻居样本各自的初次迭代的图节点向量；对于第一样本，执行多级向量迭代，将多级向量迭代的结果作为该第一样本的图节点向量；其中所述多级向量迭代中的每级向量迭代包括，基于第一样本的上一级迭代的图节点向量，第一样本的邻居样本的上一级迭代的图节点向量，确定第一样本的本次迭代的图节点向量。7.根据权利要求4或5所述的方法，所述基于所述网络结构，采用无监督嵌入处理，得到所述多个样本各自的图节点向量，包括：对于所述多个样本中的第一样本，基于第一样本和其邻居样本各自的特征向量，分别确定第一样本和其邻居样本各自的初次迭代的图节点向量；对于所述第一样本，执行多级向量迭代，将多级向量迭代的结果作为该第一样本的图节点向量；其中所述多级向量迭代中的每级向量迭代包括，基于第一样本的邻居样本的上一级迭代的图节点向量，确定第一样本的本次迭代的图节点向量。8.根据权利要求1所述的方法，所述基于所述网络结构，采用无监督嵌入处理，得到所述多个样本各自的图节点向量，包括：采用deepwalk图嵌入算法或GraRep图嵌入算法，进行嵌入处理，得到所述多个样本各自的图节点向量。9.一种样本聚类装置，所述装置包括：获取单元，配置为获取多个样本的属性特征构成的特征向量；第一确定单元，配置为基于所述多个样本的特征向量，确定所述多个样本的两两样本间相似度；第二确定单元，配置为...

【专利技术属性】
技术研发人员：曹绍升，崔卿，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人