一种样本聚类方法及装置制造方法及图纸

技术编号:21658636 阅读:26 留言:0更新日期:2019-07-20 05:38
本说明书实施例提供一种样本聚类方法及装置。所述方法包括:首先,获取多个样本的属性特征构成的特征向量;其次,基于所述多个样本的特征向量,确定所述多个样本的两两样本间相似度;接着,基于所述多个样本的两两样本间相似度,确定所述多个样本的网络结构;其中,所述多个样本作为所述网络结构中的节点,两两节点之间的连接边信息基于该两两节点所对应的两两样本间相似度而确定;然后,基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量;之后,基于所述多个样本的图节点向量,对所述多个样本进行聚类。

A Sample Clustering Method and Device

【技术实现步骤摘要】
一种样本聚类方法及装置
本说明书一个或多个实施例涉及计算机信息处理领域,尤其涉及一种样本聚类方法及装置。
技术介绍
在进行数据分析,特别是大数据分析时,聚类是一种常用的分析方法。直观上讲,聚类是指将相关高的样本聚在一起,从而形成一个样本类簇(cluster)。聚类可以把相关高的样本划分到一个样本类簇,使得同一个类簇内的样本相关度较高,而不同类簇之间的样本相关度较低。在很多场景中,都需要对样本进行聚类,例如,对电商用户进行聚类,得到不同类型的人群,进而为特定类型的人群提供针对性的服务,可以有效的改善用户体验。因此,提供一种能够对样本进行准确聚类的方法具有重要意义。
技术实现思路
本说明书一个或多个实施例描述了一种样本聚类方法及装置,可以提高样本聚类结果的准确度。根据第一方面,提供了一种样本聚类方法,所述方法包括:获取多个样本的属性特征构成的特征向量;基于所述多个样本的特征向量,确定所述多个样本的两两样本间相似度;基于所述多个样本的两两样本间相似度,确定所述多个样本的网络结构;其中,所述多个样本作为所述网络结构中的节点,两两节点之间的连接边信息基于该两两节点所对应的两两样本间相似度而确定;基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量;基于所述多个样本的图节点向量,对所述多个样本进行聚类。在一个实施例中,所述样本包括用户样本,所述属性特征包括用户样本的注册信息和/或行为信息。在一个实施例中,所述基于所述多个样本的特征向量,确定所述多个样本的两两样本间相似度,包括:对所述多个样本的特征向量进行归一化处理;基于归一化处理后的所述多个样本的特征向量,计算所述多个样本的两两样本间余弦相似度或欧式距离,获得所述多个样本的两两样本间相似度。在一个实施例中,所述基于所述多个样本的两两样本间相似度,确定所述多个样本的网络结构,包括:按照从大到小的顺序,对所述多个样本的两两样本间相似度进行排序;在排序结果中前M个或前百分之M’的两两样本间相似度对应的样本之间构建连接边,以得到所述多个样本的网络结构;其中,所述前M个或前百分之M’的两两样本间相似度作为各自对应的连接边的权值。在一个实施例中,所述基于所述多个样本的两两样本间相似度,确定所述多个样本的网络结构,包括:从所述多个样本的两两样本间相似度中确定出第一两两样本间相似度,所述第一两两样本间相似度大于预设阈值;在所述第一两两样本间相似度对应的样本之间构建连接边,以得到所述多个样本的网络结构;其中,所述第一两两样本间相似度作为对应的连接边的权值。在一个示例中,所述基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量,包括:对于所述多个样本中的第一样本,基于第一样本和其邻居样本各自的特征向量,分别确定第一样本和其邻居样本各自的初次迭代的图节点向量;对于第一样本,执行多级向量迭代,将多级向量迭代的结果作为该第一样本的图节点向量;其中所述多级向量迭代中的每级向量迭代包括,基于第一样本的上一级迭代的图节点向量和第一样本的邻居样本的上一级迭代的图节点向量,确定第一样本的本次迭代的图节点向量。在一个示例中,所述基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量,包括:对于所述多个样本中的第一样本,基于第一样本和其邻居样本各自的特征向量,分别确定第一样本和其邻居样本各自的初次迭代的图节点向量;对于所述第一样本,执行多级向量迭代,将多级向量迭代的结果作为该第一样本的图节点向量;其中所述多级向量迭代中的每级向量迭代包括,基于第一样本的邻居样本的上一级迭代的图节点向量,确定第一样本的本次迭代的图节点向量。在一个实施例中,所述基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量,包括:采用deepwalk图嵌入算法或GraRep图嵌入算法,进行嵌入处理,得到所述多个样本各自的图节点向量。根据第二方面,提供了一种样本聚类装置,所述装置包括:获取单元,配置为获取多个样本的属性特征构成的特征向量;第一确定单元,配置为基于所述多个样本的特征向量,确定所述多个样本的两两样本间相似度;第二确定单元,配置为基于所述多个样本的两两样本间相似度,确定所述多个样本的网络结构;其中,所述多个样本作为所述网络结构中的节点,两两节点之间的连接边信息基于该两两节点所对应的两两样本间相似度而确定;处理单元,配置为基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量;聚类单元,配置为基于所述多个样本的图节点向量,对所述多个样本进行聚类。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。根据本说明书实施例提供的方法和装置,通过本说明书实施例的方案,可以基于多个样本的图节点向量,对多个样本进行聚类;样本的图节点向量刻画了样本在整个网络中的拓扑性质,反映了样本之间的间接相似度,因此,提高了聚类结果的准确性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示出根据一个实施例的样本聚类方法的流程图;图2示出根据一个实施例的多个样本的网络结构;图3示出根据一个实施例的样本聚类装置的示意性框图。具体实施方式下面结合附图,对本说明书提供的方案进行描述。如前所述,在很多场景中,都需要对样本进行聚类,例如,对用户进行聚类,从而将用户划分到不同人群。对于用户样本而言,可以基于用户之间的通信关系、设备共用关系、转账关系等交互关系,对用户样本进行聚类。例如,可以根据样本间的有无交互关系以及交互的频次构建关系网络图。关系网络图中的节点表示样本,关系网络图中的连接边表示样本之间具有交互关系,连接边的长短表示交互的频次。然后,可以采用某种聚类算法,对关系网络图中的节点进行合并,从而实现对样本的聚类。基于这种聚类方案,可以把交互频次较高的样本聚到一个样本类簇中。例如,在这种聚类方案下,往往会将一个家庭的成员聚为一个样本类簇。而很多情况下,在某一方面,例如兴趣爱好、消费习惯等,一个家庭的各成员之间的并不必然相似。因此,基于样本之间的交互关系进行聚类,并不直接反映出样本之间的相似度。甚至在同一样本类簇中,两个样本之间的相似度很低。而在很多应用场景中,将相似度较高的样本聚到同一样本类簇中,具有重要意义。例如,对于电商而言,将相似度较高的用户划分到同一个用户群体,进而可以为该用户群体,提供相同或相似的服务,从而可以提高用户的体验。根据一种方案,可以基于样本的属性特征,得到样本两两间的相似度,对样本进行聚类。样本一般具有多个属性特征。以用户样本为例,属性特征可以包括注册信息和/或行为信息;其中,注册信息具体可以包括年龄、性别、教育程度、职业,行为信息可以包括购物信息、娱乐信息等,购物信息可以包括购买的商品类型、对商品的评价等,运动信息可以包括娱乐的类型、娱乐的时本文档来自技高网...

【技术保护点】
1.一种样本聚类方法,所述方法包括:获取多个样本的属性特征构成的特征向量;基于所述多个样本的特征向量,确定所述多个样本的两两样本间相似度;基于所述多个样本的两两样本间相似度,确定所述多个样本的网络结构;其中,所述多个样本作为所述网络结构中的节点,两两节点之间的连接边信息基于该两两节点所对应的两两样本间相似度而确定;基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量;基于所述多个样本的图节点向量,对所述多个样本进行聚类。

【技术特征摘要】
1.一种样本聚类方法,所述方法包括:获取多个样本的属性特征构成的特征向量;基于所述多个样本的特征向量,确定所述多个样本的两两样本间相似度;基于所述多个样本的两两样本间相似度,确定所述多个样本的网络结构;其中,所述多个样本作为所述网络结构中的节点,两两节点之间的连接边信息基于该两两节点所对应的两两样本间相似度而确定;基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量;基于所述多个样本的图节点向量,对所述多个样本进行聚类。2.根据权利要求1所述的方法,所述样本包括用户样本,所述属性特征包括用户样本的注册信息和/或行为信息。3.根据权利要求1所述的方法,所述基于所述多个样本的特征向量,确定所述多个样本的两两样本间相似度,包括:对所述多个样本的特征向量进行归一化处理;基于归一化处理后的所述多个样本的特征向量,计算所述多个样本的两两样本间余弦相似度或欧式距离,获得所述多个样本的两两样本间相似度。4.根据权利要求1所述的方法,所述基于所述多个样本的两两样本间相似度,确定所述多个样本的网络结构,包括:按照从大到小的顺序,对所述多个样本的两两样本间相似度进行排序;在排序结果中前M个或前百分之M’的两两样本间相似度对应的样本之间构建连接边,以得到所述多个样本的网络结构;其中,所述前M个或前百分之M’的两两样本间相似度作为各自对应的连接边的权值。5.根据权利要求1所述的方法,所述基于所述多个样本的两两样本间相似度,确定所述多个样本的网络结构,包括:从所述多个样本的两两样本间相似度中确定出第一两两样本间相似度,所述第一两两样本间相似度大于预设阈值;在所述第一两两样本间相似度对应的样本之间构建连接边,以得到所述多个样本的网络结构;其中,所述第一两两样本间相似度作为对应的连接边的权值。6.根据权利要求4或5所述的方法,所述基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量,包括:对于所述多个样本中的第一样本,基于第一样本和其邻居样本各自的特征向量,分别确定第一样本和其邻居样本各自的初次迭代的图节点向量;对于第一样本,执行多级向量迭代,将多级向量迭代的结果作为该第一样本的图节点向量;其中所述多级向量迭代中的每级向量迭代包括,基于第一样本的上一级迭代的图节点向量,第一样本的邻居样本的上一级迭代的图节点向量,确定第一样本的本次迭代的图节点向量。7.根据权利要求4或5所述的方法,所述基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量,包括:对于所述多个样本中的第一样本,基于第一样本和其邻居样本各自的特征向量,分别确定第一样本和其邻居样本各自的初次迭代的图节点向量;对于所述第一样本,执行多级向量迭代,将多级向量迭代的结果作为该第一样本的图节点向量;其中所述多级向量迭代中的每级向量迭代包括,基于第一样本的邻居样本的上一级迭代的图节点向量,确定第一样本的本次迭代的图节点向量。8.根据权利要求1所述的方法,所述基于所述网络结构,采用无监督嵌入处理,得到所述多个样本各自的图节点向量,包括:采用deepwalk图嵌入算法或GraRep图嵌入算法,进行嵌入处理,得到所述多个样本各自的图节点向量。9.一种样本聚类装置,所述装置包括:获取单元,配置为获取多个样本的属性特征构成的特征向量;第一确定单元,配置为基于所述多个样本的特征向量,确定所述多个样本的两两样本间相似度;第二确定单元,配置为...

【专利技术属性】
技术研发人员:曹绍升崔卿
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1