【技术实现步骤摘要】
一种对关系网络图中的节点进行聚类的方法及装置
本说明书一个或多个实施例涉及计算机信息处理领域,尤其涉及对关系网络图中的节点进行聚类的方法及装置。
技术介绍
在进行数据分析,特别是大数据分析时,聚类是一种常用的分析方法。聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。聚类可以把相似的对象划分到一个类,使得同一个类内的对象比较相似,而不同类之间的对象差异较大。随着智能手机的普及,用户日常生活产生的数据量迅速增加,这给聚类算法的性能带来了挑战。因此,需要一种能够高效地对大规模数据进行聚类的方法。
技术实现思路
本说明书一个或多个实施例描述了一种对关系网络图中的节点进行聚类的方法,可以在一轮迭代中同时合并多对两两节点,提高了计算效率,可高效完成大规模数据以及超大规模数据的聚类。根据第一方面,提供一种对关系网络图中的节点进行聚类的方法,所述关系网络图包括多个节点和多个连接边,所述方法包括:获取所述关系网络图的邻接信息,所述邻接信息记录了各个节点之间是否具有连接边,以及连接边的边长;根据所述邻接信息,确定以各个节点为中心节点的各个邻居节点集合,以及各个邻居节点集合中节点之间的最短连接边;其中,所述邻居节点集合包括对应的中心节点,以及与该对应的中心节点的连接阶数不超过预定阶数k的邻居节点,k为大于1的整数;确定各个最短连接边中边长小于预设阈值的至少一个第一边;对于各个第一边,将第一边连接的两个节点聚为同一类簇,并将所述两个节点进行合并;根据合并之后的节点,更新所述邻接信息,更新后的所述邻接信息用于再次进行节点合并。在一个实施例中,所述关系网络图中的节点对应 ...
【技术保护点】
1.一种对关系网络图中的节点进行聚类的方法,所述关系网络图包括多个节点和多个连接边,所述方法包括:获取所述关系网络图的邻接信息,所述邻接信息记录了各个节点之间是否具有连接边,以及连接边的边长;根据所述邻接信息,确定以各个节点为中心节点的各个邻居节点集合,以及各个邻居节点集合中节点之间的最短连接边;其中,所述邻居节点集合包括对应的中心节点,以及与该对应的中心节点的连接阶数不超过预定阶数k的邻居节点,k为大于1的整数;确定各个最短连接边中边长小于预设阈值的至少一个第一边;对于各个第一边,将第一边连接的两个节点聚为同一类簇,并将所述两个节点进行合并;根据合并之后的节点,更新所述邻接信息,更新后的所述邻接信息用于再次进行节点合并。
【技术特征摘要】
1.一种对关系网络图中的节点进行聚类的方法,所述关系网络图包括多个节点和多个连接边,所述方法包括:获取所述关系网络图的邻接信息,所述邻接信息记录了各个节点之间是否具有连接边,以及连接边的边长;根据所述邻接信息,确定以各个节点为中心节点的各个邻居节点集合,以及各个邻居节点集合中节点之间的最短连接边;其中,所述邻居节点集合包括对应的中心节点,以及与该对应的中心节点的连接阶数不超过预定阶数k的邻居节点,k为大于1的整数;确定各个最短连接边中边长小于预设阈值的至少一个第一边;对于各个第一边,将第一边连接的两个节点聚为同一类簇,并将所述两个节点进行合并;根据合并之后的节点,更新所述邻接信息,更新后的所述邻接信息用于再次进行节点合并。2.根据权利要求1所述的方法,其中,所述关系网络图中的节点对应于样本,所述连接边的边长对应于样本之间的相似度或关联紧密度。3.根据权利要求2所述的方法,其中,所述样本包括用户样本,所述关联紧密度基于以下中的至少一项确定:用户之间的交互类型,交互频次,来往资金数额。4.根据权利要求1所述的方法,其中,所述获取所述关系网络图的邻接信息包括:获取所述关系网络图的邻接矩阵,通过所述邻接矩阵确定相互连接的节点;获取各个节点的嵌入向量;根据各个节点的嵌入向量计算所述相互连接的节点之间的连接边的边长。5.根据权利要求1所述的方法,其中,所述获取所述关系网络图的邻接信息包括:获取所述关系网络图的距离矩阵,所述距离矩阵用作所述邻接信息。6.根据权利要求1所述的方法,其中,所述确定以各个节点为中心节点的各个邻居节点集合包括:遍历所述关系网络图的邻接信息,以得到各个节点的1阶邻居节点;对于各个节点,将其n阶邻居节点的1阶邻居节点中的第一邻居作为各个节点的n+1阶邻居节点,添加到该节点对应的邻居节点集合中,直到n达到k-1;其中,第一邻居为各个节点的n阶邻居的1阶邻居中排除了各个节点的n-1阶邻居后的邻居节点。7.根据权利要求1所述的方法,其中,所述至少一个第一边的数目为1时,所述方法还包括:根据更新后的邻接信息,确定更新后的关系网络图中的最短边;当所述最短边小于所述预设阈值时,合并所述最短边所连接的两个节点;根据合并后的节点,再次更新所述邻接信息。8.根据权利要求1所述的方法,其中,所述第一边连接的两个节点分别为第一节点和第二节点,第一节点和第二节点同时与第三节点连接,所述将所述两个节点进行合并包括,将第一节点和第二节点合并为第四节点;所述根据合并之后的节点,更新所述邻接信息包括:根据第一节点与第三节点的连接边的第一边长,以及第二节点与第三节点的连接边的第二边长,确定第四节点与第三节点的边长。9.根据权利要求1所述的方法,其中,所述第一边连接的两个节点分别为第一节点和第二节点,第一节点与第三节点连接,第二节点未与第三节点连接,所述将所述两个节点进行合并包括,将第一节点和第二节点合并为第四节点;所述根据合并之后的节点,更新所述邻接信息包括:将第一节点与第三节点的连接边的边长,作为第四节点与第三节点的连接边的边长。10.一种对关系网络图中的节点进行聚类的装置,所述关系网络图包括多个节点和多个连接边,所述装置包括:邻接信息获取单元,配置为获取所述关系网络图的邻接信息,所述邻接信息记...
【专利技术属性】
技术研发人员:崔卿,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。