一种对关系网络图中的节点进行聚类的方法及装置制造方法及图纸

技术编号:21658630 阅读:19 留言:0更新日期:2019-07-20 05:38
本说明书实施例提供一种对关系网络图中的节点进行聚类的方法及装置,所述关系网络图包括多个节点,所述方法包括:首先获取所述关系网络图的邻接信息,所述邻接信息记录了各个节点之间是否具有连接边,以及连接边的边长;然后根据所述邻接信息,确定以各个节点为中心节点的各个邻居节点集合,以及各个邻居节点集合中节点之间的最短连接边;再确定各个最短连接边中边长小于预设阈值的至少一个第一边;对于各个第一边,将第一边连接的两个节点聚为同一类簇,并将所述两个节点进行合并;并且根据合并之后的节点,更新所述邻接信息,更新后的所述邻接信息用于再次进行合并。

A Method and Device for Clustering Nodes in Relational Network Graph

【技术实现步骤摘要】
一种对关系网络图中的节点进行聚类的方法及装置
本说明书一个或多个实施例涉及计算机信息处理领域,尤其涉及对关系网络图中的节点进行聚类的方法及装置。
技术介绍
在进行数据分析,特别是大数据分析时,聚类是一种常用的分析方法。聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。聚类可以把相似的对象划分到一个类,使得同一个类内的对象比较相似,而不同类之间的对象差异较大。随着智能手机的普及,用户日常生活产生的数据量迅速增加,这给聚类算法的性能带来了挑战。因此,需要一种能够高效地对大规模数据进行聚类的方法。
技术实现思路
本说明书一个或多个实施例描述了一种对关系网络图中的节点进行聚类的方法,可以在一轮迭代中同时合并多对两两节点,提高了计算效率,可高效完成大规模数据以及超大规模数据的聚类。根据第一方面,提供一种对关系网络图中的节点进行聚类的方法,所述关系网络图包括多个节点和多个连接边,所述方法包括:获取所述关系网络图的邻接信息,所述邻接信息记录了各个节点之间是否具有连接边,以及连接边的边长;根据所述邻接信息,确定以各个节点为中心节点的各个邻居节点集合,以及各个邻居节点集合中节点之间的最短连接边;其中,所述邻居节点集合包括对应的中心节点,以及与该对应的中心节点的连接阶数不超过预定阶数k的邻居节点,k为大于1的整数;确定各个最短连接边中边长小于预设阈值的至少一个第一边;对于各个第一边,将第一边连接的两个节点聚为同一类簇,并将所述两个节点进行合并;根据合并之后的节点,更新所述邻接信息,更新后的所述邻接信息用于再次进行节点合并。在一个实施例中,所述关系网络图中的节点对应于样本,所述连接边的边长对应于样本之间的相似度或关联紧密度。在一个实施例中,所述获取所述关系网络图的邻接信息包括:获取所述关系网络图的邻接矩阵,通过所述邻接矩阵确定相互连接的节点;获取各个节点的嵌入向量;根据各个节点的嵌入向量计算所述相互连接的节点之间的连接边的边长。在一个实施例中,所述获取所述关系网络图的邻接信息包括:获取所述关系网络图的距离矩阵,所述距离矩阵用作所述邻接信息。在一个实施例中,所述确定邻居节点集合包括:遍历所述关系网络图的邻接信息,以得到各个节点的1阶邻居节点;对于各个节点,将其n阶邻居节点的1阶邻居节点中的第一邻居作为各个节点的n+1阶邻居节点,添加到该节点对应的邻居节点集合中,直到n达到k-1;其中,第一邻居为各个节点的n阶邻居的1阶邻居中排除了各个节点的n-1阶邻居后的邻居节点。在一个实施例中,所述至少一个第一边的数目为1时,在更新所述邻接信息后,所述方法还包括:根据更新后的邻接信息,确定更新后的关系网络图中的最短边;当所述最短边小于所述预设阈值时,合并所述最短边所连接的两个节点;根据合并后的节点,再次更新所述邻接信息。在一个实施例中,所述第一边连接的两个节点分别为第一节点和第二节点,第一节点和第二节点同时与第三节点连接,所述将所述两个节点进行合并包括,将第一节点和第二节点合并为第四节点;所述根据合并之后的节点,更新所述邻接信息包括:根据第一节点与第三节点的连接边的第一边长和第二节点与第三节点的连接边的第二边长,计算第四节点与第三节点的边长。在一个实施例中,所述第一边连接的两个节点分别为第一节点和第二节点,第一节点与第三节点连接,第二节点未与第三节点连接,所述将所述两个节点进行合并包括,将第一节点和第二节点合并为第四节点;所述根据合并之后的节点,更新所述邻接信息包括:将第一节点与第三节点的连接边的边长,作为第四节点与第三节点的连接边的边长。根据第二方面,提供一种对关系网络图中的节点进行聚类的装置,所述关系网络图包括多个节点和多个连接边,所述装置包括:邻接信息获取单元,配置为获取所述关系网络图的邻接信息,所述邻接信息记录了各个节点之间是否具有连接边,以及连接边的边长;第一确定单元,配置为根据所述邻接信息,确定各个节点的预定阶数k及预定阶数k之内的邻居节点构成的邻居节点集合,以及各个邻居节点集合中节点之间的最短连接边;k为大于0的整数;第二确定单元,配置为确定各个最短连接边中边长小于预设阈值的至少一个第一边;节点合并单元,配置为对于各个第一边,将第一边连接的两个节点聚为同一类簇,并将所述两个节点进行合并;更新单元,配置为根据合并之后的节点,更新所述邻接信息,更新后的所述邻接信息用于再次进行节点合并。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。根据本说明书实施例提供的方法和装置,在对关系网络图中的节点进行聚类时,根据关系网络图的邻接信息确定各个节点的邻居节点集合,然后可以确定各个邻居节点集合中的最短连接边,并确定各最短连接边中小于预设阈值的第一边,进而将第一边连接的两个节点聚为同一类簇并合并;从而可以实现在一轮迭代中合并多对两两节点,提高了计算效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示出本说明书披露的一个实施例的关系网络图的示意图;图2示出根据一个实施例的对关系网络图中的节点进行聚类的方法的流程图;图3示出了更新后的关系网络图;图4示出根据一个实施例的节点聚类方法流程图;图5示出根据一个实施例的对关系网络图中的节点进行聚类的装置的示意性框图。具体实施方式下面结合附图,对本说明书提供的方案进行描述。对象的聚类可以应用到多个应用场景中,例如,对新闻主题的聚类有助于为新闻打上直观的标签,对电商用户的聚类有助于进行更精准地营销,对客服中用户问题的聚类有助于搭建知识库进而提高客服服务质量。对象的多个样本及样本之间的关系可以用关系网络图表示。图1为本说明书披露的一个实施例的关系网络图的示意图。如图1所示,该关系网络图包括多个节点以及多个连接边,为了便于清楚表述,为图1所示的每个节点进行了编号。图1所示的图中,每个节点代表了一个样本。存在关联关系的节点之间用连接边互相连接。连接边的边长又可以称为节点之间的距离,其大小可以与节点之间的相似度或关联紧密度相关。在一个实施例中,样本为新闻主题。存在关联关系(例如链接跳转,关键字包含等)的新闻主题之间用连接边进行连接。连接边的边长的长短对应于新闻主题之间的相似度的高低。具体地,连接边的边长越短,则表示新闻主题之间的相似度越高;连接边的边长越长,则表示新闻主题之间的相似度越低。在另一实施例中,样本为客服问答中出现的用户问题。存在关联关系(例如,上下文关系等)的用户问题之间用连接边进行连接。连接边的边长对应于用户问题之间的相似度的高低。边长越短,相似度越高;边长越长,相似度越低。在一个实施例中,样本为各个用户(例如电商用户)。存在关联关系的用户之间用连接边进行连接。在一个例子中,连接边的边长对应于用户之间的相似度。在另一例子中,连接边的边长的长短对应于用户之间的关联紧密度本文档来自技高网...

【技术保护点】
1.一种对关系网络图中的节点进行聚类的方法,所述关系网络图包括多个节点和多个连接边,所述方法包括:获取所述关系网络图的邻接信息,所述邻接信息记录了各个节点之间是否具有连接边,以及连接边的边长;根据所述邻接信息,确定以各个节点为中心节点的各个邻居节点集合,以及各个邻居节点集合中节点之间的最短连接边;其中,所述邻居节点集合包括对应的中心节点,以及与该对应的中心节点的连接阶数不超过预定阶数k的邻居节点,k为大于1的整数;确定各个最短连接边中边长小于预设阈值的至少一个第一边;对于各个第一边,将第一边连接的两个节点聚为同一类簇,并将所述两个节点进行合并;根据合并之后的节点,更新所述邻接信息,更新后的所述邻接信息用于再次进行节点合并。

【技术特征摘要】
1.一种对关系网络图中的节点进行聚类的方法,所述关系网络图包括多个节点和多个连接边,所述方法包括:获取所述关系网络图的邻接信息,所述邻接信息记录了各个节点之间是否具有连接边,以及连接边的边长;根据所述邻接信息,确定以各个节点为中心节点的各个邻居节点集合,以及各个邻居节点集合中节点之间的最短连接边;其中,所述邻居节点集合包括对应的中心节点,以及与该对应的中心节点的连接阶数不超过预定阶数k的邻居节点,k为大于1的整数;确定各个最短连接边中边长小于预设阈值的至少一个第一边;对于各个第一边,将第一边连接的两个节点聚为同一类簇,并将所述两个节点进行合并;根据合并之后的节点,更新所述邻接信息,更新后的所述邻接信息用于再次进行节点合并。2.根据权利要求1所述的方法,其中,所述关系网络图中的节点对应于样本,所述连接边的边长对应于样本之间的相似度或关联紧密度。3.根据权利要求2所述的方法,其中,所述样本包括用户样本,所述关联紧密度基于以下中的至少一项确定:用户之间的交互类型,交互频次,来往资金数额。4.根据权利要求1所述的方法,其中,所述获取所述关系网络图的邻接信息包括:获取所述关系网络图的邻接矩阵,通过所述邻接矩阵确定相互连接的节点;获取各个节点的嵌入向量;根据各个节点的嵌入向量计算所述相互连接的节点之间的连接边的边长。5.根据权利要求1所述的方法,其中,所述获取所述关系网络图的邻接信息包括:获取所述关系网络图的距离矩阵,所述距离矩阵用作所述邻接信息。6.根据权利要求1所述的方法,其中,所述确定以各个节点为中心节点的各个邻居节点集合包括:遍历所述关系网络图的邻接信息,以得到各个节点的1阶邻居节点;对于各个节点,将其n阶邻居节点的1阶邻居节点中的第一邻居作为各个节点的n+1阶邻居节点,添加到该节点对应的邻居节点集合中,直到n达到k-1;其中,第一邻居为各个节点的n阶邻居的1阶邻居中排除了各个节点的n-1阶邻居后的邻居节点。7.根据权利要求1所述的方法,其中,所述至少一个第一边的数目为1时,所述方法还包括:根据更新后的邻接信息,确定更新后的关系网络图中的最短边;当所述最短边小于所述预设阈值时,合并所述最短边所连接的两个节点;根据合并后的节点,再次更新所述邻接信息。8.根据权利要求1所述的方法,其中,所述第一边连接的两个节点分别为第一节点和第二节点,第一节点和第二节点同时与第三节点连接,所述将所述两个节点进行合并包括,将第一节点和第二节点合并为第四节点;所述根据合并之后的节点,更新所述邻接信息包括:根据第一节点与第三节点的连接边的第一边长,以及第二节点与第三节点的连接边的第二边长,确定第四节点与第三节点的边长。9.根据权利要求1所述的方法,其中,所述第一边连接的两个节点分别为第一节点和第二节点,第一节点与第三节点连接,第二节点未与第三节点连接,所述将所述两个节点进行合并包括,将第一节点和第二节点合并为第四节点;所述根据合并之后的节点,更新所述邻接信息包括:将第一节点与第三节点的连接边的边长,作为第四节点与第三节点的连接边的边长。10.一种对关系网络图中的节点进行聚类的装置,所述关系网络图包括多个节点和多个连接边,所述装置包括:邻接信息获取单元,配置为获取所述关系网络图的邻接信息,所述邻接信息记...

【专利技术属性】
技术研发人员:崔卿
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1