一种异构网络中相似度的计算方法及其相关组件技术

技术编号:24093883 阅读:26 留言:0更新日期:2020-05-09 09:20
本发明专利技术公开了一种异构网络中相似度的计算方法及其相关组件,涉及异构信息网络领域,该方法包括:获取异构网络中各节点的类型集合以及各类型节点之间的关系集合;预先定义各类型节点之间关系的权重c(R);当需要计算所述异构网络中同类型的两个目标节点之间的相似度时,获取所述两个目标节点在各个关系中的邻居节点的集合,依据所述两个目标节点在各个关系中邻居节点之间的相似度确定两个目标节点的相似度。本发明专利技术实现了不需要用户指定meta path就可以计算相似度的效果,易于在不同的数据和应用中使用,并且采用递归的方式进行定义,因此能够考虑不同长度和语义的路径,使计算的相似度能够整合更多语义信息,相似度结果质量更好。

A calculation method of similarity in heterogeneous networks and its related components

【技术实现步骤摘要】
一种异构网络中相似度的计算方法及其相关组件
本专利技术涉及异构信息网络领域,尤其涉及一种异构网络中相似度的计算方法、装置、计算机设备及存储介质。
技术介绍
异构网络是一种节点和链接类型不同的图结构,在异构网络中具有许多节点,许多时候需要计算这些节点之间的相似度,以便基于相似度进行后续操作,例如推荐相似物品,或者进行分类等等。现有技术是通过基于metapath的相似度计算方法来计算节点之间的相似度,其中,metapath是指:元路径P是定义在网络模式中的一条路径用来描述从节点类型A1到类型Al的组合型关系。给定一个元路径P,可能存在多条路径与之相匹配。然而,这种计算方式在异构网络中具有局限性:第一、需要用户提供许多额外信息,用户很难去定义一条metapath就能够保证相似度查询质量;第二、一条metapath只能捕获一种连接x和y的语义信息,然而,在异构网络中,x和y往往被拥有不同语义信息的路径连接。此外,基于网络的拓扑结构是递归的,这种路径的数量理论上是无限条。因此,基于metapath的方法,不能够聚合多种语义信息,造成在度量节点相似度的时候信息的缺失;第三、因为异构网络拥有不同类型的节点,为计算指定类型节点的相似度而定义的metapath并不能应用于其他不同类型的节点。
技术实现思路
本专利技术实施例提供了一种异构网络中相似度的计算方法、装置、计算机设备及存储介质,旨在实现在不需要用户提供额外的信息的情况下,能够提高相似度计算结果的准确性。第一方面,本专利技术实施例提供了一种异构网络中相似度的计算方法,其包括:获取异构网络中各节点的类型集合以及各类型节点之间的关系集合;预先定义各类型节点之间关系的权重c(R),其中,R表示关系;当需要计算所述异构网络中同类型的两个目标节点之间的相似度时,获取所述两个目标节点在各个关系中的邻居节点的集合,依据所述两个目标节点在各个关系中邻居节点之间的相似度确定两个目标节点的相似度。第二方面,本专利技术实施例提供了一种异构网络中相似度的计算装置,其包括:节点集合获取单元,用于获取异构网络中各节点的类型集合以及各类型节点之间的关系集合;权重设置单元,用于预先定义各类型节点之间关系的权重c(R),其中,R表示关系;相似度确认单元,用于当需要计算所述异构网络中同类型的两个目标节点之间的相似度时,获取所述两个目标节点在各个关系中的邻居节点的集合,依据所述两个目标节点在各个关系中邻居节点之间的相似度确定两个目标节点的相似度。第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的异构网络中相似度的计算方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的异构网络中相似度的计算方法。本专利技术实施例提供了一种异构网络中相似度的计算方法、装置、计算机设备及存储介质。该方法包括:获取异构网络中各节点的类型集合以及各类型节点之间的关系集合预先定义各类型节点之间关系的权重c(R),其中,R表示关系当需要计算所述异构网络中同类型的两个目标节点之间的相似度时,获取所述两个目标节点在各个关系中的邻居节点的集合,依据所述两个目标节点在各个关系中邻居节点之间的相似度确定两个目标节点的相似度。该方法直接基于异构网络本身的网络模式的拓扑结构,不需要用户指定metapath就可以计算相似度,易于在不同的数据和应用中使用;该方法还可以聚合不同关系的相似度,避免了一条metapath只能表征一种语义特征的缺陷;该方法还采用递归的方式进行定义,因此能够考虑不同长度,不同语义的路径,使计算的相似度能够整合更多的语义信息,相似度结果质量更好。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种异构网络中相似度的计算方法的流程图;图2为本专利技术实施例提供的一种异构网络中相似度的计算方法的一个示例异构网络图;图3为本专利技术实施例提供的一种异构网络中相似度的计算装置的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。下面请参见图1,图1为本专利技术实施例所提供的一种异构网络中相似度的计算方法的流程图。具体步骤可以包括S101~S103:S101:获取异构网络中各节点的类型集合以及各类型节点之间的关系集合;一个异构网络可以由一个四元组来表示其中V表示异构网络中的节点的集合,E表示边的集合,是节点类型的集合,是边的类型的集合。此外,还包括两个映射函数分别用来表示节点到类型,边到类型的映射。异构网络中存在多种类型信息,这些信息以节点的形式来表现,这些节点相互存在一些关系,在不同关系中,两个节点的相似度也有着不同的聚合方式。在异构网络中,根据所提供的功能不同,各个节点有不一样的分工,在本步骤中,可以获取存在于异构网络中各节点的类型集合及各类型节点之间的关系集合。举例来说,如图2所示,在异构网络中存在论文(Paper)、作者(Author)和会议(Venue)三种类型的节点,那么在该异构网络中,节点的类型集合包含三种元素:论文、作者和会议。在这些类型的节点之间具有不同的关系,例如论文与作者的关系、论文与会议的关系、论文与论文的关系,这些关系构成了关系集合。具体而言,这些关系是有向关系。例如论文与作者的关系分为两种:论文由作者撰写,作者撰写论文;论文与会议的关系也分为两种:论文被收录在会议上,会议收录论文;论文与论文的关系也分为两种:论文引用其他论文;论文被其他论文引用。这样在该异构网络中,具有六种有向关系。当然,本文档来自技高网...

【技术保护点】
1.一种异构网络中相似度的计算方法,其特征在于,包括:/n获取异构网络中各节点的类型集合以及各类型节点之间的关系集合;/n预先定义各类型节点之间关系的权重c(R),其中,R表示关系;/n当需要计算所述异构网络中同类型的两个目标节点之间的相似度时,获取所述两个目标节点在各个关系中的邻居节点的集合,依据所述两个目标节点在各个关系中邻居节点之间的相似度确定两个目标节点的相似度。/n

【技术特征摘要】
1.一种异构网络中相似度的计算方法,其特征在于,包括:
获取异构网络中各节点的类型集合以及各类型节点之间的关系集合;
预先定义各类型节点之间关系的权重c(R),其中,R表示关系;
当需要计算所述异构网络中同类型的两个目标节点之间的相似度时,获取所述两个目标节点在各个关系中的邻居节点的集合,依据所述两个目标节点在各个关系中邻居节点之间的相似度确定两个目标节点的相似度。


2.根据权利要求1所述的异构网络中相似度的计算方法,其特征在于,所述当需要计算所述异构网络中同类型的两个目标节点之间的相似度时,获取所述两个目标节点在各个关系中的邻居节点的集合,依据所述两个目标节点在各个关系中邻居节点之间的相似度确定两个目标节点的相似度,包括:
按如下公式计算两个目标节点a和b的相似度s(a,b):



式中,表示节点类型为A的关系的集合,NR(a)表示目标节点a在关系R中的邻居节点的集合,NR(b)表示目标节点b在关系R中的邻居节点的集合,|NR(a)|代表所述集合NR(a)中节点的个数,|NR(b)|代表所述集合NR(b)中节点的个数。


3.根据权利要求2所述的异构网络中相似度的计算方法,其特征在于,所述节点类型为A的关系的集合中,各关系的权重之和为100%。


4.根据权利要求2所述的异构网络中相似度的计算方法,其特征在于,所述当需要计算所述异构网络中同类型的两个目标节点之间的相似度时,获取所...

【专利技术属性】
技术研发人员:王越谢珉毛睿
申请(专利权)人:深圳计算科学研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1