一种用于简化复杂网络的方法和系统技术方案

技术编号:23445845 阅读:33 留言:0更新日期:2020-02-28 20:01
本发明专利技术提供一种用于简化网络中的多个节点的方法,包括:从所述多个节点中的每个节点出发,按照所述网络中的边选取预定数量的节点,以提取与所述选取操作对应的所述每个节点的至少两个序列向量;基于所述至少两个序列向量生成所述每个节点的频率向量,并基于所述频率向量、按照预定算法将所述多个节点划分为至少两个群组;基于所述频率向量计算所述至少两个群组中的每个群组的重心,并基于所述重心计算在所述每个群组中的每一个节点的计算因子;以及基于位于所述至少两个群组的不同群组中的任意两个节点之间的边的边属性值向量和所述任意两个节点的计算因子加权计算所述不同群组之间的边的边属性值向量。

A method and system for simplifying complex networks

【技术实现步骤摘要】
一种用于简化复杂网络的方法和系统
本专利技术涉及计算机图谱网络领域,尤其涉及一种用于简化复杂网络的方法和系统。
技术介绍
目前,随着数据量的增大,适用于不同应用场景的计算机网络日趋复杂。例如,在金融交易场景中,包含数目庞大的节点和关联关系的图谱网络(在本文中简称为“网络”)对于分析用户的行为以进行风险控制带来了很大的挑战。依靠传统的经验来对用户的关联关系的分析已经很难在复杂的网络下有效进行。
技术实现思路
本专利技术的实施例提供了一种能够简化复杂的网络的方法和系统。本专利技术的一个方面提供了一种用于简化网络中的多个节点的方法,包括:从所述多个节点中的每个节点出发,按照所述网络中的边选取预定数量的节点,以提取与所述选取操作对应的所述每个节点的至少两个序列向量;基于所述至少两个序列向量生成所述每个节点的频率向量,并基于所述频率向量、按照预定算法将所述多个节点划分为至少两个群组;基于所述频率向量计算所述至少两个群组中的每个群组的重心,并基于所述重心计算在所述每个群组中的每一个节点的计算因子;以及基于位于所述至少两个群组的不同群组中的任意两个节点之间的边的边属性值向量和所述任意两个节点的计算因子加权计算所述不同群组之间的边的边属性值向量。本专利技术的另一个方面提供了一种用于简化网络中的多个节点的系统,包括:用于从所述多个节点中的每个节点出发,按照所述网络中的边选取预定数量的节点,以提取与所述选取操作对应的所述每个节点的至少两个序列向量的装置;用于基于所述至少两个序列向量生成所述每个节点的频率向量,并基于所述频率向量、按照预定算法将所述多个节点划分为至少两个群组的装置;用于基于所述频率向量计算所述至少两个群组中的每个群组的重心,并基于所述重心计算在所述每个群组中的每一个节点的计算因子的装置;以及用于基于位于所述至少两个群组中的不同群组的任意两个节点之间的边的边属性值向量和所述在任意两个节点的计算因子加权计算所述不同群组之间的边的边属性值向量的装置。本专利技术的又一个方面提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令被计算机执行时能够执行根据本专利技术的实施例所述的方法。本专利技术的实施例能够简化复杂的网络。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。图1示出了根据本专利技术实施例的在网络中进行随机游走操作的示意图。图2示出了根据本专利技术实施例的基于序列向量生成频率向量并且再基于频率向量聚合节点的示意图。图3示出了根据本专利技术实施例的聚合位于不同群组中的节点的边的示意图。图4示出了根据本专利技术的一个实施例的简化异质网络的过程的示意图。图5示出了根据本专利技术的另一个实施例的简化异质网络的效果的示意图。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。下面结合附图对本专利技术的具体实施方式进行详细描述。本专利技术提出了一种简化网络中的节点的方法,包括以下步骤:(1)生成网络中的每个节点的序列向量网络中可以包含许多节点。在本领域中,如果一网络中的节点具有相同的属性,则称该网络为同质网络,如果一网络中的节点具有不同的属性,则称该网络为异质网络。在本专利技术的一些实施例中,对于异质网络,本专利技术的方案可以将具有不同属性的节点划分成不同的集群。因此,每个集群内的节点都可以被看作是构成同质网络的节点。在本专利技术中,对于一个同质网络,从每一个节点出发,随机向有边连接的节点游走N步,并且随机游走M次。因此形成了M条包含N个节点的随机生成的序列向量。在全部K个节点都随机游走M次后,则形成了K*M条包含N个节点的随机生成的序列向量。在本专利技术的一些实施例中,可以利用one-hotencoding的编码方法生成序列向量。例如,参见图1,该网络包含七个节点,序列向量的维度为七。从1号节点出发,随机游走了5步并且可以随机游走两次或更多次。第一次游走的路径是1-2-3-4-5,第一次游走的路径是1-6-7-2-3。由于第一次游走的路径没有游走到6和7号节点,因此所生成的序列向量为1111100。同理,由于第一次游走的路径没有游走到4和5号节点,因此所生成的序列向量为1110011。(2)基于序列向量生成频率向量并聚合节点对于每一个节点,可以对其M个序列向量进行维度(即,向量中的位)的频率统计,以获得该节点的频率向量Ei。在本专利技术的一些实施例中,可以遍历所有节点生成包含所有节点的频率向量的频率向量空间。例如,参见图2,1号节点的两个序列向量为1111100和1110011,那么1号节点的频率向量的每一位都取两个序列向量的对应位的平均值。例如,第一个序列向量的第4-7位是1100并且第二个序列向量的第4-7位为0011,那么频率向量的第4-7位均为0.5。即在频率向量的第4-7位的每一位上,都是(1+0)/2。以此类推,每个节点都可以生成自己的频率向量。所有节点的频率向量可以在存储在一起,形成频率向量空间。在本专利技术中,可以接着采用基于密度的聚类方法,将每个节点的频率向量Ei进行聚类,即将相似度较高的节点划分到一个群组中。每个同质网络可以划分出多个群组。在本专利技术的一些实施例中,可以采用基于密度的DBSCAN聚类算法。即,该算法是将节点的频率向量作为输入,然后将频率向量接近的节点汇聚至同一群组,最终输出所有节点所在的群组编号值。在一些实施例中,该群组编号值可以添加到每个节点的频率向量中。在本专利技术的一些实施例中,还可以采用KMEANS聚类算法。(3)计算每个群组的重心并计算每个节点在群组中的聚合因子在本专利技术中,节点被划分到不同群组。然后,对于被划分到某群组的节点,可以根据该节点的频率向量获取其在该群组的重心。接着可以根据各节点到群组重心的距离确定群组内各节点的聚合因子,记为η。聚合因子表征第h群组的各节点在群组中的权重。例如,某个节点离重心更近,则其聚合因子更大。在本专利技术的一些实施例中,对于被划分到群组h的节点i,其频率向量为Ei,具体向量值可以表示为[ei1,ei2,ei3,ei4,…,eik]。若群组h内共包括j个节点,则集群内节点的向量重心为:各节点至重心的距离可以根据如下求平方和的方法计算:在获得群组h内各节点到重心的距离Di后,可以对距本文档来自技高网...

【技术保护点】
1.一种用于简化网络中的多个节点的方法,包括:/n从所述多个节点中的每个节点出发,按照所述网络中的边选取预定数量的节点,以提取与所述选取操作对应的所述每个节点的至少两个序列向量;/n基于所述至少两个序列向量生成所述每个节点的频率向量,并基于所述频率向量、按照预定算法将所述多个节点划分为至少两个群组;/n基于所述频率向量计算所述至少两个群组中的每个群组的重心,并基于所述重心计算在所述每个群组中的每一个节点的计算因子;和/n基于位于所述至少两个群组的不同群组中的任意两个节点之间的边的边属性值向量和所述任意两个节点的计算因子加权计算所述不同群组之间的边的边属性值向量。/n

【技术特征摘要】
1.一种用于简化网络中的多个节点的方法,包括:
从所述多个节点中的每个节点出发,按照所述网络中的边选取预定数量的节点,以提取与所述选取操作对应的所述每个节点的至少两个序列向量;
基于所述至少两个序列向量生成所述每个节点的频率向量,并基于所述频率向量、按照预定算法将所述多个节点划分为至少两个群组;
基于所述频率向量计算所述至少两个群组中的每个群组的重心,并基于所述重心计算在所述每个群组中的每一个节点的计算因子;和
基于位于所述至少两个群组的不同群组中的任意两个节点之间的边的边属性值向量和所述任意两个节点的计算因子加权计算所述不同群组之间的边的边属性值向量。


2.根据权利要求1所述的方法,其中,所述按照所述网络中的边选取预定数量的节点的步骤包括按照所述网络中的边以随机游走的方式选取预定数量的节点。


3.根据权利要求1所述的方法,其中,所述预定算法包括DBSCAN聚类算法和KMEANS聚类算法中的一种。


4.根据权利要求1所述的方法,其中,所述基于所述至少两个序列向量生成所述每个节点的频率向量的步骤包括:将所述至少两个序列向量的每一维度的平均值作为所述频率向量的每一维度的值,从而生成所述频率向量。


5.根据权利要求1所述的方法,其中,所述基于所述频率向量计算所述至少两个群组中的每个群组的重心的步骤包括:将所述每个群组中的所有节点的频率向量的每一维度的平均值作为所述重心的每一维度的值,从而生成所述重心的向量。


6.根据权利要求1所述的方法,其中,所述基于所述重心计算在所述每个群组中的每一个节点的计算因子的步骤包括:
计算在所述每个群组中的每一个节点到所述重心的距离;和
根据所述距离确定在所述每个群组中的每一个节点的计算因子,
其中,所述计算因子表示所述每一个节点在所述每个群组中的权重。


7.一种用于简化网络中的多个节点的方法,包括:
将所述多个节点中的彼此之间具有预定边属性值的边的节点确定为具有相同属性的节点;和
将所述具有相同属性的节点划分到同一集群中,接着在每个集群中执行如权利要求1-6所述的方法。


8.一种用于简化网络中的多个节点的系统,包括:
用于从所述多个节点中的每个节点出发,按照所述网络中的边选取预定数量的节点,以提取与所述选取操作对应的所述每个节点的至少两个序列向量的装置;
用于基于所述至少两个序列向量生成所述每个节点的频率向量,并基于所述频率向...

【专利技术属性】
技术研发人员:汤韬柴洪峰郑建宾赵金涛潘婧徐光风
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1