关系网络中实体间连接关系特征的获取方法及系统技术方案

技术编号:21658634 阅读:19 留言:0更新日期:2019-07-20 05:38
本发明专利技术公开了一种关系网络中实体间连接关系特征的获取方法及系统,属于大数据处理领域,包括:根据待处理的关系网络中实体间的关系建立流式图;建立两个用于存储边的数据结构,分别称为基础蓄水池和渐增蓄水池;基础蓄水池可存储的边数固定为c,渐增蓄水池可存储的边数动态增加;遍历流式图,使得第1~c条边以1的概率进入基础蓄水池,第c+1~N条边进入以

A Method and System for Obtaining Connection Features between Entities in Relational Networks

【技术实现步骤摘要】
关系网络中实体间连接关系特征的获取方法及系统
本专利技术属于大数据处理领域,更具体地,涉及一种关系网络中实体间连接关系特征的获取方法及系统。
技术介绍
随着大数据时代的到来,人与人之间、物与物之间、人与物之间都存在复杂的关系,由此形成了各种复杂的关系网络。例如,构成物质的分子与分子之间的关系形成的结构图,用户与用户之间的关系形成的社交网络,计算机与计算机之间的通信关系形成的计算机网络等,都属于关系网络。图作为一种重要的数据结构,可以很方便地用于表达关系网络中实体(人、物等)与实体之间的连接关系。随着应用中数据量的增大,实际的应用中通常采用流式图这种结构来存储和处理这些数据。流式图的边存储在计算机中,而每条边是由对应的关系网络中两个有连接关系的实体(顶点)组成。然而,流式图中的边并不是孤立的,这些边之间有连接关系。例如在社交网络图中,用户a和用户b互为好友关系,即(a,b)是流式图中的一条边;同时,用户a和用户c互为好友关系,即(a,c)是流式图中的另外一条边;边(a,b)和(a,c)共有一个共同顶点a,即这两条边是连接的。根据关系网络建立流式图,并挖掘流式图中的边的连接关系特征可以获取到关系网络中实体间的连接关系特征,从而为相关的应用提供更为有效的信息。例如,在社交网络中,流式图中边的链接类特征可用于判断该社交网络是否能够用于某种产品的推广或者规划相关的广告费用。具体来说,如果该流式图中边之间的连接关系很紧密,说明在该社交网络中用户之间的连接关系十分紧密,那么该在该社交网络中发布广告,受众群会比较多,会带来较好的广告收益。反之,如果某个社交网络的用户之间的连接关系比较稀疏,在该社交网络上投放广告,可能不能够达到预期的广告效益。由于关系网络结构很复杂,根据关系网络所建立的流式图中边数据量都比较大,基于整个流式图进行处理会给计算资源和存储资源带来挑战。针对这个问题,现有的方法在获取到关系网络所对应的流式图之后,常采用基于蓄水池的单次抽样方法来获取对应的流式图的特征,在该方法中,每条边只被处理一次,并且抽样得到的边集存储于一个称为蓄水池的数据结构中。由于该方法没有考虑边集的具体连接关系,抽样得到的边往往是孤立边,因此无法获取到具有连接关系的样本边集。此外,由于该方法中蓄水池的容量固定,已获取到的具有连接关系的样本有可能在之后被没有连接关系的样本替换掉。因此,现有基于流式图处理关系网络的方法,由于采用基于蓄水池的单次抽样方法处理流式图,无法获取到关系网络中实体间的连接关系特征。
技术实现思路
针对现有技术的缺陷和改进需求,本专利技术提供了一种关系网络中实体间连接关系特征的获取方法及系统,其目的在于,获取关系网络中实体间的连接关系特征。为实现上述目的,按照本专利技术的第一方面,提供了一种关系网络中实体间连接关系特征的获取方法,包括:根据待处理的关系网络中实体与实体之间的关系建立流式图;建立两个用于存储流式图的边的数据结构,分别称为基础蓄水池和渐增蓄水池;基础蓄水池可存储的边数固定为c,渐增蓄水池可存储的边数动态增加;遍历流式图,使得第1~c条边以1的概率进入基础蓄水池,第c+1~N条边进入以和的概率进入基础蓄水池和渐增蓄水池,已经进入基础蓄水池的边在基础蓄水池达到最大存储容量时以相等的概率被新进入的边替换出,并且已经进入渐增蓄水池的边不会被替换出;将基础蓄水池与渐增蓄水池中边集的并集作为样本边集,并遍历样本边集,以得到样本边集中每一个顶点的度,从而获取到各顶点所对应的实体与关系网络中其他实体之间的连接关系特征;其中,N表示流式图中边的总数,N>c;i表示流式图中的边序号,i∈{c+1,c+2,...N};和分别表示第i条边进入基础蓄水池和渐增蓄水池的概率;且边序号越大,概率越小;若第i条边没有进入基础蓄水池,并且能与基础蓄水池中的边构成三角形,则否则,本专利技术所提供的关系网络中实体间连接关系特征的获取方法,在根据关系网络建立流式图之后,利用两个蓄水池结构存储流式图中的边以完成对流式图的抽样,其中基础蓄水池用于存储采用蓄水池抽样方法得到的边集,渐增蓄水池则用于存储与基础蓄水池中的边存在连接关系的边,因此,本专利技术能够在利用蓄水池抽样得到孤立边的基础上,抽样得到与这些孤立边具有连接关系的边,从而能够利用抽样结果获取到流式图中边的连接关系,进而可以得到对应的关系网络中实体之间的连接关系特征。进一步的,本专利技术所提供的关系网络中实体间连接关系特征的获取方法,还包括:根据基础蓄水池中的边集估测流式图中的三角形总量,流式图中三角形总量用于从数量的角度反映关系网络中实体间的连接关系特征。进一步地,进一步地,若第i条边进入基础蓄水池,则已经进入基础蓄水池的一条边被替换出;其中,基础蓄水池中各边被替换出的概率均为进一步地,若第i条边没有进入基础蓄水池,并且能与基础蓄水池中的边构成三角形,则流式图的前i条边中没有进入基础蓄水池且能够与基础蓄水池中的边构成三角形的边越多,第i条边进入渐增蓄水池的概率越小;由于不同的关系网络复杂程度不同,对应的流式图的特性也不相同,如果关系网络所对应的流式图是稠密的,那么会有大量的边满足进入渐增蓄水池的条件,相反,如果关系网络所对应的流式图是稀疏的,那么只有少量的边满足渐增蓄水池的条件,通过上述方法控制边进入渐增蓄水池的概率,稠密的流式图中的边进入渐增蓄水池的概率较小,而稀疏的流式图中的边进入渐增蓄水池的概率较大,由此能够有效避免渐增蓄水池中的边过多而导致消耗大量的计算和存储资源,同时能够有效避免渐增蓄水池中的边过少而无法准确获取到流式图中边的连接关系。作为进一步优选地,若第i条边没有进入基础蓄水池,并且能与基础蓄水池中的边构成三角形,则第i条边进入渐增蓄水池的概率为其中,ti表示流式图的前i条边中没有进入基础蓄水池且能够与基础蓄水池中的边构成三角形的边的数量。按照本专利技术的第二方面,提供了一种关系网络中实体间连接关系特征的获取系统,包括:流式图建立模块、蓄水池建立模块、抽样模块以及特征获取模块;流式图建立模块用于根据待处理的关系网络中实体与实体之间的关系建立流式图;蓄水池建立模块用于建立两个用于存储流式图的边的数据结构,分别称为基础蓄水池和渐增蓄水池;基础蓄水池可存储的边数固定为c,渐增蓄水池可存储的边数动态增加;抽样模块用于遍历流式图,使得第1~c条边以1的概率进入基础蓄水池,第c+1~N条边进入以和的概率进入基础蓄水池和渐增蓄水池,已经进入基础蓄水池的边在基础蓄水池达到最大存储容量时以相等的概率被新进入的边替换出,并且已经进入渐增蓄水池的边不会被替换出;特征获取模块用于将基础蓄水池与渐增蓄水池中边集的并集作为样本边集,并遍历样本边集,以得到样本边集中每一个顶点的度,从而获取到各顶点所对应的实体与关系网络中其他实体之间的连接关系特征;其中,N表示流式图中边的总数,N>c;i表示流式图中的边序号,i∈{c+1,c+2,...N};和分别表示第i条边进入基础蓄水池和渐增蓄水池的概率;且边序号越大,概率越小;若第i条边没有进入基础蓄水池,并且能与基础蓄水池中的边构成三角形,则否则,总体而言,通过本专利技术所构思的以上技术方案,能够取得以下有益效果:(1)本专利技术所提供的关系网络中实体间连接关系特征的获取方法,在根据关系本文档来自技高网
...

【技术保护点】
1.一种关系网络中实体间连接关系特征的获取方法,其特征在于,包括:根据待处理的关系网络中实体与实体之间的关系建立流式图;建立两个用于存储所述流式图的边的数据结构,分别称为基础蓄水池和渐增蓄水池;所述基础蓄水池可存储的边数固定为c,所述渐增蓄水池可存储的边数动态增加;遍历所述流式图,使得第1~c条边以1的概率进入所述基础蓄水池,第c+1~N条边进入以

【技术特征摘要】
1.一种关系网络中实体间连接关系特征的获取方法,其特征在于,包括:根据待处理的关系网络中实体与实体之间的关系建立流式图;建立两个用于存储所述流式图的边的数据结构,分别称为基础蓄水池和渐增蓄水池;所述基础蓄水池可存储的边数固定为c,所述渐增蓄水池可存储的边数动态增加;遍历所述流式图,使得第1~c条边以1的概率进入所述基础蓄水池,第c+1~N条边进入以和的概率进入所述基础蓄水池和所述渐增蓄水池,已经进入所述基础蓄水池的边在所述基础蓄水池达到最大存储容量时以相等的概率被新进入的边替换出,并且已经进入所述渐增蓄水池的边不会被替换出;将所述基础蓄水池与所述渐增蓄水池中边集的并集作为样本边集,并遍历所述样本边集,以得到所述样本边集中每一个顶点的度,从而获取到各顶点所对应的实体与所述关系网络中其他实体之间的连接关系特征;其中,N表示所述流式图中边的总数,N>c;i表示所述流式图中的边序号,i∈{c+1,c+2,...N};和分别表示第i条边进入所述基础蓄水池和所述渐增蓄水池的概率;且边序号越大,所述概率越小;若第i条边没有进入所述基础蓄水池,并且能与所述基础蓄水池中的边构成三角形,则否则,2.如权利要求1所述的关系网络中实体间连接关系特征的获取方法,其特征在于,还包括:根据所述基础蓄水池中的边集估测所述流式图中的三角形总量。3.如权利要求1或2所述的关系网络中实体间连接关系特征的获取方法,其特征在于,4.如权利要求1或2所述的关系网络中实体间连接关系特征的获取方法,其特征在于,若第i条边进入所述基础蓄水池,则已经进入所述基础蓄水池的一条边被替换出;其中,所述基础蓄水池中各边被替换出的概率均为5.如权利要求1或2所述的关系网络中实体间连接关系特征的获取方法,其特征在于,若第i条边没有进入所述基础蓄水池,并且能与所述基础蓄水池中的边构成三角形,...

【专利技术属性】
技术研发人员:王芳冯丹张玲玲
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1