一种基于度特征替换策略的流式图抽样方法技术

技术编号:12249326 阅读:74 留言:0更新日期:2015-10-28 14:12
本发明专利技术属于流式图数据抽样领域,尤其涉及一种度特征替换策略的抽样方法。包括:S1.流式边e=(u,v)到达,判断是否会产生点替换,如果会发生点替换,则执行S2,否则执行S7;S2.根据抽样子图Gs中点的度特性,确定点替换概率函数f(di),di∈D,D为子图中点的度分布集合;根据概率函数计算点vi被替换的概率得到子图中点替换概率集合S3.采用遗传算法中的选择算法select(P),其中P为S2中计算得到的点替换概率集合,选取待替换的点r;S4.根据替换原则,判断S3选择的点r是否符合要求,若符合则转至S5;否则转至S3;S5.从Vs中删除r,从Es中删除与r相关联的边;S6.从Vs中删除独立点;S7.把新增点和边e加入子图Gs中。本发明专利技术方法得到的抽样子图与原图的特性相似度高。

【技术实现步骤摘要】

本专利技术属于流式图数据抽样
,更具体地,涉及一种基于度特征替换策略 的流式图抽样方法。
技术介绍
图作为一种能够表达丰富的数据和关系的数据结构,被广泛地应用在各种领域的 分析当中。当图数据规模达到很高的数量级,执行全图分析和操作开销非常巨大。而且在 实际的场景中,点和边的信息会随着时间的推移动态改变,即动态图,就这种情况而言,全 图分析很难实现。此时一般可以选取图中的部分点或边,得到抽样子图,然后进行处理,以 期获取足够准确的结果,就会缓解或消除图规模和动态图的带来的处理难度。 流式图抽样方法不需要访问全图结构,只需要对流式到达的每条边进行抽 样处理。现有的部分推导边抽样PIES(Partially_InducedEdgeSampling,见论文: "Space-efficientsamplingfromsocialactivitystreams")算法,实现了在流式图中 抽样出具有代表性的子图。流式图Stream= {etl,et2, . . .,etn}是以边eti (1彡i彡n)为流 式元素的集合,下标表示流式到达的次序,给定抽样目标点数目n,经过抽样算法对Stream 的一次单向处理后,得到子图Gs =(Vs,Es),Vs为子图的点集合,E3为子图的边集合,其中点 集中点的个数|VS| =n。PIES算法在边选择上采用蓄水池抽样的思想,先将元素流中前面 的m个元素直接加入抽样池;后面对每个流式到达的元素按照当前流式处理的进度进行分 配抽取概率,后面被抽取到的元素会按相同概率随机替换掉当前抽样池中的一个元素。在 替换发生时,如何从1中选择出一个将要被替换的点r是替换策略的关键。PIES算法按 照等概率从Vs中随机选择一个点作为被替换的点。这种方法对每个点都很公平,但对边并 不公平,这里的点关联到很多边,在替换点的同时会相应地删除掉与该点相关联的边。没有 考虑度特征,频繁删除有较高存在价值的高度点,会造成子图结构的频繁抖动。后续提出的 PIES改进方法PIES-MIN,考虑度特征,替换度最小的点(大部分情况下是度为1的点)。过 于忽视最小度的点,导致高度点集聚,使得到子图的边较密集,与原图特性相似度不高。
技术实现思路
本专利技术目的在于提供一种基于度特征替换策略的部分推导边抽样的流式图抽样 算法,目的在于减少频繁删除度高的点造成的子图抖动,缓解过于忽视度最小度的点而导 致高度点集聚、子图边过于密集的问题,得到的抽样子图与原图的特性相似度高。 为了实现上述目的,本专利技术提供了, 包括如下步骤: S1.流式边e= (u,v)到达,判断是否会产生点替换,如果会发生点替换,则执行 S2,否则执行S7 ; S2.根据抽样子图Gs中点的度特性,确定点替换概率函数f(dJ,山GD ;根据概率 函数计算点 '被替换的概率烏=/(<),得到子图中点替换概率集合>(八,八,…^ n. 其中 是点Vi的度,且zA. = 1。抽样子图为Gs= (Vs,Es),VS={vv2,. . .,vn}为子图的 .巧' l 点集合,Vi(l彡i彡n)为抽样子图中的点,且点集大小|VS| =n;ES={ee2, . . .,em}为子 图的边集合,e](l彡j彡m)为抽样子图中的边;D= {山,d2,. . .,dj为点集合中点的度分 布; S3.采用遗传算法中的选择算法select(P),其中P为S2中计算得到的点替换概 率集合,选取待替换的点r; S4.根据替换原则,判断S3选择的点r是否符合要求,若符合则转至S5 ;否则转至 S3 ; S5.从1中删除r,从删除与r相关联的边; S6.从1中删除独立点; S7.把新增点和边e加入子图Gs中。 本专利技术的一个实施例中,所述步骤S1中判断是否会产生点替换的依据如下: a)若uGVs,vGVs,不会引起1添加新点,不发生替换; b)若uGVs,vgR,如果现有点的个数|VS| <n,则不发生替换;否贝1J,点v需要 添加到Vs*并且替换掉一个现有的点; c)若如果现有点的个数|VS| <n_l,则不发生替换;否则,u,v都需 要添加到Vs中并发生一次或两次替换。 本专利技术的一个实施例中,所述步骤S2中确定点替换概率函数以山)的原则为: 为度较高的点分配较小的替换概率,即函数在作用域内单调递减, 其中(1_为度分布集合中最高的度数。 本专利技术的一个实施例中,所述以山)是反比例函数,或者是递减的指数函数。 本专利技术的一个实施例中,所述步骤S3中选择算法select(P)的原则是:使得替换 概率高的点被选择的概率大。 本专利技术的一个实施例中,所述选择算法select(P)是遗传算法中的轮盘赌选择算 法,或者是比例选择算法。 本专利技术的一个实施例中,所述步骤S4中的替换原则如下: a)上述S1的b)情况下,在选择替换点时,不能选择新增边中的点,并且在后续的 孤立点删除时也不能删除新增边中的点; b)上述S1的c)情况下,假设先添加u,再添加v;在添加u时,1中没有与其相关 联的点,所以发生的替换并没有限制;后面在添加v时,由于Vs中存在与其相连的点u,所 以替换出的点不能为u;在这种情况下,第一个新增点在替换时没有限制,第二新增点在替 换时不能替换刚新增的第一个点,并且在后续的孤立点删除时也不能删除刚新增的第一个 点。 以上的基于度特征替换策略的图抽样算法,简称为PIES-INV,有别于现有技术方 案PIES算法和PIES-MIN算法,总体而言,本专利技术方法与现有技术方案相比有如下优势: 1、与PIES算法中随机选择替换点相比,考虑高度点的重要性,为高度点分配低替 换概率的方法,降低高度点的替换概率,从而减少了频繁删除度高的点造成的子图抖动; 2、与PIES-MIN算法只选择最小度的点为替换点相比,采用遗传算法中的选择算 法,避免了过于忽视度最小度的点而导致高度点集聚、子图边过于密集的问题。对低度点多 或者集聚系数小的图,得到的抽样子图与原图的特性相似度高。【附图说明】 图1为本专利技术提出的替换策略算法流程; 图2为本专利技术实施例提供的流式到达的边示意图; 图3为本专利技术实施例提供的抽样过程中暂存子图的点、边集合示意图; 图4为本专利技术实施例提供的轮盘赌概率分布示意图。【具体实施方式】 为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要 彼此之间未构成冲突就可以相互组合。 本专利技术通过以下技术手段实现: 设抽样子图为Gs=(Vs,Es),Vs={vi,v2, . . .,vn}为子图的点集合,其中, Vl(l彡i彡n)为抽样子图中的点,且点集大小|VS| =n。Es= {ei,e2,...,eni}为子图的边 集合,e_j(l彡j彡m)为抽样子图中的边。点集合中点的度分布为D= {山,d2, . ? .,dk};每 个度对应的点数目为C= {c^,c2, . . .,ck}。 如图1所示,本专利技术提供了一种基于度特征替换策略的图抽样算法,包括以下步 骤: S1.流式边e= (u,v)本文档来自技高网
...

【技术保护点】
一种基于度特征替换策略的流式图抽样方法,其特征在于,所述方法包括如下步骤:S1.流式边e=(u,v)到达,判断是否会产生点替换,如果会发生点替换,则执行S2,否则执行S7;S2.根据抽样子图Gs中点的度特性,确定点替换概率函数f(di),di∈D;根据概率函数计算点vi被替换的概率得到子图中点替换概率集合其中是点vi的度,且抽样子图为Gs=(Vs,Es),Vs={v1,v2,...,vn}为子图的点集合,vi(1≤i≤n)为抽样子图中的点,且点集大小|Vs|=n;Es={e1,e2,...,em}为子图的边集合,ej(1≤j≤m)为抽样子图中的边;D={d1,d2,...,dk}为点集合中点的度分布;S3.采用遗传算法中的选择算法select(P),其中P为S2中计算得到的点替换概率集合,选取待替换的点r;S4.根据替换原则,判断S3选择的点r是否符合要求,若符合则转至S5;否则转至S3;S5.从Vs中删除r,从Es中删除与r相关联的边;S6.从Vs中删除独立点;S7.把新增点和边e加入子图Gs中。

【技术特征摘要】

【专利技术属性】
技术研发人员:施展冯丹余静韩江郭鹏飞黄力鲍匡迪欧阳梦云
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1