一种两类基于近似度分布的分层图抽样方法技术

技术编号:23890964 阅读:76 留言:0更新日期:2020-04-22 06:27
本发明专利技术公开了一种两类基于近似度分布的分层图抽样方法,其特点采用k‑means聚类算法获取图中节点的近似度分布,并给出k‑means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值,然后在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点,并根据导出子图技术获取完整抽样子图,导出子图技术能够保证抽样子图的局部完整性,最后采用常用指标评价抽样结果的准确性。本发明专利技术与现有技术相比具有快速挖掘大规模图中隐藏的有价值的信息,抽样准确度高,有效解决了抽样有偏性的问题。

Two kinds of stratified graph sampling methods based on approximation distribution

【技术实现步骤摘要】
一种两类基于近似度分布的分层图抽样方法
本专利技术涉及图数据分析和应用
,尤其是一种两类基于近似度分布的分层图抽样方法。
技术介绍
随着,现实世界的众多应用与前所未有的方式和速度产生并积累着大量数据,图作为一种有效描述大数据的数据结构,扮演者越来越重要的角色。在社交网络分析、推荐网络分析等研究领域,许多计算问题都能转化为一个基于图的问题,如何准确地建模并高效地分析它们,逐渐成为数据分析领域的研究热点。在图模型中,自然界的实体被抽象为点,它们之间的关系被抽样成边,如何快速且高效地分析和挖掘图数据中蕴含的大量有价值的信息成为当前图数据分析领域的研究重点。不同学科从不同角度入手均进行了有价值地分析,计算机科学的飞速发展使得图分析与挖掘的研究工作取得了巨大的进展,优秀的研究成果层出不穷。近几年,由于大规模图分析应用领域的飞速发展,致使图数据规模急剧增长,抽样技术作为有效地数据规约方法被广泛应用,这都推动了计算机科学家对图抽样算法的研究。目前,图抽样算法大致分为三种类型:基于点选择策略的随机抽样算法、基于边选择策略的随机抽样算法和基于图拓扑结构的抽样算法。早期对图抽样算法的研究局限于静态小规模图的抽样,它们通常假设图数据规模较小,并且能够全部放入主存。直到2006年,Leskovec首次提出了针对大规模图数据的抽样算法FFS,文中首次汇总了15个常见的抽样结果度量标准,同时该文指出,在抽样过程中,基于点选择策略的抽样算法易于偏向抽取低度节点,基于边选择策略的抽样算法易于偏向抽取高度节点,基于拓扑结构的抽样算法易于偏向抽取高度节点。同时还提出将15%和20%作为最佳的抽样比例,进一步增强了图分析领域人员对图抽样算法的认识。文中还指出,有偏抽样大大降低了抽样结果准确性。2010年,Gjoka提出了MHRW算法,该算法基于Markov-chainMonteCarlo(MCMC)算法,它被证明是实现无偏性图抽样的一个较好的解决方案。2016年,LupingYu的论文总结了现有性能较优的图抽样算法,并采用真实世界的图数据集评估了算法的抽样性能。图抽样技术不仅在理论研究方面发展迅速,而且在图抽样应用方面也有诸多成果。Rafiei提出可以在大规模图中使用抽样技术高效地实现可视化。YanhongWu在2016年提出图抽样的可视化观点,该文指出,抽样方法应该重视图数据集中的高度节点,即高度节点应该被作为重要的可视化因子,该文针对高度节点提出了一系列假设,并通过实验验证了假设的正确性。现有技术在一次抽样过程中存在着抽样有偏性的问题,抽样准确度差,想要提高抽样精确度,只能通过大量重复抽样,在大数据时代,重复多次抽样显得不切实际。
技术实现思路
本专利技术的目的是针对现有技术的不足而设计的一种两类基于近似度分布的分层图抽样方法,采用k-means聚类算法获取图中节点的近似度分布,利用不同层抽样节点数阈值筛选节点,以获取抽样子图中的特征参数,并评价抽样结果的准确性。通过使用图的度分布特性,自动获得图的近似度分布,从而避免通过统计获得节点的度分布,并给出了近似度分布的计算方法,统计不同层内节点的个数,得出指定比例下某层抽取节点的阈值,在大规模图中采用基本抽样算法,实现基于近似度分布的筛选策略,从而达到调整一次抽样过程中存在的抽样有偏性问题;接着利用导出子图技术,得到相对完整的局部子图,能够快速挖掘大规模图中隐藏的有价值的信息。本专利技术的目的是这样实现的:一种两类基于近似度分布的分层图抽样方法,其特点具体包括以下步骤:步骤一:采用k-means聚类算法获取图中节点的近似度分布,并根据不同聚类簇内轮廓系数与聚类结果获得k-means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值。步骤二:在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点。步骤三:根据导出子图技术获取局部完整的抽样子图。步骤四:获取抽样子图中的特征参数,评价抽样结果的准确性。本专利技术与现有技术相比具有快速挖掘大规模图中隐藏的有价值的信息,抽样准确度高,有效解决了抽样有偏性的问题,无需在大数据场景下进行多次重复抽样便可得到更为准确的评估结果,这在大数据时代显得尤为重要。附图说明图1为本专利技术流程示意图;图2为本专利技术的k值选择图;图3为实施例1的分层图算图。具体实施方式参阅附图1,本专利技术按下述步骤实现两类基于近似度分布的分层图抽样:步骤一:采用k-means聚类算法获取图中节点的近似度分布;参阅附图2,结合理论和实验给出k-means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值。步骤二:在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点,这能够消除当前图抽样方法在一次抽样过程中存在的抽样有偏性问题,提高抽样准确度。步骤三:根据导出子图技术获取完整抽样子图,导出子图技术能够保证抽样子图的局部完整性。步骤四:获取抽样子图中的特征参数,评价抽样结果的准确性。下面以具体实施为例对本专利技术作进一步阐述:实施例1将抽样子集定义为两个2元组(N,Nstate)和(E,Estate),其中:Nstate和Estate分别表示数据集中点和边是否已经被抽取,使得能够方便地表示不放回抽样;N和E分别表示图中定义的节点与边。本专利技术通过使用图的度分布特性,自动获得图的近似度分布,从而避免通过统计获得节点的度分布,并给出了近似度分布的计算方法,统计不同层内节点的个数,得出指定比例下某层抽取节点的阈值;在大规模图中采用基本抽样算法,并实现基于近似度分布的筛选策略,从而达到调整一次抽样过程中存在的抽样有偏性问题;接着利用导出子图技术,得到相对完整的局部子图,能够快速挖掘大规模图中隐藏的有价值的信息,具体操作步骤如下:步骤一:采用k-means聚类算法获取图中节点的近似度分布参阅附图3,结合理论和实验给出k-means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值。用统计学的观点来看,获取不同节点的度分布实际上是获取不同度数值在整个数据集中的数量,不同度的节点数目与节点度大小形成的曲线就是度分布曲线。由于不同的数据集,度大小范围不同,如果试图获取节点的精确度分布,耗时且没有必要,并且对于算法设计而言,可操作性不强。在图数据中,不同节点的度具有无标度特性,即不同节点的度服从幂律分布(近似80~20分布),考虑是否能够高效地得到节点的近似度分布,随后依据节点的近似度分布给出整体的一个最优分割。本专利技术认为向量聚类算法能够高效地得到节点的近似度分布。在数据挖掘技术中,有许多向量聚类算法,如k-means、k-medoids、DBSCAN、HDBSCAN、EM等。DBSCAN、HDBSCAN、EM和k-medoids算法的时间复杂度均为多项式时间[5],并且DBSCAN在使用过程中需要给出两个参数,其中一个参数本文档来自技高网
...

【技术保护点】
1.一种两类基于近似度分布的分层图抽样方法,其特征在于该分层图抽样方法具体包括以下步骤:/n步骤一:采用k-means聚类算法获取图中节点的近似度分布,并根据不同聚类簇内轮廓系数与聚类结果获得k-means算法中k的最优值,统计不同层内节点的个数,得出指定比例下某层抽取节点数目的阈值;/n步骤二:在图中采用基于边和基于随机游走的抽样策略,利用上述阈值筛选抽出的节点;/n步骤三:利用导出子图技术获取局部完整的抽样子图;/n步骤四:获取抽样子图中的特征参数,评价抽样结果的准确性。/n

【技术特征摘要】
1.一种两类基于近似度分布的分层图抽样方法,其特征在于该分层图抽样方法具体包括以下步骤:
步骤一:采用k-means聚类算法获取图中节点的近似度分布,并根据不同聚类簇内轮廓系数与聚类结果获得k-means算法中k的最优值,统计不同层内节点的个...

【专利技术属性】
技术研发人员:贺樑朱君鹏吴雯
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1