一种基于团的大规模图最短距离索引方法技术

技术编号：13603770 阅读：31 留言：0更新日期：2016-08-27 23:22

本发明专利技术公开了一种基于团的大规模图最短距离索引方法。伴随着大数据时代的到来，图处理面临的数据规模越来越大，使得传统的距离算法(Dijkstra,BFS,Floyd)因为内存瓶颈变得不再适用，同时在在线应用中，对响应时间要求高，传统算法会因运算时间过长而无法满足实时响应的需求。为满足现实应用中对距离查询的实时响应要求，基于索引的大规模图距离查询算法得以提出。本发明专利技术提出的是一种针对无向无权稠密图的距离索引。在无向无权图中，特别是强关系图中，例如社交网络，通信网络中存在大量全连通子图(又被称为团)。本发明专利技术提出的索引是一种基于团的索引，同其他索引比较可有效压缩索引大小。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图算法
，更具体地，涉及一种基于团的大规模图最短距离索引方法。
技术介绍
图数据被广泛用于刻画现实世界的各种实体关系，例如社交网路，语义网络，公路网路等等。许多应用问题最终可以抽象成图问题，最短距离(最短路径)作为图基础而重要的问题之一，有着广泛的应用背景，例如上文感知的web搜索，智能导航，LBS，社交网络的分析等。伴随着大数据时代的到来，图处理面临的数据规模越来越大，使得传统的距离算法(Dijkstra,BFS,Floyd)因为内存瓶颈变得不再适用，同时在在线应用中，对响应时间要求高，传统算法会因运算时间过长而无法满足实时响应的需求。为缩短距离查询时间，基于索引的距离查询算法应运而生。基于索引的查询算法，采用的是空间换时间思想，预计算图中部分顶点之间最短距离并将其组织成合适的索引，利用这些索引的组合可以计算出两点间的距离。根据图距离查询算法对处理数据的精度区分，可以将算法分为精确和非精确两类。精确算法可以得出任意两点的实际的最短距离，通常建立的索引比较复杂，占用的空间也比较大，而非精确算法得出的两点距离是个估值，准确度难以保证，特别是两个相距较近的点更容易产生误差，但是非精确算法建立的索引占用的空间较小，有更好的可扩展性。
技术实现思路
针对无向无权稠密图，本专利技术提出了一种精确距离索引。本专利技术首先利
用独立集对图中的顶点进行分层，然后自顶向下建立每个顶点的距离索引。针对精确索引通常占用空间较大，本专利技术利用稠密图的特有属性进行索引压缩。在一些种类的稠密图，例如社交网络，通信网络中存在着大量的完全连通子图(图论...

【技术保护点】
一种基于团的大规模图最短距离索引方法，其特征在于，包含以下步骤：(1)对原图数据进行清理，去除自环和冗余边，将图数据以邻接表形式存储；(2)利用独立集对图的顶点进行分层，每层独立集都是由若干个互不相连的顶点构成的顶点子集，最终每个顶点被划归到某一特定独立集，所有独立集的并集组成图的所有顶点；(3)将原图与步骤(2)中生成的所有辅助边构成一个扩充图G，自顶层顶点向下层顶点建立距离索引，每个顶点记录到其祖先节点间的距离，其中顶层顶点是指rank值高的点，下层顶点是指rank值低的点；(4)对每个顶点的距离索引，将其中属于同一个团的顶点距离信息聚合压缩。

【技术特征摘要】
1.一种基于团的大规模图最短距离索引方法，其特征在于，包含以下步骤：(1)对原图数据进行清理，去除自环和冗余边，将图数据以邻接表形式存储；(2)利用独立集对图的顶点进行分层，每层独立集都是由若干个互不相连的顶点构成的顶点子集，最终每个顶点被划归到某一特定独立集，所有独立集的并集组成图的所有顶点；(3)将原图与步骤(2)中生成的所有辅助边构成一个扩充图G，自顶层顶点向下层顶点建立距离索引，每个顶点记录到其祖先节点间的距离，其中顶层顶点是指rank值高的点，下层顶点是指rank值低的点；(4)对每个顶点的距离索引，将其中属于同一个团的顶点距离信息聚合压缩。2.根据权利要求1所述的方法，其特征在于，所述步骤(2)具体包括如下子步骤：(2.1)对图中所有剩余顶点按照顶点度数进行排序；(2.2)假设i代表是第几次迭代，Si代表独立集，Gi代表移除Si-1后的图；按照顶点的度数由小到大选出一个尽可能大的独立集(互不相连的顶点组成的集合)Si；(2.3)对于Si中的每一个顶点v，从图Gi-1中移除v及其关联的边，假设其两个邻接点为u和w，若边<u,w>不存在，则添加辅助边<u,w>，且其权值等于边<u,v>与边<v,w>的权值之和；若边<u,w>存在且权值大于<u,v>与<v,w>的权值之和，更新边<u,w>的权值为<u,v>与<v,w>的权值之和；(2.4)从Gi-1移除Si中所有节点后得到Gi，重复(2.1)，(2.2)和(2.3)的步骤直到Gi剩余一个顶点，此时所有顶点都被分割到若干独立集
\t中，即∑∪Si＝V，若顶点属于Si，则其rank值为i，最终每个顶点都有确定的rank值。3.根据权利要求1或2所述的方法，其特征在于，所述步骤(3)具体包括如下子步骤：(3.1)初始化顶点v的索引L(v)，将(v,0)，(...

【专利技术属性】
技术研发人员：谢夏，李沛洋，金海，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人