一种大规模图数据表示方法技术

技术编号：15504998 阅读：60 留言：0更新日期：2017-06-04 00:44

本发明专利技术公开一种大规模图数据表示方法，其基于K

A large scale data representation method

The invention discloses a large scale graph data representation method based on K

全部详细技术资料下载

【技术实现步骤摘要】
一种大规模图数据表示方法
本专利技术涉及大数据处理
，具体涉及一种大规模图数据表示方法。
技术介绍
图数据是指使用图来抽象表示数据实体以及它们之间的关系，数据实体表示为图中的顶点，数据实体之间的关系表示为图中的边。图数据是一个很宽泛的概念，主要的表现形式有网页图、社交网络图、生物信息图、语义Web以及知识图谱等。图数据正日益成为一种重要的处理对象。在大数据背景下，图数据的顶点规模往往会达到千万级别，而边数则会达到亿级别。当使用K2-tree表示大规模图数据时主要会存在以下两个问题：1)K2-tree对邻接矩阵是进行机械式的划分，而图数据中往往存在大量的集群结构，这种划分方式将会严重破坏集群结构，造成子矩阵之间通信频繁。由于将原本聚集大量值为1的元素的区域一部分划分至另外一个子矩阵，从而增加了表示值为1的元素所用的存储空间。2)由于K2-tree的高度是由图数据中的顶点数所决定，所以在表示大规模图数据时，K2-tree的高度会与图数据的顶点数成正比。由于K2-tree最底层中的L向量包含了邻接矩阵中单个元素的信息，因此从根节点向下访问到叶子层所需要的时间也会随着K2-tree高度的增加而增加。因此，K2-tree对图数据内在结构特性以及表示大规模图数据时的查询效率方面缺乏必要的考虑，其在紧凑性以及查询效率上仍有较大的改善空间。
技术实现思路
本专利技术所要解决的技术问题是现有使用K2-tree表示大规模图数据时存在查询效率低的问题，提供一种大规模图数据表示方法。为解决上述问题，本专利技术是通过以下技术方案实现的：一种大规模图数据表示方法，包括如下步骤：步骤...

【技术保护点】
一种大规模图数据表示方法，其特征是，包括如下步骤：步骤1、以基于密度的聚类思想为指导，将图数据划分为规模不等的簇；步骤2、将簇以及未包含在簇范围内的部分所对应的子矩阵进行K

【技术特征摘要】
1.一种大规模图数据表示方法，其特征是，包括如下步骤：步骤1、以基于密度的聚类思想为指导，将图数据划分为规模不等的簇；步骤2、将簇以及未包含在簇范围内的部分所对应的子矩阵进行K2-tree表示；步骤3、将簇所对应K2-tree的L向量串联成一个全局L向量，并进行DACs编码；步骤4、将每一个需要查询的节点定位到对应簇的K2-tree中，再根据K2-tree的遍历规则进行查询。2.根据权利要求1所述的一种大规模图数据表示方法，其特征是，步骤1具体为：步骤1.1、将图数据抽象成邻接矩阵表示；步骤1.2、将邻接矩阵的第一行第一列的元素作为子矩阵的起点，沿邻接矩阵的主对角线拓展子矩阵的规模，每次拓展后子矩阵的宽度都增加1；步骤1.3、子矩阵拓展完成后，计算当前子矩阵的离群率φ和规模MinSize；步骤1.4、如果当前子矩阵的离群率φ小于等于设定的离群阈值，且当前子矩阵的规模大于等于设定的规模阈值，则将当前子矩阵作为一个簇处理；否则，返回步骤1.2，继续拓展当前子矩阵；步骤1.5、若当前子矩阵的最右下角元素位于第i行第i列，则选取邻接矩阵中第i+1行第i+1列的元素作为新子矩阵的起点，并重复执行步骤1.3和1.4，直到到达邻接矩阵中最后一行最后一列的元素；步骤1.6、将邻接矩阵中所有被簇包含的区域内的元素全部置为0。3.根据权利要求1所述的一种大规模图数据表示方法，其特征是，步骤2具体为：步骤2.1、使用数组记录每一个簇所包含行列号的区间；步骤2.2、对于每一个簇所对应的矩阵，先将该矩阵的规模扩充为K的幂次方，再将矩阵划分为规模相等的K2个子矩阵；若子矩阵中包含有值为1的元素，则将该子矩阵标记为1；否则，将该子矩阵标记为0；将划分前的矩阵作为根节点，则划分后的K2个子矩阵作为根节点的孩子节点，节点值则为标记的值；步骤2.3、将步骤2.2中标记为1的子矩阵继续按照步骤2.2中的划分方式进行K2划分，并根据子矩阵在父矩阵中的位置，按照由上到下，从左至右的顺序将子矩阵作为父矩阵的孩子节点；步骤2.4、重复步骤2.2和2.3，直到子矩阵...

【专利技术属性】
技术研发人员：常亮，曾祥炫，古天龙，徐周波，王荣，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西,45

全部详细技术资料下载我是这个专利的主人