图数据的重划分方法及系统技术方案

技术编号:15299934 阅读:65 留言:0更新日期:2017-05-12 02:16
本发明专利技术提供了图数据的重划分方法及系统。其中,方法为:获取图数据和资源部署指令,资源部署指令表示将图数据分配到多个第一服务器上;将图数据进行划分,得到多个子图,子图的数量与第一服务器的数量一致,且每个子图间是相互独立的;获取资源重新部署指令,资源重新部署指令表示将图数据重新分配到多个第二服务器上,多个第二服务器的数量的平方不大于多个第一服务器的数量;根据多个子图,按照预定规则,得到多个新子图,新子图的数量与第二服务器的数量一致,且多个新子图间是相互独立的。本发明专利技术图数据的重划分方法及系统,在资源重新部署时,采用将子图合并处理,实现图数据的重划分,不用重新遍历和挖掘,提高了图数据重新划分的速度。

Method and system for data division of Graphs

The present invention provides a method and a system for the re partitioning of graph data. The method: obtaining map data and resource deployment instructions, resource deployment instructions will map data distribution to a plurality of first server; map data will be divided, by multiple sub graph, the number of identical subgraph number and the first server, and each sub graph are mutually independent; to obtain resources the redeployment of resources deployment instructions, instructions said it will map data is allocated to a plurality of second servers, the number of more than second the number of servers is not more than the square of the first server; according to the sub graph, according to predetermined rules, get a number of new sub graph, and the number of second new server number matches the subgraphs, and a number of new sub graph are independent of each other. The system and method of the present invention partition map data, in the redeployment of resources, the sub graph merging processing, realize the remeshing of graph data, without re traversal and mining, improve the speed of re division of map data.

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其涉及图数据划分。
技术介绍
图是数据结构的一种,是一种数据存储方式,其数据通过点和边存储。由于海量数据对于系统存储空间与计算能力的需要,需要将数据进行分布式并行存储与计算。在分布式计算环境下,由于图数据记录之间的强耦合性,图数据的不合理分配,往往会造成机器之间负载不均衡,机器之间会增加大量网络通信,而且由于图挖掘算法往往具有多轮迭代运行的特性,大数据分配不合理的影响被明显放大,严重拖慢系统整体的运行效率,所以合理切分图数据对于离线挖掘类型图应用的运行效率来说非常重要。通常将图数据的点或边进行分割,分配到不同的机器上,现有以下三种分割方法:第一种是将图数据中的所有边随机分到不同的子图中;第二种是将具有相同的出点或相同的入点的边分在相同的子图中;第三种是通过矩阵的方式进行图数据的分割,得到图数据分配后的子图。这三种方法中,第三种分割方式更合理,可减少设备之间的通信开销。但当分布式系统需要进行资源的重新部署,即需要将同样的图数据重新分配,通常需要将图数据重新遍历和挖掘,再进行重新划分。此时,无论采用上述哪种分割方式,图数据的重新划分的速度慢,都会增加系统负担。因此,现有技术中的缺陷是,当分布式系统需要进行资源的重新部署,需要将图数据重新遍历和挖掘,再进行重新划分,导致图数据重新划分速度慢,增加系统负担。
技术实现思路
针对上述技术问题,本专利技术提供一种图数据的重划分方法及系统,采用了基于重新划分的图数据之前的子图,进行图数据的重新划分,不用重新遍历和挖掘,提高了图数据重新划分的速度,减轻了系统负担。为解决上述技术问题,本专利技术提供的技术方案是:第一方面,本专利技术提供图数据的重划分方法,包括:步骤S1,获取图数据和资源部署指令,所述资源部署指令表示将所述图数据分配到多个第一服务器上;步骤S2,根据所述资源部署指令,将所述图数据进行划分,得到多个子图,多个所述子图的数量与多个所述第一服务器的数量一致,且每个所述子图间是相互独立的;步骤S3,获取资源重新部署指令,所述资源重新部署指令表示将所述图数据重新分配到多个第二服务器上,多个所述第二服务器的数量的平方不大于多个所述第一服务器的数量;步骤S4,根据多个所述子图,按照预定规则,得到多个新子图,多个所述新子图的数量与多个所述第二服务器的数量一致,且多个所述新子图间是相互独立的。本专利技术的技术方案为先获取图数据和资源部署指令,所述资源部署指令表示将所述图数据分配到多个第一服务器上;接着根据所述资源部署指令,将所述图数据进行划分,得到多个子图,多个所述子图的数量与多个所述第一服务器的数量一致,且每个所述子图间是相互独立的;然后获取资源重新部署指令,所述资源重新部署指令表示将所述图数据重新分配到多个第二服务器上,多个所述第二服务器的数量的平方不大于多个所述第一服务器的数量;最后根据多个所述子图,按照预定规则,得到多个新子图,多个所述新子图的数量与多个所述第二服务器的数量一致,且多个所述新子图间是相互独立的。本专利技术图数据的重划分方法,采用了基于重新划分的图数据之前的子图,直接通过子图得到图数据重新划分后的新子图,实现资源重新部署时,图数据的重新划分,该方法不用重新遍历和挖掘图数据,进行图数据的重划分,提高了图数据重新划分的速度,减轻了系统负担。进一步地,所述步骤S2包括:步骤S21,根据所述资源部署指令,结合所述图数据,建立矩阵,所述矩阵中的元素用来表示所述图数据;步骤S22,根据所述矩阵,将矩阵进行分块处理,得到多个分块矩阵,每个所述分块矩阵用来表示对所述图数据划分后得到的子图;步骤S23,根据多个所述分块矩阵,对应得到多个所述子图,多个所述子图的数量与多个所述第一服务器的数量一致,且每个所述子图间是相互独立的。在根据资源部署指令,对图数据进行划分时,具体是通过矩阵的方式进行图数据的划分,矩阵中每个元素表示所在行、列的点之间的边。通过矩阵的方式将数据分成多个子图,即分配到多个服务器上进行存储和计算。进一步地,所述步骤S4中,根据所述第一服务器的数量,对多个所述子图进行处理:当多个所述第一服务器的数量为X2,且X为自然数时,将多个所述子图按照第一预定规则进行合并处理;当多个所述第一服务器的数量为Y2,且Y为小数时,将多个所述子图按照第二预定规则进行处理。根据第一服务器的数量,对于图数据的重划分包括两种情况,第一种情况是当第一服务器的数量为某个数的平方,根据多个子图,将多个子图按照第一预定规则进行合并处理;第二种情况是,当第一服务器的数量不是某个数的平方,开根号之后是个小数,那么就将多个子图按照第二预定规则进行处理。其中,第一服务器的数量一定不小于第二服务器数量的平方。进一步地,所述第一预定规则为将相邻且平行的多个所述子图进行合并。根据资源重新部署指令,将图数据进行重新划分,就是将相同数量的图数据,分配到更少的服务器上,由于服务器数量变少,那么就要对多个子图进行合并处理,由于每个子图之间是相互独立的,当第一服务器的数量为X2时,就表示在资源重新部署时,将图数据重新分配给至多X个第二服务器,因此将多个子图合并的第一预定规则设定为,将相邻且平行的多个子图进行合并,就得到了新的子图,规则简单,实现起来更容易。保证了每个服务器分配的图数据尽可能是平均的,保证资源分配的合理性,使服务器之间的通信代价相对减小。进一步地,所述第二预订规则为将Y2个所述子图按照所述第一预定规则进行合并,Y2>M2,M为自然数,得到多个中间子图,并将Y2-M2个子图随机分配到多个所述中间子图中。如上所述,当第一服务器的数量为Y2时,且Y为小数,就是表示第一服务器的数量不是某个数的平方时,比如18,那么根据第二预定规则将多个子图进行处理,具体的就是先按照第一预定规则将M2个子图按照第一预定规则进行合并,得到对个中间子图,然后将剩余的Y2-M2个子图随机分配到中间子图中,得到多个新子图。这样,无论第一服务器的数量为多少,都可以根据多个子图实现图数据的重划分,提高了资源重新配置时,图数据重新划分的速度,使服务期间的负担减小,运行更稳定。第二方面,本专利技术图数据的重划分系统,包括:数据获取模块,用于获取图数据和资源部署指令,所述资源部署指令表示将所述图数据分配到多个第一服务器上;图数据划分模块,用于根据所述资源部署指令,将所述图数据进行划分,得到多个子图,多个所述子图的数量与多个所述第一服务器的数量一致,且每个所述子图间是相互独立的;资源重新部署模块,用于获取资源重新部署指令,所述资源重新部署指令表示将所述图数据重新分配到多个第二服务器上,多个所述第二服务器的数量的平方不大于多个所述第一服务器的数量;图数据重划分模块,用于根据多个所述子图,按照预定规则,得到多个新子图,多个所述新子图的数量与多个所述第二服务器的数量一致,且多个所述新子图间是相互独立的。本专利技术的技术方案为先通过数据获取模块,获取图数据和资源部署指令,所述资源部署指令表示将所述图数据分配到多个第一服务器上;接着通过图数据划分模块,根据所述资源部署指令,将所述图数据进行划分,得到多个子图,多个所述子图的数量与多个所述第一服务器的数量一致,且每个所述子图间是相互独立的;然后通过资源重新部署模块,获取资源重新部署指令,所述本文档来自技高网...
图数据的重划分方法及系统

【技术保护点】
图数据的重划分方法,其特征在于,包括:步骤S1,获取图数据和资源部署指令,所述资源部署指令表示将所述图数据分配到多个第一服务器上;步骤S2,根据所述资源部署指令,将所述图数据进行划分,得到多个子图,多个所述子图的数量与多个所述第一服务器的数量一致,且每个所述子图间是相互独立的;步骤S3,获取资源重新部署指令,所述资源重新部署指令表示将所述图数据重新分配到多个第二服务器上,多个所述第二服务器的数量的平方不大于多个所述第一服务器的数量;步骤S4,根据多个所述子图,按照预定规则,得到多个新子图,多个所述新子图的数量与多个所述第二服务器的数量一致,且多个所述新子图间是相互独立的。

【技术特征摘要】
1.图数据的重划分方法,其特征在于,包括:步骤S1,获取图数据和资源部署指令,所述资源部署指令表示将所述图数据分配到多个第一服务器上;步骤S2,根据所述资源部署指令,将所述图数据进行划分,得到多个子图,多个所述子图的数量与多个所述第一服务器的数量一致,且每个所述子图间是相互独立的;步骤S3,获取资源重新部署指令,所述资源重新部署指令表示将所述图数据重新分配到多个第二服务器上,多个所述第二服务器的数量的平方不大于多个所述第一服务器的数量;步骤S4,根据多个所述子图,按照预定规则,得到多个新子图,多个所述新子图的数量与多个所述第二服务器的数量一致,且多个所述新子图间是相互独立的。2.根据权利要求1所述图数据的重划分方法,其特征在于,所述步骤S2包括:步骤S21,根据所述资源部署指令,结合所述图数据,建立矩阵,所述矩阵中的元素用来表示所述图数据;步骤S22,根据所述矩阵,将矩阵进行分块处理,得到多个分块矩阵,每个所述分块矩阵用来表示对所述图数据划分后得到的子图;步骤S23,根据多个所述分块矩阵,对应得到多个所述子图,多个所述子图的数量与多个所述第一服务器的数量一致,且每个所述子图间是相互独立的。3.根据权利要求1所述图数据的重划分方法,其特征在于,所述步骤S4中,根据所述第一服务器的数量,对多个所述子图进行处理:当多个所述第一服务器的数量为X2,且X为自然数时,将多个所述子图按照第一预定规则进行合并处理;当多个所述第一服务器的数量为Y2,且Y为小数时,将多个所述子图按照第二预定规则进行处理。4.根据权利要求3所述图数据的重划分方法,其特征在于,所述第一预定规则为将相邻且平行的多个所述子图进行合并。5.根据权利要求3或4所述图数据的重划分方法,其特征在于,所述第二预订规则为将Y2个所述子图按照所述第一预定规则进行合并,Y2>M2,M为自然数,得到多个中间子图,并将Y2-M2个子图随机分配到多个所述中间子图中。6.图数据的重划分系统,其特征在于,包括:数据获取模块,...

【专利技术属性】
技术研发人员:边旭贾西贝
申请(专利权)人:深圳市华傲数据技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1