System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及图数据处理,特别是涉及一种图数据分割方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、随着图数据规模的增长,对于大图或超大图来说,由于其数据太大可能无法在单机上进行学习,在这种情况下,就需要对图数据进行划分来实现大图计算,由此产生了图分区技术。图分区技术的目的是将一个大图按照一定规则分割成若干个子图从而能够支持分布式的应用。
2、传统方式中,通常采用哈希随机分区的方式进行,在划分过程中一般是对点/边进行哈希映射到分区id(标识),分区方式简单不需要先验知识。但是这种随机化的分割方式会造成划分后子图内节点的局部性很难得到维持,被切掉的边会非常多,导致图计算过程中进行节点采样时需要非常大的通信开销。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种图数据分割方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种图数据分割方法,包括:
3、确定待处理的图数据中各节点的节点度,所述节点包括源节点和目的节点;
4、根据节点度在预设范围内的目的节点,生成多个初始的分区;
5、针对节点度处于当前度区间中的任一目的节点,根据与所针对目的节点的源节点相关的目的节点所属的分区,确定与所述源节点相匹配的分区;
6、将所针对目的节点的源节点划分至所述相匹配的分区;
7、更新所述当前度区间,并基于更新后的当前度区间返回至针对节点度处于当前度区间中的任一
8、第二方面,本申请还提供了一种图数据分割装置,包括:
9、第一确定模块,确定待处理的图数据中各节点的节点度,所述节点包括源节点和目的节点;
10、生成模块,用于根据节点度在预设范围内的目的节点,生成多个初始的分区;
11、第二确定模块,用于针对节点度处于当前度区间中的任一目的节点,根据与所针对目的节点的源节点相关的目的节点所属的分区,确定与所述源节点相匹配的分区;
12、划分模块,用于将所针对目的节点的源节点划分至所述相匹配的分区;
13、迭代模块,用于更新所述当前度区间,并基于更新后的当前度区间返回至针对节点度处于当前度区间中的任一目的节点的步骤继续执行,以实现图数据的分割;图数据分割得到的子图用于进行分布式的图计算。
14、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现图数据分割方法的步骤。
15、第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现图数据分割方法的步骤。
16、第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现图数据分割方法的步骤。
17、上述图数据分割方法、装置、计算机设备、存储介质和计算机程序产品,会先根据节点度在预设范围内的目的节点,生成多个初始的分区,进而在通过迭代划分的方式对图数据进行划分,在每次迭代划分时会根据源节点的一阶邻居的度的大小,选择弹性的当前度区间,进而选择节点度在当前度区间内的目的节点,并针对所选择的每个目的节点的源节点进行分区指派。在对源节点进行分区指派时,会根据源节的目的节点所属的分区对其进行分区指派,使得每次迭代划分过程中,大部分的源节点可以与其相关的目的节点被划分到同一分区,保持了节点的局部性,使得图数据能够被均衡地划分,这样在后续进行分布式的图计算的过程中,在需要进行邻居节点采样时能够提高在本地子图采样成功的概率,减少跨设备拉取数据的频次和数据量,从而大大降低了通信开销。
本文档来自技高网...【技术保护点】
1.一种图数据分割方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据节点度在预设范围内的目的节点,生成多个初始的分区,包括:
3.根据权利要求1所述的方法,其特征在于,所述针对节点度处于当前度区间中的任一目的节点,根据与所针对目的节点的源节点相关的目的节点所属的分区,确定与所述源节点相匹配的分区,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据与所针对目的节点的源节点相关的目的节点所属的分区,确定与所述源节点相匹配的分区,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据各分区中具有的第二目的节点的数量,确定与所述源节点相匹配的分区,包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求5所述的方法,其特征在于,所述目标分区的分区阈值随着当前度区间的减小而增大。
8.根据权利要求1所述的方法,其特征在于,所述更新所述当前度区间,包括:
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述方法还包括:
12.一种图数据分割装置,其特征在于,所述装置包括:
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种图数据分割方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据节点度在预设范围内的目的节点,生成多个初始的分区,包括:
3.根据权利要求1所述的方法,其特征在于,所述针对节点度处于当前度区间中的任一目的节点,根据与所针对目的节点的源节点相关的目的节点所属的分区,确定与所述源节点相匹配的分区,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据与所针对目的节点的源节点相关的目的节点所属的分区,确定与所述源节点相匹配的分区,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据各分区中具有的第二目的节点的数量,确定与所述源节点相匹配的分区,包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求5所述的方法,其特征在于,所述目标分区的分区阈值随着当前度区间的减小而增大。
...
【专利技术属性】
技术研发人员:孙瑞鸿,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。