【技术实现步骤摘要】
一种面向异质图数据的在线图划分方法
[0001]本专利技术属于图计算和实时
,具体涉及一种面向异质图数据的在线图划分方法。
技术介绍
[0002]图是一种重要的数据结构,具有更强大的表达能力,且可以将不同来源、不同类型的数据融合到同一个图里进行分析,得到原本独立分析难以发现的结果,因此,图计算可以广泛地应用在社交网络、推荐系统、网络安全、文本检索和生物医疗等领域,很多问题能在图论支撑下借助图相关的算法得到高效解决。近年来随着大数据、机器学习和数据挖掘等技术的高速发展,很多领域抽象出来的图规模呈指数级增长,为了应对海量数据带来的挑战,现在多使用分布式图计算系统。图划分算法是分布式图计算系统里的重要组成部分,它将一个图划分为若干子图以便在分布式系统中运行,并将子图上的点和边数据及子图上的计算任务分配到各节点,分配完成后在分布式系统中并行运行图计算的迭代计算任务,直到没有新的节点或边到来,且所有节点的计算任务都完成,从而完成整个图计算过程。由此可见,高效的图划分算法可以显著提高图计算系统的运行性能。
[0003]在许 ...
【技术保护点】
【技术特征摘要】
1.一种面向异质图数据的在线图划分方法,其步骤包括:1)评估图计算系统的计算速度不平衡性和存储空间不平衡性;其中,根据图计算系统进行异质图计算中不同类型节点的节点函数时间复杂度T确定所述图计算系统的计算速度不平衡性;根据图计算系统进行异质图计算中不同类型节点所携带的数据占用的存储空间S
v
和不同类型边所携带的数据占用的存储空间S
e
确定所述图计算系统的存储空间不平衡性;2)根据不同类型节点对应的节点函数时间复杂度T、存储空间S
v
,不同类型边对应的存储空间S
e
,将当前待处理的异质图数据分配到不同的分区上。2.根据权利要求1所述的方法,其特征在于,将当前待处理的异质图数据中的每条边只分配到一个分区上,同一节点分配到一个或多个分区上。3.根据权利要求2所述的方法,其特征在于,步骤2)中,对于当前待处理的异质图数据分配到不同的分区上的方法为:21)每当划分异质图G中的一条边e=(v
src
,v
dst
)时,首先计算其分配到分区集合P中每个分区p上的得分其中,复制分数中,复制分数中,复制分数平衡分数分数A(v)表示已经有节点v的分区集合,δ(v)表示节点v在当前分区上的部分度,v∈(v
src
,v
dst
),v
src
为边e的起始节点,v
dst
为边e的终止节点,参数μ用来控制不同分区上的不平衡程度;maxsize和minsize是指当前所有分区中最大、最小占用存储空间,|p|是分区p上已有数据占用的存储空间;遍历分区集合P中的所有分区,找出使得分C
SGP
‑
HG
(v
src
,v
dst
,p)取得最大值的分区p记为p
max
,将当前边e分配到该p
max
分区上,然后根据分配结果更新|p|、A(v
src
)、A(v
dst
)、δ(v
src
)、δ(v
dst
)...
【专利技术属性】
技术研发人员:乔颖,赵新朋,王宏安,刘道伟,赵高尚,冷昶,郭超平,
申请(专利权)人:中国电力科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。