一种数据分布的图神经网络训练任务批处理调度方法技术

技术编号:43444910 阅读:21 留言:0更新日期:2024-11-27 12:49
本发明专利技术公开了一种数据分布的图神经网络训练任务批处理调度方法,属于分布式计算中的任务调度技术领域,将图神经网络训练任务简称为任务,将执行图神经网络训练任务的系统称为分布式系统,将分布式系统中一个可独立运行的计算单元称为计算节点;同时,假定分布式系统中所有的计算节点是同构的,每个计算节点包含至少1个用于图神经网络训练的加速卡;批处理调度方法具体包括如下步骤:步骤1、调度开始前,初始化各项参数;步骤2、记录提交的任务并获取任务属性,并将提交的任务加入任务列表;步骤3、使用遗传算法进行任务调度。本发明专利技术可以有效提高加速卡资源利用率,实现资源利用率的最大化,降低能耗。

【技术实现步骤摘要】

本专利技术属于分布式计算中的任务调度,具体涉及一种数据分布的图神经网络训练任务批处理调度方法


技术介绍

1、近年来,图结构数据和图神经网络在社交网络、通信网络、交通网络等领域得到了广泛应用,而随着图数据规模日益增长,图神经网络的分布式训练成为解决面向大规模图数据的图神经网络训练的主流。其中,数据分布方法是一种实现图神经网络分布式训练的主要方法。当一个图神经网络训练任务部署在由多个甚至大量计算节点组成的分布式系统时,运行该任务的每个计算节点拥有完整的图神经网络和一部分图数据,在对所拥有的图数据完成一次训练迭代后,需要与其它计算节点通信,交换必要的数据;完成数据交换后,再进入下一次迭代训练。在此过程中,如何对训练任务进行调度是一个核心问题,也是本专利技术需要解决的问题。


技术实现思路

1、为了解决上述问题,本专利技术提出了一种数据分布的图神经网络训练任务批处理调度方法。该方法以提高分布式系统的资源利用率为目标,定期对提交的图神经网络训练任务以批处理方式进行调度。

2、本专利技术的技术方案如下:...

【技术保护点】

1.一种数据分布的图神经网络训练任务批处理调度方法,其特征在于,将图神经网络训练任务简称为任务,将执行图神经网络训练任务的系统称为分布式系统,将分布式系统中一个可独立运行的计算单元称为计算节点;同时,假定分布式系统中所有的计算节点是同构的,每个计算节点包含至少1个用于图神经网络训练的加速卡;批处理调度方法具体包括如下步骤:

2.根据权利要求1所述数据分布的图神经网络训练任务批处理调度方法,其特征在于,所述步骤1的具体过程为:初始化任务列表为空集;设定任务调度时间间隔,即每隔进行一次任务调度;用表示分布式系统中加速卡的个数,用表示第个加速卡开始执行任务的时间,用表示第个加速卡在...

【技术特征摘要】

1.一种数据分布的图神经网络训练任务批处理调度方法,其特征在于,将图神经网络训练任务简称为任务,将执行图神经网络训练任务的系统称为分布式系统,将分布式系统中一个可独立运行的计算单元称为计算节点;同时,假定分布式系统中所有的计算节点是同构的,每个计算节点包含至少1个用于图神经网络训练的加速卡;批处理调度方法具体包括如下步骤:

2.根据权利要求1所述数据分布的图神经网络训练任务批处理调度方法,其特征在于,所述步骤1的具体过程为:初始化任务列表为空...

【专利技术属性】
技术研发人员:吴庆龙崔焕庆常安富徐强李代辉周升庆
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1