一种基于CXL的异构算力中训练耗时预测方法及设备技术

技术编号:43885183 阅读:51 留言:0更新日期:2024-12-31 19:10
本发明专利技术公开了一种基于CXL的异构算力中训练耗时预测方法及设备,涉及异构计算技术领域,包括:获取分布式训练任务的任务描述信息;根据任务描述信息确定分布式训练任务中神经网络的神经层计算顺序和分布式训练任务对应的各异构算力;根据神经层计算顺序构建各异构算力分别对应的初始计算过程图;对初始计算过程图中后向传输计算节点添加基于CXL的参数同步过程,得到各目标计算过程图;分别获取目标计算过程图中各节点的神经层计算耗时和内存访问耗时;根据各神经层计算耗时和各内存访问耗时,预测对分布式训练任务训练的总耗时。本发明专利技术解决了参数同步耗时长,耗时预测准确度低等问题,降低了模型参数同步耗时,提高了训练耗时预测的准确度。

【技术实现步骤摘要】

本专利技术涉及异构计算,特别是涉及一种基于cxl的异构算力中训练耗时预测方法及设备。


技术介绍

1、为了解决大型神经网络训练的问题,通常使用分布式训练的方式,将训练数据或大型网络模型进行拆分,并将拆分后的数据与子训练任务部署到多个算力上。

2、目前的异构算力中训练耗时预测方法主要是通过设置通信节点的方式进行通信同步,进而实现模型参数同步,利用同步完成的模型参数进行模型训练。通信耗时长,模型参数同步耗时长,对训练耗时预测的准确度低。

3、综上所述,如何有效地解决通信耗时长,模型参数同步耗时长,对训练耗时预测的准确度低等问题,是目前本领域技术人员急需解决的问题。


技术实现思路

1、本专利技术的目的是提供一种基于cxl的异构算力中训练耗时预测方法,该方法较大地降低了模型参数同步耗时,提高了训练耗时预测的准确度;本专利技术的另一目的是提供一种基于cxl的异构算力中训练耗时预测设备、计算机可读存储介质及计算机程序产品。

2、为解决上述技术问题,本专利技术提供如下技术方案:

...

【技术保护点】

1.一种基于CXL的异构算力中训练耗时预测方法,其特征在于,包括:

2.根据权利要求1所述的基于CXL的异构算力中训练耗时预测方法,其特征在于,对各初始计算过程图中后向传输计算节点添加基于CXL的参数同步过程,包括:

3.根据权利要求1所述的基于CXL的异构算力中训练耗时预测方法,其特征在于,分别获取所述目标计算过程图中各节点的内存访问耗时,包括:

4.根据权利要求1所述的基于CXL的异构算力中训练耗时预测方法,其特征在于,分别获取所述目标计算过程图中各节点的神经层计算耗时和内存访问耗时,包括:

5.根据权利要求4所述的基于CXL的异构算力...

【技术特征摘要】

1.一种基于cxl的异构算力中训练耗时预测方法,其特征在于,包括:

2.根据权利要求1所述的基于cxl的异构算力中训练耗时预测方法,其特征在于,对各初始计算过程图中后向传输计算节点添加基于cxl的参数同步过程,包括:

3.根据权利要求1所述的基于cxl的异构算力中训练耗时预测方法,其特征在于,分别获取所述目标计算过程图中各节点的内存访问耗时,包括:

4.根据权利要求1所述的基于cxl的异构算力中训练耗时预测方法,其特征在于,分别获取所述目标计算过程图中各节点的神经层计算耗时和内存访问耗时,包括:

5.根据权利要求4所述的基于cxl的异构算力中训练耗时预测方法,其特征在于,获取各异构算力读取各可访问内存空间的目标访问时延和目标访问带宽,包括:

6.根据权利要求4所述的基于cxl的异构算力中训练耗时预测方法,其特征在于,获取各异构算力读取各可访问内存空间的目标访问时延和目标访问带宽,包括:

7.根据权利要求6所述的基于cxl的异构算力中训练耗时预测方法,其特征在于,根据所述目标访问时延、所述目标访问带宽、所述神经层参数数据量和所述神经层输入数据量,分别计算各节点的内存访问耗时,包括:

8.根据权利要求1所述的基于cxl的异构算力中训练耗时预测方法,其特征在于,根...

【专利技术属性】
技术研发人员:唐轶男郭振华高开李晓川杜国光刘璐贾麒张洪伟
申请(专利权)人:山东海量信息技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1