异构计算平台及其任务仿真与耗时预测方法、装置、设备制造方法及图纸

技术编号：41230889 阅读：4 留言：0更新日期：2024-05-09 23:47

本发明专利技术公开了一种异构计算平台及其任务仿真与耗时预测方法、装置、设备，应用于异构计算领域。其中，方法包括获取异构计算平台采用层间并行方式执行目标任务的任务配置信息；调用预先构建的子任务训练耗时确定模型，根据任务配置信息中的目标任务特征确定各目标算力的子任务训练耗时信息。根据各目标算力的子任务训练耗时信息、任务配置信息中各子任务对应的目标算力及相应处理顺序，对采用层间并行方式执行目标任务的过程进行仿真，最后根据仿真结果确定目标任务的训练耗时预测结果。本发明专利技术可以解决相关技术并行训练任务的训练耗时无法精准预测的问题，能够实现精准预测层间并行训练任务的训练耗时。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及异构计算领域，特别是涉及一种异构计算平台及其任务仿真与耗时预测方法、装置、设备。

技术介绍

1、随着人工智能技术的快速发展，神经网络模型的规模越来越大，将单计算节点的模型训练转换成等价的分布式并行的模型训练的分布式训练模式应运而生。

2、目前，分布式训练任务通常部署在多元异构计算平台，也即不同计算性能的异构算力会被接入至同一个分布式计算平台，将待训练网络模型按层切分为多个子模型，然后将各子模型分配至各异构计算芯片上进行并行计算。但是，由于不同异构计算芯片的计算性能不同，相关技术对于这种层间并行也即流水并行的任务的训练耗时并无法实现精准预测。

3、鉴于此，精准预测层间并行训练任务的计算耗时，是所属领域技术人员需要解决的技术问题。

技术实现思路

1、本专利技术提供了一种异构计算平台的任务仿真与耗时预测方法、装置、电子设备、可读存储介质及异构计算平台，能够实现精准预测层间并行训练任务的计算耗时。

2、为解决上述技术问题，本专利技术提供以下技术方案：

3、本专利技术一方面提供了一种异构计算平台的任务仿真与耗时预测方法，包括：

4、获取异构计算平台采用层间并行方式执行目标任务的任务配置信息；所述任务配置信息包括目标任务特征、用于执行所述目标任务切分的各子任务的目标算力及对应处理顺序；

5、调用预先构建的子任务训练耗时确定模型，根据所述目标任务特征确定各目标算力的子任务训练耗时信息；

6、根据各目

7、根据仿真结果确定所述目标任务的训练耗时预测结果。

8、在第一种示例性的实施方式中，所述根据各目标算力的子任务训练耗时信息、各子任务对应的目标算力及相应处理顺序，对采用层间并行方式执行所述目标任务的过程进行仿真，包括：

9、基于各子任务对应的目标算力及相应处理顺序，确定依次执行各子任务的目标算力；

10、通过依次比较每两个相邻目标算力的子任务训练耗时信息，确定包含算力等待时长的实际子任务耗时信息；

11、根据各目标算力的实际子任务耗时信息、总训练数据集样本数量和预设批尺寸，确定单周期训练耗时信息。

12、在第二种示例性的实施方式中，所述子任务训练耗时信息为各目标算力的前向反馈预测时间；所述通过依次比较每两个相邻目标算力的子任务训练耗时信息，确定包含算力等待时长的实际子任务耗时信息，包括：

13、对于前向反馈计算过程，预先定义前向算力性能补偿耗时参数；

14、以执行第一个前向子任务的第一目标算力为当前目标算力，所述前向算力性能补偿耗时参数为所述第一目标算力对应的第一前向反馈预测时间，比较所述第一前向反馈预测时间，和执行第二个前向子任务的第二目标算力对应的第二前向反馈预测时间的数值，选择较大值更新前向算力性能补偿耗时参数；

15、将所述第二目标算力作为当前目标算力，所述前向算力性能补偿耗时参数为更新后的前向算力性能补偿耗时参数，记录当前前向算力性能补偿耗时参数；

16、重复比较相邻目标算力的前向反馈预测时间，更新前向算力性能补偿耗时参数，并记录当前前向算力性能补偿耗时参数，直至当前目标算力为最后一个目标算力；

17、根据记录的各当前前向算力性能补偿耗时参数和各目标算力执行相应前向子任务的前向反馈预测时间，确定包含算力等待时长的实际前向反馈耗时信息；

18、其中，同一个目标算力执行子任务的训练耗时时间相同。

19、在第三种示例性的实施方式中，所述子任务训练耗时信息为各目标算力的后向反馈预测时间；所述通过依次比较每两个相邻目标算力的子任务训练耗时信息，确定包含算力等待时长的实际子任务耗时信息，包括：

20、对于后向反馈计算过程，预先定义后向算力性能补偿耗时参数；

21、以执行第一个后向子任务的逆向第一目标算力为当前目标算力，所述后向算力性能补偿耗时参数为所述逆向第一目标算力对应的第一后向反馈预测时间，比较所述第一后向反馈预测时间，和执行第二个后向子任务的逆向第二目标算力对应的第二后向反馈预测时间的数值，选择较大值更新后向算力性能补偿耗时参数；

22、将所述逆向第二目标算力作为当前目标算力，所述后向算力性能补偿耗时参数为更新后的后向算力性能补偿耗时参数，记录当前后向算力性能补偿耗时参数；

23、重复比较相邻目标算力的后向反馈预测时间，更新后向算力性能补偿耗时参数，并记录当前后向算力性能补偿耗时参数，直至当前目标算力为第一个目标算力；

24、根据记录的各当前后向算力性能补偿耗时参数和各目标算力执行相应后向子任务的后向反馈预测时间，确定包含算力等待时长的实际后向反馈耗时信息；

25、其中，同一个目标算力执行子任务的训练耗时时间相同。

26、在第四种示例性的实施方式中，所述根据仿真结果确定所述目标任务的训练耗时预测结果，包括：

27、调用单周期计算关系式，计算所述目标任务的单周期训练耗时信息；所述单周期计算关系式为：

28、；

29、根据所述目标任务的训练周期总数和所述单周期训练耗时信息，确定所述目标任务的训练耗时预测结果；

30、其中， t epoch为单周期训练耗时信息， n为总训练数据集样本数量，batch_size为预设批尺寸， t fp为一次迭代更新过程中的实际前向反馈耗时信息， t bp为一次迭代更新过程中的实际后向反馈耗时信息。

31、在第五种示例性的实施方式中，所述根据记录的各当前前向算力性能补偿耗时参数和各目标算力执行相应前向子任务的前向反馈预测时间，确定包含算力等待时长的实际前向反馈耗时信息，包括：

32、调用前向反馈时间计算关系式，计算实际前向反馈耗时信息；所述前向反馈时间计算关系式为：

33、；

34、其中， t fp为一次迭代更新过程中的实际前向反馈耗时信息，为前向算力性能补偿耗时参数数组，表示前向算力性能补偿耗时参数数组中各元素之和，表示第i个目标算力执行相应前向子任务fp时的前向反馈预测时间， n为目标算力总数。

35、在第六种示例性的实施方式中，所述根据记录的各当前后向算力性能补偿耗时参数和各目标算力执行相应后向子任务的后向反馈预测时间，确定包含算力等待时长的实际后向反馈耗时信息，包括：

36、调用后向反馈时间计算关系式，计算实际后向反馈耗时信本文档来自技高网...

【技术保护点】

1.一种异构计算平台的任务仿真与耗时预测方法，其特征在于，包括：

2.根据权利要求1所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述根据各目标算力的子任务训练耗时信息、各子任务对应的目标算力及相应处理顺序，对采用层间并行方式执行所述目标任务的过程进行仿真，包括：

3.根据权利要求2所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述子任务训练耗时信息为各目标算力的前向反馈预测时间；所述通过依次比较每两个相邻目标算力的子任务训练耗时信息，确定包含算力等待时长的实际子任务耗时信息，包括：

4.根据权利要求2所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述子任务训练耗时信息为各目标算力的后向反馈预测时间；所述通过依次比较每两个相邻目标算力的子任务训练耗时信息，确定包含算力等待时长的实际子任务耗时信息，包括：

5.根据权利要求2所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述根据仿真结果确定所述目标任务的训练耗时预测结果，包括：

6.根据权利要求3所述的异构计算平台的任务仿真与耗时预测

7.根据权利要求4所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述根据记录的各当前后向算力性能补偿耗时参数和各目标算力执行相应后向子任务的后向反馈预测时间，确定包含算力等待时长的实际后向反馈耗时信息，包括：

8.根据权利要求1至7任意一项所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述调用预先构建的子任务训练耗时确定模型，根据所述目标任务特征确定各目标算力的子任务训练耗时信息，包括：

9.根据权利要求8所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述获取异构计算平台的历史层间并行任务对应的历史任务配置信息及相应的历史子任务训练耗时信息，包括：

10.根据权利要求9所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述获取执行当前历史层间并行任务的各历史算力的物理参数信息、各历史算力所承担的历史子任务的历史子任务特征，包括：

11.根据权利要求9所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述获取执行当前历史层间并行任务的各历史算力的物理参数信息，包括：

12.根据权利要求8所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述根据各历史任务配置信息及对应的历史子任务训练耗时信息，构建历史数据库之后，还包括：

13.根据权利要求8所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述根据所述目标任务特征确定各目标算力的子任务训练耗时信息之后，还包括：

14.根据权利要求1至7任意一项所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述调用预先构建的子任务训练耗时确定模型，根据所述目标任务特征确定各目标算力的子任务训练耗时信息，包括：

15.根据权利要求14所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述历史子任务训练耗时信息包括历史前向反馈计算时间和历史后向反馈计算时间，所述根据所述目标任务特征确定各目标算力的子任务训练耗时信息，包括：

16.根据权利要求14所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述目标神经网络模型包括输入层、特征嵌入层、特征提取层和预测输出层；

17.根据权利要求16所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述特征提取层采用多个相连的转换器模型的编码器，所述预测输出层采用多层感知机。

18.根据权利要求14所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述利用所述训练样本数据集对预先搭建的目标神经网络模型进行训练，包括：

19.根据权利要求18所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述当检测到当前历史任务特征数量满足预设模型触发条件，则自动触发对当前目标神经网络模型进行训练，包括：

20.一种异构计算平台的任务仿真与耗时预测装置，其特征在于，包括：

21.一种电子设备，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至19任一项所述异构计算平台的任务仿真与耗时预测方法的步骤。

22.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要...

【技术特征摘要】

1.一种异构计算平台的任务仿真与耗时预测方法，其特征在于，包括：

5.根据权利要求2所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述根据仿真结果确定所述目标任务的训练耗时预测结果，包括：

6.根据权利要求3所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述根据记录的各当前前向算力性能补偿耗时参数和各目标算力执行相应前向子任务的前向反馈预测时间，确定包含算力等待时长的实际前向反馈耗时信息，包括：

11.根据权利要求9所述的异构计算平台的任务仿真与耗时预测方法，其特征在于，所述获取执行当前历史层间并行任务的各历史算力的物理...

【专利技术属性】
技术研发人员：唐轶男，赵雅倩，郭振华，王丽，李仁刚，高开，曹芳，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人