基于异构计算系统的模型训练耗时预测方法、设备及系统技术方案

技术编号:38767922 阅读:14 留言:0更新日期:2023-09-10 10:41
本发明专利技术提供基于异构计算系统的模型训练耗时预测方法、设备及系统,涉及神经网络领域,可根据异构计算系统中包含的各计算设备类型,设置对应的多个简化的子计算系统;随后,可将目标模型及训练数据下发至各子计算系统,并可控制各子计算系统利用该训练数据对目标模型共同进行多轮迭代训练,以对各子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录;进而,本发明专利技术可将实际采集到的耗时信息、数据传输量与异构计算系统中的各计算设备间的通信带宽一同输入预设数学模型进行耗时预测,得到异构计算系统训练该目标模型的预测耗时,从而能够解决相关技术无法准确预测异构计算系统训练模型所需耗时的缺陷。算系统训练模型所需耗时的缺陷。算系统训练模型所需耗时的缺陷。

【技术实现步骤摘要】
基于异构计算系统的模型训练耗时预测方法、设备及系统


[0001]本专利技术涉及神经网络领域,特别涉及一种基于异构计算系统的模型训练耗时预测方法、设备及系统。

技术介绍

[0002]随着神经网络模型规模的不断增大,该模型的训练难度及复杂度在不断提升。为对大规模模型进行有效训练,一般可利用分布式计算系统对该模型进行分布式训练。而为方便对模型训练过程及分布式计算系统进行优化,相关技术中通常需要对神经网络模型在分布式计算系统中的训练耗时进行预测。然而,相关技术无法准确地预测对异构计算系统(一种包含有多类型计算设备的分布式计算系统)训练神经网络模型所需耗时,且利用完整的异构计算系统实际运行大规模分布式训练并对耗时进行测量也容易带来较大的时间成本及算力成本,进而不利于模型训练过程及异构计算系统的优化。

技术实现思路

[0003]本专利技术的目的是提供一种基于异构计算系统的模型训练耗时预测方法、设备及系统,可利用与异构计算系统对应的多个简化的子计算系统,对各类型计算设备训练目标模型对应的耗时信息及数据传输量进行实际测量,从而可以较低成本利用实测数据、异构计算系统中的各计算设备间的通信带宽及数学建模方式对异构计算系统训练目标模型的耗时进行准确预测。
[0004]为解决上述技术问题,本专利技术提供一种基于异构计算系统的模型训练耗时预测方法,包括:获取目标模型、训练集、异构计算系统中包含的各计算设备类型、各所述计算设备类型对应的训练数据量及所述异构计算系统中的各计算设备间的通信带宽;设置各计算设备类型对应的子计算系统,并利用所述训练数据量及所述训练集为各所述子计算系统中的计算设备分配训练数据;各所述子计算系统包含多个同类型的计算设备,所述计算设备在所述子计算系统中的数量小于其在所述异构计算系统中的数量;控制各所述子计算系统利用所述训练数据对所述目标模型共同进行多轮迭代训练,并对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录;将所述耗时信息、所述通信带宽、所述数据传输量输入至预设数学模型进行耗时预测,得到所述异构计算系统训练所述目标模型的预测耗时。
[0005]可选地,所述对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录,包括:当确定各所述子计算系统已共同完成预设数量的迭代训练时,对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录。
[0006]可选地,所述获取所述异构计算系统中的各计算设备间的通信带宽,包括:获取所述异构计算系统中的各计算设备间的网络地址信息;
根据所述网络地址信息对所述异构计算系统中的各计算设备间的通信带宽进行测量。
[0007]可选地,所述根据所述网络地址信息对所述异构计算系统中的各计算设备间的通信带宽进行测量,包括:根据所述网络地址信息,利用网络测试工具对所述异构计算系统中的各计算设备间的通信带宽进行测量。
[0008]可选地,所述获取所述异构计算系统中的各计算设备间的通信带宽,包括:接收输入的所述异构计算系统中的各计算设备间的通信带宽。
[0009]可选地,所述设置各计算设备类型对应的子计算系统,包括:针对每种计算设备类型,从所述异构计算系统中选择多个目标计算设备;利用各所述计算设备类型对应的目标计算设备,设置各所述计算设备类型对应的子计算系统。
[0010]可选地,各所述子计算系统包含两个同类型的计算设备。
[0011]可选地,所述利用所述训练数据量及所述训练集为各所述子计算系统中的计算设备分配训练数据,包括:从所述训练集中随机抽取所述训练数据量的数据作为所述训练数据。
[0012]可选地,所述对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录,包括:利用模型性能分析工具对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录。
[0013]可选地,所述获取目标模型,包括:接收以代码形式输入的所述目标模型,并利用预设脚本解析所述目标模型。
[0014]可选地,所述目标模型基于环状全规约模式训练,所述将所述耗时信息、所述通信带宽、所述数据传输量输入至预设数学模型进行耗时预测,得到所述异构计算系统训练所述目标模型的预测耗时,包括:将所述耗时信息、所述通信带宽、所述数据传输量输入至预设数学模型进行耗时预测,得到所述异构计算系统中的各计算设备对所述目标模型执行单次迭代所需的单次迭代耗时;将所述单次迭代耗时中的最大值作为所述异构计算系统对所述目标模型执行单次迭代所需的单次迭代总耗时;基于所述单次迭代总耗时确定所述异构计算系统训练所述目标模型的预测耗时。
[0015]可选地,所述耗时信息包括数据处理耗时及计算耗时,所述数据处理耗时为中央处理器向对应计算设备执行训练数据下发动作的耗时,所述计算耗时包括所述计算设备执行前向反向计算的耗时。
[0016]可选地,所述将所述耗时信息、所述通信带宽、所述数据传输量输入至预设数学模型进行耗时预测,得到所述异构计算系统中的各计算设备对所述目标模型执行单次迭代所需的单次迭代耗时,包括:利用从相同所述子计算系统中记录的数据处理耗时及计算耗时,确定所述子计算系统所属的计算设备类型对应的数据处理耗时均值及计算耗时均值,并利用各所述计算设
备类型对应的数据处理耗时均值及计算耗时均值,确定所述异构计算系统中各计算设备的数据处理耗时及计算耗时;利用所述数据传输量确定数据传输量均值,并利用所述数据传输量均值、所述通信带宽及所述异构计算系统中的各计算设备间的环状全规约操作顺序,确定述异构计算系统中的各计算设备的环状全规约操作耗时;利用所述异构计算系统中各计算设备的数据处理耗时、计算耗时、环状全规约操作耗时,确定所述异构计算系统中各计算设备对所述目标模型执行单次迭代所需的单次迭代耗时。
[0017]可选地,所述训练数据下发动作与所述前向反向计算和所述环状全规约操作并行执行,所述利用所述异构计算系统中各计算设备的数据处理耗时、计算耗时、环状全规约操作耗时,确定所述异构计算系统中各计算设备对所述目标模型执行单次迭代所需的单次迭代耗时,包括:根据所述计算设备的计算耗时和环状全规约操作耗时,确定所述计算设备的设备处理耗时;将所述数据处理耗时与所述设备处理耗时中的最大值作为所述计算设备对所述目标模型执行单次迭代所需的单次迭代耗时。
[0018]可选地,所述根据所述计算设备的计算耗时和环状全规约操作耗时,确定所述计算设备的设备处理耗时,包括:从所述计算耗时中提取所述计算设备执行前向计算的前向计算总耗时及执行首次后向计算的后向计算耗时;利用所述前向计算总耗时、所述后向计算耗时及各所述计算设备的环状全规约操作耗时,确定所述计算设备的设备处理耗时。
[0019]可选地,所述利用所述数据传输量均值、所述通信带宽及所述异构计算系统中的各计算设备间的环状全规约操作顺序,确定述异构计算系统中的各计算设备的环状全规约操作耗时,包括:根据所述环状全规约操作顺序,确定与所述计算设备执行环状全规约操作的相邻计算设备;利用所述数据传输量均值及所述计算设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异构计算系统的模型训练耗时预测方法,其特征在于,包括:获取目标模型、训练集、异构计算系统中包含的各计算设备类型、各所述计算设备类型对应的训练数据量及所述异构计算系统中的各计算设备间的通信带宽;设置各所述计算设备类型对应的子计算系统,并利用所述训练数据量及所述训练集为各所述子计算系统中的计算设备分配训练数据;各所述子计算系统包含多个同类型的计算设备,所述计算设备在所述子计算系统中的数量小于其在所述异构计算系统中的数量;控制各所述子计算系统利用所述训练数据对所述目标模型共同进行多轮迭代训练,并对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录;将所述耗时信息、所述通信带宽、所述数据传输量输入至预设数学模型进行耗时预测,得到所述异构计算系统训练所述目标模型的预测耗时。2.根据权利要求1所述的模型训练耗时预测方法,其特征在于,所述对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录,包括:当确定各所述子计算系统已共同完成预设数量的迭代训练时,对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录。3.根据权利要求1所述的模型训练耗时预测方法,其特征在于,所述获取所述异构计算系统中的各计算设备间的通信带宽,包括:获取所述异构计算系统中的各计算设备间的网络地址信息;根据所述网络地址信息对所述异构计算系统中的各计算设备间的通信带宽进行测量。4.根据权利要求3所述的模型训练耗时预测方法,其特征在于,所述根据所述网络地址信息对所述异构计算系统中的各计算设备间的通信带宽进行测量,包括:根据所述网络地址信息,利用网络测试工具对所述异构计算系统中的各计算设备间的通信带宽进行测量。5.根据权利要求1所述的模型训练耗时预测方法,其特征在于,所述获取所述异构计算系统中的各计算设备间的通信带宽,包括:接收输入的所述异构计算系统中的各计算设备间的通信带宽。6.根据权利要求1所述的模型训练耗时预测方法,其特征在于,所述设置各所述计算设备类型对应的子计算系统,包括:针对每种计算设备类型,从所述异构计算系统中选择多个目标计算设备;利用各所述计算设备类型对应的目标计算设备,设置各所述计算设备类型对应的子计算系统。7.根据权利要求1所述的模型训练耗时预测方法,其特征在于,各所述子计算系统包含两个同类型的计算设备。8.根据权利要求1所述的模型训练耗时预测方法,其特征在于,所述利用所述训练数据量及所述训练集为各所述子计算系统中的计算设备分配训练数据,包括:从所述训练集中随机抽取所述训练数据量的数据作为所述训练数据。9.根据权利要求1所述的模型训练耗时预测方法,其特征在于,所述对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录,包括:利用模型性能分析工具对各所述子计算系统中的各计算设备对应的耗时信息及数据传输量进行记录。
10.根据权利要求1所述的模型训练耗时预测方法,其特征在于,所述获取目标模型,包括:接收以代码形式输入的所述目标模型,并利用预设脚本解析所述目标模型。11.根据权利要求1至10任一项所述的模型训练耗时预测方法,其特征在于,所述目标模型基于环状全规约模式训练,所述将所述耗时信息、所述通信带宽、所述数据传输量输入至预设数学模型进行耗时预测,得到所述异构计算系统训练所述目标模型的预测耗时,包括:将所述耗时信息、所述通信带宽、所述数据传输量输入至预设数学模型进行耗时预测,得到所述异构计算系统中的各计算设备对所述目标模型执行单次迭代所需的单次迭代耗时;将所述单次迭代耗时中的最大值作为所述异构计算系统对所述目标模型执行单次迭代所需的单次迭代总耗时;基于所述单次迭代总耗时确定所述异构计算系统训练所述目标模型的预测耗时。12.根据权利要求11所述的模型训练耗时预测方法,其特征在于,所述耗时信息包括数据处理耗时及计算耗时,所述数据处理耗时为中央处理器向对应计算设备执行训练数据下发动作的耗时,所述计算耗时包括所述计算设备执行前向反向计算的耗时。13.根据权利要求12所述的模型训练耗时预测方法,其特征在于,所述将所述耗时信息、所述通信带宽、所述数据传输量输入至预设数学模型进行耗时预测,得到所述异构计算系统中的各计算设备对所述目标模型执行单次迭代所需的单次迭代耗时,包括:利用从相同所述子计算系统中记录的数据处理耗时及计算耗时,确定所述子计算系统所属的计算设备类型对应的数据处理耗时均值及计算耗时均值,并利用各所述计算设备类型对应的数据处理耗时均值及计算耗时均值,确定所述异构计算系统中各计算设备的数据处理耗时及计算耗时;利用所述数据传输量确定数据传输量均值,并利用所述数据传输量均值、所述通信带宽及所述异构计算系统中的各计算设备间的环状全规约操作顺序,确定述异构计算系统中的各计算设备的环状全规约操作耗时;利用所述异构计算系...

【专利技术属性】
技术研发人员:唐轶男李仁刚赵雅倩郭振华王丽高开曹芳
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1