分布式机器学习系统的性能指标确定方法及装置制造方法及图纸

技术编号:30136608 阅读:22 留言:0更新日期:2021-09-23 14:47
本公开关于一种分布式机器学习系统的性能指标确定方法及装置,该分布式机器学习系统用于训练神经网络模型,该训练过程包括梯度计算阶段和梯度通信阶段,梯度通信阶段包括梯度更新阶段,该方法包括:确定梯度计算阶段的梯度计算性能指标;基于梯度计算性能指标和分布式机器学习系统所在设备的计算性能数据,确定梯度计算阶段对应的梯度计算时间;确定梯度更新阶段对应的梯度更新时间;基于梯度更新时间,确定梯度通信阶段对应的梯度通信时间;在反向传播阶段和梯度更新阶段之间不具有重叠阶段时,根据梯度计算时间和梯度通信时间,确定分布式机器学习系统的性能指标。利用本公开提供的技术方案可以分析计算与通信的时序行为关系,得到粒度更细、准确有效的性能指标。准确有效的性能指标。准确有效的性能指标。

【技术实现步骤摘要】
分布式机器学习系统的性能指标确定方法及装置


[0001]本公开涉及互联网
,尤其涉及一种分布式机器学习系统的性能指标确定方法及装置。

技术介绍

[0002]由于采用图形处理器(Graphics Processing Unit,GPU)等高性能计算集群的分布式机器学习方法,可以满足高复杂度、高算力神经网络的计算需求,有效地缩短训练时间,因此得到了广泛的应用。虽然不断增加GPU计算节点数量可以增加集群算力,减少整体模型训练时间,然而随着节点规模的不断增加,GPU计算节点的资源利用率会不断下降,造成各类资源的浪费,从而降低了整个分布式机器学习系统的可扩展性。
[0003]相关技术中,将线性加速比(scaling factor)作为衡量分布式机器学习系统可扩展性的通用型性能指标,计算公式如下:其中,T1为同一个任务在单GPU处理器系统消耗的时间,T
n
为并行GPU处理器系统中运行消耗的时间。然而线性加速比无法刻画分布式机器学习系统内各资源的相互作用关系。基于此,相关技术中,还使用性能评估模型(Roofline模型)来刻画本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分布式机器学习系统的性能指标确定方法,其特征在于,所述分布式机器学习系统用于训练神经网络模型,所述神经网络模型的训练过程包括梯度计算阶段和梯度通信阶段,所述梯度通信阶段包括梯度更新阶段,所述方法包括:确定所述梯度计算阶段的梯度计算性能指标,所述梯度计算性能指标表征所述梯度计算阶段的梯度计算复杂度;基于所述梯度计算性能指标和所述分布式机器学习系统所在的设备的计算性能数据,确定所述梯度计算阶段对应的梯度计算时间;确定所述梯度更新阶段对应的梯度更新时间;基于所述梯度更新时间,确定所述梯度通信阶段对应的梯度通信时间;在所述反向传播阶段和所述梯度更新阶段之间不具有重叠阶段时,根据所述梯度计算时间和所述梯度通信时间,确定所述分布式机器学习系统的性能指标。2.根据权利要求1所述的分布式机器学习系统的性能指标确定方法,其特征在于,所述梯度计算阶段包括前向传播阶段和反向传播阶段,所述确定所述梯度计算阶段的梯度计算性能指标,包括:获取所述神经网络模型中的预设数量个卷积层;获取各个卷积层中的卷积核所输出的特征图的尺寸、各个卷积层中的卷积核的尺寸、各个卷积层中的卷积核的通道数和各个卷积层中的卷积核的数量;根据各个卷积层中的卷积核所输出的特征图的尺寸、各个卷积层中的卷积核的尺寸、各个卷积层中的卷积核的通道数和各个卷积层中的卷积核的数量,确定所述前向传播阶段的前向传播性能指标,所述前向传播性能指标表征所述前向传播阶段的前向传播复杂度;在所述反向传播阶段的反向传播性能指标与所述前向传播性能指标一致的情况下,根据所述前向传播性能指标,确定所述梯度计算性能指标;所述反向传播性能指标表征所述反向传播阶段的反向传播复杂度。3.根据权利要求2所述的分布式机器学习系统的性能指标确定方法,其特征在于,所述分布式机器学习系统包括多个工作节点,所述多个工作节点之间迭代更新模型参数梯度,所述梯度更新阶段包括数据累加阶段和数据替换阶段,所述数据累加阶段包括模型参数梯度的聚合计算阶段和模型参数梯度的第一迭代传输阶段,所述数据替换阶段包括模型参数梯度的第二迭代传输阶段,则所述确定所述梯度更新阶段对应的梯度更新时间,包括:确定所述聚合计算阶段对应的聚合计算时间;确定迭代传输阶段对应的传输时间,所述迭代传输阶段包括所述第一迭代传输阶段和所述第二迭代传输阶段;根据所述聚合计算时间和所述传输时间,确定所述梯度更新时间;相应地,所述基于所述梯度更新时间,确定所述梯度通信阶段对应的梯度通信时间,包括:将所述梯度更新时间作为所述梯度通信时间。4.根据权利要求3所述的分布式机器学习系统的性能指标确定方法,其特征在于,所述确定所述聚合计算阶段对应的聚合计算时间,包括:获取所述多个工作节点的节点数量和所述神经网络模型所包含的参数量;根据所述节点数量,确定所述数据累加阶段的迭代次数;
基于所述参数量、所述节点数量和单个浮点数所占字节数,确定所述模型参数梯...

【专利技术属性】
技术研发人员:苗天昊刘婷吴教仁张胜卓宗朗田燕
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1