一种基于硬件监测自适应分布式机器学习训练加速方法技术

技术编号：37163098 阅读：20 留言：0更新日期：2023-04-06 22:30

本发明专利技术公开了一种基于硬件监测自适应分布式机器学习训练加速方法，首先建立基于参数服务器的分布式神经网络训练系统，并利用工具建立资源探测系统获取操作系统级别的硬件信息以及资源利用情况。其次参数服务器通过性能监测模型得到工作节点的性能参数，参数服务器以收集到的性能参数为依据，预测集群中各节点未来训练走向，选择最优同步时机作为同步标记，使得此时刻进行全局同步所产生的同步时延最小。最后如果工作节点到达了同步标记，则进行全局同步，如果没有，则继续训练本地模型，直至机器学习模型收敛。本发明专利技术有效得减少了各节点的同步等待时间，从而有效缓解了滞后问题，大大提高了机器学习模型训练的性能。大大提高了机器学习模型训练的性能。大大提高了机器学习模型训练的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于硬件监测自适应分布式机器学习训练加速方法

[0001]本专利技术属于分布式机器学习加速
，具体是一种基于硬件监测自适应分布式机器学习训练加速方法。

技术介绍

[0002]机器学习特别是深度学习，已成为人工智能领域的核心研究内容之一，人工智能应用正在得到飞速发展，例如自动驾驶、人脸识别等。然而，随着机器学习数据集以及深度学习模型规模的不断增加，使用单机训练机器学习模型已经不能适应大数据环境，使用单机通常需要几周或者更久来训练机器学习模型，这需要将传统机器学习分布式化，在多个节点上分散工作量，以加快机器学习的训练速度。
[0003]在分布式机器学习框架中，工作节点和参数服务器之间的通信是必不可少的环节，工作节点会将本轮训练后的机器学习模型传输给参数服务器，参数服务器计算得到全局模型再传输给工作节点。但由于受分布式环境中网络，节点性能差异等因素影响，通信往往会产生不可忽视的时延，所以设计一个高效的通信策略能大大加快分布式集群计算速度。
[0004]整体同步并行通信策略BSP(Bulk Synchronous Parallel)是分布式训练中的主流通信模型。BSP模型中通过同步屏障来限制每个工作节点的迭代次数，当工作节点达到这个同步屏障后，就会暂停训练，等到所有的工作节点都达到同步屏障后，会进行一次全局同步，每个工作节点都发送自己的训练模型到参数服务器，参数服务器计算出新的全局模型后再将该全局模型分发到工作节点中，每个工作节点将用这个新的模型来开始下一轮训练。但由于分布式环境中各个节点性能差异，

【技术保护点】

【技术特征摘要】
1.一种基于硬件监测自适应分布式机器学习训练加速方法，其特征在于，包括如下具体步骤：步骤1：建立基于参数服务器的分布式神经网络训练系统；步骤2：建立资源探测系统，获取操作系统级别的硬件信息，部署在工作节点上用于实时获取各工作节点的资源利用情况；步骤3：参数服务器通过性能监测模型，得到工作节点相应的性能参数；步骤4：参数服务器以收集到的性能参数为依据，计算出各个工作节点训练一轮本地模型的时间比值，根据这个时间比值预测出分布式集群未来训练走向，选择最优同步时机作为同步标记，使得此时刻进行全局同步所产生的同步时延最小；步骤5：如果工作节点到达了同步标记，则进行全局同步；如果没有到达同步标记，则继续训练本地模型；步骤6：重复步骤3至步骤5，直至机器学习模型收敛。2.根据权利要求1所述的一种基于硬件监测自适应分布式机器学习训练加速方法，其特征在于，步骤1中所述的分布式神经网络训练系统，共有两类节点，分别为工作节点与参数服务器；工作节点用于根据本地数据集训练机器学习模型，参数服务器用于接受各个工作节点的本地模型，然后聚合得到新的全局模型再发送给工作节点。3.根据权利要求2所述的一种基于...

【专利技术属性】
技术研发人员：徐沛然，薛梅婷，任永坚，张纪林，曾艳，袁俊峰，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人