一种分布式模型的训练方法及相关设备技术

技术编号：40921194 阅读：24 留言：0更新日期：2024-04-18 14:46

本公开提供一种分布式模型训练方法及相关设备，所述方法包括：获取算力网络中计算节点之间链路的剩余带宽；基于训练数据的数据量计算所述算力网络中计算节点所形成的候选环路需要使用的计算资源数量；基于所述剩余带宽和所述候选环路需要使用的计算资源数量从所述候选环路中确定目标环路；基于所述目标环路进行分布式模型训练。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机，尤其涉及一种分布式模型的训练方法及相关设备。

技术介绍

1、随着人工智能和大数据技术的发展，算力网络(computing network，cpn)作为重要的基础设施，用于处理大规模数据和复杂的机器学习任务。随着数据规模和模型复杂性的不断增加，传统的单节点训练已无法满足高性能计算的需求。分布式模型训练(distributed model training，dmt)作为一种有效的解决方案，可以充分利用算力网络中多个计算节点的计算能力，加快模型训练速度并提高训练效果。分布式模型训练充分利用了数据的并行处理，大大缩短了训练时间，相较于单个计算节点训练具有明显的优势。然而，对于大型模型和海量数据处理所带来的挑战，以及深度学习任务的高计算需求，加上算力网络中计算资源的利用不充分，导致算力网络中分布式模型的训练效率低。

技术实现思路

1、本公开提出一种分布式模型的训练方法及相关设备，以在一定程度上解决分布式模型在算力网络中训练效率低的技术问题。

2、本公开第一方面，提供了一...

【技术保护点】

1.一种分布式模型训练方法，包括：

2.根据权利要求1所述的方法，所述方法还包括：

3.根据权利要求1所述的方法，其中，基于训练数据的数据量计算所述算力网络中计算节点所形成的候选环路需要使用的计算资源数量，包括：

4.根据权利要求1所述的方法，其中，基于所述剩余带宽和所述候选环路需要使用的计算资源数量从所述候选环路中确定目标环路，包括：

5.根据权利要求4所述的方法，其中，基于所述剩余带宽和所述候选环路需要使用的计算资源数量从所述候选环路中确定目标环路，还包括：

6.根据权利要求4所述的方法，还包括：