一种分布式训练的计算节点管理方法及相关装置制造方法及图纸

技术编号:37055071 阅读:21 留言:0更新日期:2023-03-29 19:32
本申请公开了一种分布式训练的计算节点管理方法及相关装置,涉及计算机技术领域,该计算节点管理方法包括:获取每个计算节点的节点信息;基于每个所述计算节点的节点信息将所有所述计算节点进行分组,得到不同类型的多个计算节点组;对每个所述计算节点组中的计算节点设置局部去中心化通信架构,对每个所述计算节点组之间设置全局中心化通信架构;基于输入的模型和数据在所述多个计算节点组中进行分布式模型训练,得到训练结果,以提高分布式模型训练的效率。型训练的效率。型训练的效率。

【技术实现步骤摘要】
一种分布式训练的计算节点管理方法及相关装置


[0001]本申请涉及计算机
,特别涉及一种分布式训练的计算节点管理方法、计算节点管理装置、服务器以及计算机可读存储介质。

技术介绍

[0002]随着大数据、人工智能、高性能计算以及互联网技术的快速发展,各领域所产生的海量数据以及大规模模型往往通过神经网络建模并进行求解。其中,神经网络的存储、计算与求解过程均依赖于分布式训练系统。一个所谓的分布式训练系统是由多个计算节点共同构成的网络,并且每个计算节点可由一台主机或多台主机构成。
[0003]相关技术中,将待训练的深度神经网络模型或大数据集以模型并行、数据并行或混合并行的方式进行拆分,并分配至相应的计算节点;然后,各个计算节点分别对拆分后小规模数据或子模型单独进行训练并产生局部或中间训练结果;最后,分布式训练系统将所有局部训练结果再以某种方式进行聚合得到全局结果,并输出全局训练结果。但是,实际应用中不同的计算节点之间存在差异,导致分布式模型的训练过程的效率降低,无法有效的利用计算节点的资源。
[0004]因此,如何提高分布式模型训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分布式训练的计算节点管理方法,其特征在于,包括:获取每个计算节点的节点信息;基于每个所述计算节点的节点信息将所有所述计算节点进行分组,得到不同类型的多个计算节点组;对每个所述计算节点组中的计算节点设置局部去中心化通信架构,对每个所述计算节点组之间设置全局中心化通信架构;基于输入的模型和数据在所述多个计算节点组中进行分布式模型训练,得到训练结果。2.根据权利要求1所述的计算节点管理方法,其特征在于,每个所述计算节点组中的计算节点之间采用同步更新策略,每个所述计算节点组之间采用异步更新策略。3.根据权利要求1所述的计算节点管理方法,其特征在于,获取每个计算节点的节点信息,包括:当存在新接入的计算节点时,获取所述新接入的计算节点的节点信息;其中,所述节点信息包括:硬件信息、当前负载运行状态信息、计算节点之间的网络连接与带宽情况;将所述节点信息记录于数据库中。4.根据权利要求1所述的计算节点管理方法,其特征在于,基于每个所述计算节点的节点信息将所有所述计算节点进行分组,得到不同类型的多个计算节点组,包括:基于每个所述计算节点的节点信息对每个计算节点进行相似度计算,得到每个计算节点之间的相似度;基于每个计算节点之间的相似度对所有所述计算节点进行聚类操作,得到所述多个计算节点组。5.根据权利要求4所述的计算节点管理方法,其特征在于,基于每个所述计算节点的节点信息对每个计算节点进行相似度计算,得到每个计算节点之间的相似度,包括:基于每个计算节点的固件信息计算每个计算节点之间的固件相似度;基于每个计算节点的网络信息计算每个计算节点之间的网络结构相似度;基于每个计算节点的负载信息计算每个计算的负载相似度;基于每个计算节点之间的固件相似度、网络结构相似度、负载相似度确定每个计算节点之间的相似度。6.根据权利要求5所述的计算节点管理方法,其特征在于,基于每个计算节点的固件信息计算每个计算节点之间的固件相似度,包括:基于每个所述计算节点的固件信息计算每个所述计算节点的硬件指标;计算每个所述计算节点之间的硬件指标之间的欧氏距离,并作为每个计算节点之间的固件相似度。7.根据权利要求5所述的计算节点管理方法,其特征在于,基于每个计算节点的网络信息计算每个计算节点之间的网络结构相似度,包括:基于每个计算节点的网络信息计算每个计算节点之间的网络地址距离和网络邻居指标;将每个计算节点之间的网络地址距离和网络邻居指标作为每个计算节点之间的网络结构相似度。
8.根据权利要求5所述的计算节点管理方法,其特征在于,基于每个计算节点的负载信息计算每个计算的负载相似度,包括:基于每个计算节点的负载信息计算每个计算节点的设备负载情况指标和网络带宽情况指标;将所述设备负载情况指标和所述网络带宽情况指标作为该计算节点的负载相似度。9.根据权利要求6所述的计算节点管理方法,其特征在于,基于每个计算节点之间的固件相似度、网络结构相似度、负载相似度确定每个计算节点之间的相似度,包括:将每...

【专利技术属性】
技术研发人员:李仁刚闫瑞栋郭振华赵雅倩刘璐金良徐聪
申请(专利权)人:山东海量信息技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1