【技术实现步骤摘要】
基于集群拓扑结构的模型部署方法、系统、设备及介质
[0001]本专利技术涉及服务器集群领域,特别涉及一种基于集群拓扑结构的模型部署方法
、
系统
、
设备及介质
。
技术介绍
[0002]目前深度学习领域出现越来越多的大模型,大模型通常使用模型并行的方法服务器集群进行并行分布式训练和推理,不同模型并行训练方法的通信方式和通信效率是多种多样的,其中一项关键因素就是设备以及服务器间的连接拓扑
。
不同的拓扑设备之间的带宽也不同,如果模型并行策略中两个设备之间的通信需要经过服务器集群中的
CPU
(
Central Processing Unit
,中央处理器)就会极大的影响通信效率
。
[0003]因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题
。
技术实现思路
[0004]本专利技术的目的是提供一种基于集群拓扑结构的模型部署方法
、
系统
、 >设备及介质,能够使本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于集群拓扑结构的模型部署方法,其特征在于,包括:基于服务器集群的配置信息生成拓扑结构树;所述拓扑结构树的根节点下的节点为由中央处理器构成的中央处理器节点,所述中央处理器节点下的节点为由通信设备构成的通信节点,所述通信节点下的节点为由设备构成的设备节点;按所述拓扑结构树确定各个所述中央处理器节点对应的算力,基于所述算力获取最优划分部署方案;按所述最优划分部署方案对预设模型按其网络层进行划分得到多个模型模块,将各个所述模型模块部署在各个所述中央处理器节点下的各个所述设备节点上,以使所述服务器集群的各个所述设备节点之间的通信开销最小;每一所述模型模块包括至少一个所述网络层
。2.
根据权利要求1所述的基于集群拓扑结构的模型部署方法,其特征在于,所述基于服务器集群的配置信息生成拓扑结构树的过程包括:基于服务器集群的配置信息确定所述服务器集群中的各个服务器以及每一所述服务器上的中央处理器和设备的拓扑架构信息;根据所述拓扑架构信息生成所述服务器集群对应的拓扑结构树
。3.
根据权利要求2所述的基于集群拓扑结构的模型部署方法,其特征在于,基于服务器集群的配置信息确定所述服务器集群中的各个服务器以及每一所述服务器上的中央处理器和设备的拓扑架构信息的过程包括:基于所述服务器集群的配置信息确定所述服务器集群中的所有服务器;在所有所述服务器中确定主服务器,控制所述主服务器遍历访问其他各个所述服务器,以便其他每一所述服务器查看并记录自身的中央处理器和设备的拓扑架构信息,并将记录的所述拓扑架构信息上传至所述主服务器
。4.
根据权利要求1所述的基于集群拓扑结构的模型部署方法,其特征在于,按所述拓扑结构树确定各个所述中央处理器节点对应的算力,基于所述算力获取最优划分部署方案的过程包括:获取每一所述中央处理器节点对应的算力;根据各个所述中央处理器节点的算力对所述预设模型按其网络层进行划分得到多个模型模块,所述中央处理器的算力与所述模型模块中包括的网络层的层数呈正相关;针对每一所述中央处理器节点,确定所述中央处理器节点对应的所述模型模块,确定所述模型模块的各个所述网络层部署在所述中央处理器节点下的各个所述设备节点上的所有划分方案,获取每一所述划分方案的通信开销,将所述通信开销最小的所述划分方案确定为所述中央处理器节点下的最优模型划分方案
。5.
根据权利要求4所述的基于集群拓扑结构的模型部署方法,其特征在于,所述根据各个所述中央处理器节点的算力对所述预设模型按其网络层进行划分得到多个模型模块的过程包括:根据第一计算关系式对所述预设模型按其网络层进行划分得到多个模型模块,所述第一计算关系式为
Li=
(
gi/
Σ
gi
)
×
L
,其中,
Li
为第
i
个所述中央处理器节点对应的所述模型模块中包括的所述网络层的层数,
gi
为第
i
个所述中央处理器节点的所述算力,
L
为所述预设模型的网络层的总层数
。
6.
根据权利要求4所述的基于集群拓扑结构的模型部署方法,其特征在于,所述基于集群拓扑结构的模型部署方法还包括:在所有所述中央处理器节点中确定第一中央处理器节点,所述第一中央处理器节点确定用于进行数据读取操作或进行结果输出操作
。7.
根据权利要求6所述的基于集群拓扑结构的模型部署方法,其特征在于,在所有所述中央处理器节点中确定第一中央处理器节点的过程包括:确定各个所述中央处理器节点下的所述通信节点的数量;将所述通信节点的数量最小的所述中央处理器节点确定为第一中央处理器节点
。8.
根据权利要求6所述的基于集群拓扑结构的模型部署方法,其特征在于,所述基于集群拓扑结构的模型部署方法还包括:在所有所述中央处理器节点中确定第二中央处理器节点,当所述第一中央处理器节点用于进行所述数据读取操作,所述第二中央处理器节点用于进行所述结果输出操作,或,当所述第一中央处理器节点用于进行所述结果输出操作,所述第二中央处理器节点用于进行所述数据读取操作
。9.
根据权利要求8所述的基于集群拓扑结构的模型部署方法,其特征在于,在所有所述中央处理器节点中确定第二中央处理器节点的过程包括:确定除所述第一中央处理器节点外的所有所述中央处理器节点下的所述通信节点的数量;将所述通信节点的数量最小的所述中央处理器节点确定为第二中央处理器节点
。10.
根据权利要求4所述的基于集群拓扑结构的模型部署方法,其特征在于,获取每一所述划分方案的通信开销的过程包括:确定所述中央处理器节点下的所述通信节点的数量;根据所述通信节点的数量,获取每一所述划分方案的通信开销
。11.
根据权利要求
10
所述的基于集群拓扑结构的模型部署方法,其特征在于,根据所述通信节点的数量,获取每一所述划分方案的通信开销的过程包括:当所述通信节点的数量为1时,根据第二关系式获取每一所述划分方案的通信开销,所述第二关系式为;其中,
C
(
L
,
E
)为
L
层的预设模型在所述设备节点的内存容量
E
下的总执行时间,
S
【专利技术属性】
技术研发人员:郭振华,高开,王丽,曹芳,唐轶男,邱志勇,赵雅倩,李仁刚,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。