【技术实现步骤摘要】
本申请实施例涉及云,尤其涉及一种基于云管理平台的模型训练方法以及云管理平台。
技术介绍
1、随着人工智能(artificial intelligence,ai)技术的发展,神经网络模型的规模越来越大。由于神经网络模型的参数和训练数据均呈指数级增长,云厂商为租户提供了分布式训练集群,以完成租户的神经网络模型的训练,从而满足租户的模型训练需求。
2、在相关技术中,基于租户的模型训练需求,云厂商可为租户规划分布式训练集群,该分布式训练集群通常包含多个通信域,每个通信域包含若干个计算节点。对于多个通信域中的任意一个通信域,该通信域中的计算节点之间具备一定的通信关系,云厂商可按照计算节点的优先级,对该通信域中计算节点之间的通信关系进行调整,从而得到优化后的该通信域。如此一来,云厂商最终可得到优化后的多个通信域,并创建这多个通信域,以为租户完成模型训练。
3、上述过程中,云厂商在对通信域进行优化时,仅考虑计算节点的优先级,所考虑的因素较为单一,这样无法对通信域达到较佳的优化效果,导致分布式训练集群内部的整体通信效率不佳,无法
...【技术保护点】
1.一种基于云管理平台的模型训练方法,其特征在于,所述云管理平台用于管理提供云服务的基础设施,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述模型训练任务包含所述多个计算节点的数量,所述多个计算节点的类型以及所述多个计算节点需训练的待训练模型的参数。
3.根据权利要求1或2所述的方法,其特征在于,所述训练策略包含以下至少一项:流水线并行策略、数据并行策略、张量并行策略以及序列并行策略。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述通信关系包含以下至少一项:所述每个通信域的计算节点的标识,所述每个通信域的计
...【技术特征摘要】
1.一种基于云管理平台的模型训练方法,其特征在于,所述云管理平台用于管理提供云服务的基础设施,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述模型训练任务包含所述多个计算节点的数量,所述多个计算节点的类型以及所述多个计算节点需训练的待训练模型的参数。
3.根据权利要求1或2所述的方法,其特征在于,所述训练策略包含以下至少一项:流水线并行策略、数据并行策略、张量并行策略以及序列并行策略。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述通信关系包含以下至少一项:所述每个通信域的计算节点的标识,所述每个通信域的计算节点的物理位置以及所述每个通信域的计算节点之间的通信顺序。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述云管理平台生成所述多个计算节点完成所述模型训练任务需遵循的训练策略包括:
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述云管理平台基于所述模型训练任务以及所述训练策略,确定由所述多个计算节点构建的多个通信域包括:
7.根据权利要求1至5任意一项所述的方法,其特征在于,所述云管理平台基于所述模型训练任务以及所述训练策略,确定每个通信域执行所述模型训练任务产生的通信量包括:
8.根据权利要求7所述的方法,其特征在于,所述云管理平台基于所述通信量,对所述每个通信域中计算节点之间的通信关系进行调整,得到调整后的多个通信域包括:
9.一种云管理平台,其特征在于,所述云管理平台用于管理提供云服务的基础设施,所述云管理平台包括:
10.根据权利要求9所述的云管理平台,其特征在于,所述模型训练任务包含所述多个计算节点的数量,所述多个计算节点的类型以及所...
【专利技术属性】
技术研发人员:李康,陈磊,戈弋,蒲削锟,苏涛,
申请(专利权)人:华为云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。