System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及深度学习,特别是涉及一种训练任务的部署方法、系统、设备及存储介质。
技术介绍
1、目前,人工智能技术飞速发展,各个行业正迅速进行智能化改造。尤其是大模型aigc(artificial intelligence generated content,人工智能生成的内容)技术,正在深刻改变人们的生活和工作模式。各企业都在积极推进大模型的训练,出现了多种多样的大模型训练框架,对大模型的训练任务管理方式也提出了挑战。
2、目前的深度学习领域,模型开发平台对于大模型的任务管理的支持比较有限,暂未有较成熟的方法。
3、综上所述,如何对于采用大模型的训练任务,如何方便、有效地实现训练任务的部署,是目前本领域技术人员急需解决的技术问题。
技术实现思路
1、本专利技术的目的是提供一种训练任务的部署方法、系统、设备及存储介质,以方便、有效地实现采用大模型的训练任务的部署。
2、为解决上述技术问题,本专利技术提供如下技术方案:
3、一种训练任务的部署方法,包括:
4、接收到携带有表示训练任务的模型类型的第一指令之后,从预设的模板库中选取出对应于所述模型类型的目标模板;
5、基于接收到的第二指令,进行所述目标模板的参数配置;
6、在进行了所述目标模板的参数配置之后,检测所述目标模板的参数配置信息是否符合预设的针对大模型的资源配置规则;
7、如果是,则基于所述目标模板的参数配置信息,通过预设的资源调度
8、基于所述目标模板的参数配置信息,在选取出的所述节点集合中进行所述训练任务的部署。
9、在本专利技术的一种具体实施方式中,在进行了所述目标模板的参数配置之后,检测所述目标模板的参数配置信息是否符合预设的针对大模型的资源配置规则,包括:
10、在进行了所述目标模板的参数配置之后,基于所述目标模板的参数配置信息,判断a×t×p≥b是否成立;
11、如果a×t×p≥b成立,则确定出所述目标模板的参数配置信息符合预设的针对大模型的资源配置规则;
12、如果a×t×p≥b不成立,则确定出所述目标模板的参数配置信息不符合预设的针对大模型的资源配置规则,并输出表示模型显存错误的告警信息;
13、其中,a表示的是所述目标模板的参数配置信息中的单加速卡显存大小,t表示的是所述目标模板的参数配置信息中的张量并行度,p表示的是所述目标模板的参数配置信息中的流水线并行度,b表示的是所述目标模板的参数配置信息中的训练模型大小。
14、在本专利技术的一种具体实施方式中,在确定出所述目标模板的参数配置信息符合预设的针对大模型的资源配置规则之后,还包括:
15、当检测出t≤c不成立时,输出表示张量并行度不满足高速数据通信需求的第一提示信息;
16、其中,c表示的是所述目标模板的参数配置信息中的单机加速卡数量。
17、在本专利技术的一种具体实施方式中,在确定出所述目标模板的参数配置信息符合预设的针对大模型的资源配置规则之后,还包括:
18、当检测出p≤e不成立时,输出表示机柜内网络不满足流水线并行数据通信需求的第二提示信息;
19、其中,e表示的是所述目标模板的参数配置信息中的单机柜内节点数量。
20、在本专利技术的一种具体实施方式中,基于所述目标模板的参数配置信息,在选取出的所述节点集合中进行所述训练任务的部署,包括:
21、基于所述目标模板的参数配置信息,自动确定出所述目标模板所依赖的环境准备信息;
22、基于所述环境准备信息自动在选取出的所述节点集合中进行环境部署,并基于所述目标模板的参数配置信息,在所述节点集合中进行所述训练任务的部署。
23、在本专利技术的一种具体实施方式中,还包括:
24、判断所述目标模板的参数配置信息中的节点使用数量是否高于预设的第一阈值;
25、如果不高于所述第一阈值,则输出表示节点使用数量过低的第三提示信息,并判断是否接收到部署确认指令;
26、如果未接收到所述部署确认指令,则结束当前的训练任务的部署流程。
27、在本专利技术的一种具体实施方式中,所述资源调度算法为聚类算法,相应的,基于所述目标模板的参数配置信息,通过预设的资源调度算法,从集群中选取出用于部署所述训练任务的节点集合,使得所述节点集合中的节点资源符合所述目标模板的参数配置信息的要求,且使得所述节点集合中的节点间通信效率符合预设的通信效率要求,包括:
28、从集群中选取出允许进行训练任务部署的各个节点,并从中剔除空闲加速卡数量低于所述目标模板的参数配置信息中的张量并行度t的各个节点之后,将剩余节点构成的集合作为待聚类节点集合;
29、基于所述聚类算法,以降低同一子集合内的节点之间的通信距离之和作为聚类目标,将所述待聚类节点集合划分为多个子集合,且使得划分出的每一个子集合中的节点数量均等于所述目标模板的参数配置信息中的流水线并行度p;
30、基于所述聚类算法,以降低同一聚合集合内的节点之间的通信距离之和作为聚类目标,对各个所述子集合进行聚类,得到多个聚合集合;其中,每个聚合集合中包括d个子集合,d为所述目标模板的参数配置信息中的数据并行度;
31、从多个聚合集合中,选取出聚合集合内的节点之间的通信距离之和最小的聚合集合,作为从集群中选取出的用于部署所述训练任务的节点集合。
32、一种训练任务的部署系统,包括:
33、模板选取模块,用于接收到携带有表示训练任务的模型类型的第一指令之后,从预设的模板库中选取出对应于所述模型类型的目标模板;
34、参数配置模块,用于基于接收到的第二指令,进行所述目标模板的参数配置;
35、资源配置规则校验模块,用于在进行了所述目标模板的参数配置之后,检测所述目标模板的参数配置信息是否符合预设的针对大模型的资源配置规则;如果是,则触发聚类模块;
36、所述聚类模块用于:基于所述目标模板的参数配置信息,通过预设的资源调度算法,从集群中选取出用于部署所述训练任务的节点集合,使得所述节点集合中的节点资源符合所述目标模板的参数配置信息的要求,且使得所述节点集合中的节点间通信效率符合预设的通信效率要求;
37、部署执行模块,用于基于所述目标模板的参数配置信息,在选取出的所述节点集合中进行所述训练任务的部署。
38、一种训练任务的部署设备,包括:
39、存储器,用于存储计算机程序;
40、处理器,用于执行所述计算机程序以实现如上述所述的训练任务的部署方法的步骤。
41、一种计算机可读存储介质,所述计算机可读存储介质本文档来自技高网...
【技术保护点】
1.一种训练任务的部署方法,其特征在于,包括:
2.根据权利要求1所述的训练任务的部署方法,其特征在于,在进行了所述目标模板的参数配置之后,检测所述目标模板的参数配置信息是否符合预设的针对大模型的资源配置规则,包括:
3.根据权利要求2所述的训练任务的部署方法,其特征在于,在确定出所述目标模板的参数配置信息符合预设的针对大模型的资源配置规则之后,还包括:
4.根据权利要求2所述的训练任务的部署方法,其特征在于,在确定出所述目标模板的参数配置信息符合预设的针对大模型的资源配置规则之后,还包括:
5.根据权利要求1所述的训练任务的部署方法,其特征在于,基于所述目标模板的参数配置信息,在选取出的所述节点集合中进行所述训练任务的部署,包括:
6.根据权利要求1所述的训练任务的部署方法,其特征在于,还包括:
7.根据权利要求1至6任一项所述的训练任务的部署方法,其特征在于,所述资源调度算法为聚类算法,相应的,基于所述目标模板的参数配置信息,通过预设的资源调度算法,从集群中选取出用于部署所述训练任务的节点集合,使得所述节
8.一种训练任务的部署系统,其特征在于,包括:
9.一种训练任务的部署设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的训练任务的部署方法的步骤。
...【技术特征摘要】
1.一种训练任务的部署方法,其特征在于,包括:
2.根据权利要求1所述的训练任务的部署方法,其特征在于,在进行了所述目标模板的参数配置之后,检测所述目标模板的参数配置信息是否符合预设的针对大模型的资源配置规则,包括:
3.根据权利要求2所述的训练任务的部署方法,其特征在于,在确定出所述目标模板的参数配置信息符合预设的针对大模型的资源配置规则之后,还包括:
4.根据权利要求2所述的训练任务的部署方法,其特征在于,在确定出所述目标模板的参数配置信息符合预设的针对大模型的资源配置规则之后,还包括:
5.根据权利要求1所述的训练任务的部署方法,其特征在于,基于所述目标模板的参数配置信息,在选取出的所述节点集合中进行所述训练任务的部署,包括:
6.根据...
【专利技术属性】
技术研发人员:荆荣讯,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。