【技术实现步骤摘要】
一种训练方法、装置及电子设备和存储介质
本申请涉及计算机
,更具体地说,涉及一种训练方法、装置及一种电子设备和一种计算机可读存储介质。
技术介绍
随着人工智能(AI)技术的进一步发展和应用,AI算法工程师主要在GPU(中文全称:图形处理器,英文全称:GraphicsProcessingUnit)集群上不断迭代训练算法模型,以得到精度高、鲁棒性强的AI模型。通常情况下,每个GPU集群GPU节点的系统、CPU类型、GPU卡的类型、安装的GPU卡驱动版本及其相关软件是有些差异的。然而,GPU节点的这些参数往往会影响一个AI模型算法的训练迭代速度,进而影响算法人员的工作效率。因此,如何为不同的训练作业选择一个合适的运行节点,高效地发挥出集群的性能,是本领域技术人员需要解决的技术问题。
技术实现思路
本申请的目的在于提供一种训练方法、装置及一种电子设备和一种计算机可读存储介质,为不同的训练作业选择一个合适的运行节点,高效地发挥出集群的性能。为实现上述目的,本申请提供了一种训练方法,包括: >当接收到目标训练作本文档来自技高网...
【技术保护点】
1.一种训练方法,其特征在于,包括:/n当接收到目标训练作业时,提取所述目标训练作业的作业信息作为目标作业信息;/n基于目标对应关系确定所述目标作业信息对应的目标节点信息;其中,所述目标对应关系为作业信息与节点信息对应关系;/n根据所述目标节点信息确定目标运行节点,并将所述目标训练作业调度至所述目标运行节点进行训练。/n
【技术特征摘要】
1.一种训练方法,其特征在于,包括:
当接收到目标训练作业时,提取所述目标训练作业的作业信息作为目标作业信息;
基于目标对应关系确定所述目标作业信息对应的目标节点信息;其中,所述目标对应关系为作业信息与节点信息对应关系;
根据所述目标节点信息确定目标运行节点,并将所述目标训练作业调度至所述目标运行节点进行训练。
2.根据权利要求1所述训练方法,其特征在于,还包括:
获取测试训练作业,提取每个所述测试训练作业的作业信息,在每个节点中运行每个所述测试训练作业;
计算每个所述测试训练作业在每个所述节点上运行的运行时间,基于所述运行时间利用深度学习算法确定每个所述测试训练作业对应的最佳运行节点;
将每个所述测试训练作业的作业信息与所述最佳运行节点的节点信息的对应关系确定为所述目标对应关系。
3.根据权利要求2所述训练方法,其特征在于,所述深度学习算法包括自动编码算法或深度信念网络算法。
4.根据权利要求1所述训练方法,其特征在于,所述作业信息包括深度学习框架、算法框架、数据集、镜像信息、业务类型中任一项或任几项的组合,所述节点信息包括GPU卡类型、驱动版本、CUDA版本中任一项或任几项的组合。
5.一种训练装置,其特征在于,包括:
提取模块,用于当接收到目标训练作业时,提取所述目标训练作业的作业信息作为目标作业信息;
第一确定模块,用于基于目标对应关系确定所述目标作业信息对应的目标节点信息;其中,...
【专利技术属性】
技术研发人员:袁利杰,
申请(专利权)人:广东浪潮大数据研究有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。