【技术实现步骤摘要】
一种集群训练节点分配方法、电子设备
[0001]本专利技术涉及节点分配领域,尤其涉及一种集群训练节点分配方法、电子设备。
技术介绍
[0002]随着AI技术的发展,众多复杂的AI程序模型需要在计算集群上进行机器训练。由于多用户对集群节点资源的同时使用,在训练过程中,针对一个单机或多机训练任务,需要对节点计算机的资源进行分配。
[0003]现有技术中对节点计算机的分配是单向的、静态的,要么由用户直接选择训练组别训练节点计算机,要么系统根据剩余节点资源直接分配。并且除非用户主动禁用某报错较多的节点,在节点分配的时候一般不会根据运行状态进行调整,这种单向静态的分配方式难以实现计算资源分配的动态优化,让状态好的资源得到充分返回和利用。这容易造成资源分配不当,资源过载、报错较多,用户使用体验不佳的情况。
技术实现思路
[0004]本专利技术为克服上述的不足之处,目的在于提供一种集群训练节点分配方法、电子设备,动态调整节点分配,优化资源配置,提高用户体验。
[0005]本专利技术是通过以下方案达到上述目的 ...
【技术保护点】
【技术特征摘要】
1.一种集群训练节点分配方法,其特征在于,包括以下步骤:(1)设置训练分配参数,提交集群训练任务;所述训练分配参数包括组别名称、请求节点数量、也可以包括指定节点编号;(2)获取可用节点集合M,获取所有分组信息列表及选择的请求组别名称对应的节点列表,获取请求节点集合Y;(3)获取预分配可用节点集合Z,可用节点集合M和请求节点集合Y取交集得到预分配可用节点集合Z=M∩Y;(4)检查预分配可用节点集合Z中的节点数是否满足请求节点数量,不满足则返回步骤(1);满足则建立容量为请求节点数量的分配执行节点集合;(5)将指定节点放入分配执行节点集合;(6)对预分配可用节点集合Z中的节点按预设规则进行优先级排序,并依次放入分配执行节点集合中,直到分配执行节点集合容量装满;(7)锁定分配执行节点集合中的节点,将训练任务分发至分配执行节点,开始任务训练,训练过程中对节点运行状态进行监控。2.根据权利要求1所述的一种集群训练节点分配方法,其特征在于所述步骤(1)还包括选择训练环境组件选项,训练环境组件选项包括:镜像文件名称、启动参数、外部环境变量、配置参数和配置文件名称,所述配置参数包括系统资源分配参数。3.根据权利要求1所述的一种集群训练节点分配方法,其特征在于,所述可用...
【专利技术属性】
技术研发人员:郑达韡,徐进,
申请(专利权)人:杭州幻方人工智能基础研究有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。