【技术实现步骤摘要】
本申请涉及人工智能领域的任务处理技术,尤其涉及一种任务处理方法、装置、设备、计算机存储介质和计算机程序产品。
技术介绍
1、生成式人工智能的关键在于模型的参数规模以及训练样本数量,然而大规模的参数量和大量的训练样本通常会需要大量的图形处理器(graphics processing unit,gpu)进行训练。由于训练过程的计算和网络资源的高负载,使得训练任务不稳定,容易发生中断。为了减少人工干预,目前的方案是发生故障时将故障节点隔离,把备机加入到可调度节点中,自动重新调度训练任务,然后加载最新的检查点重新进入训练状态,但对gpu时间浪费很严重。为解决该问题,相关技术方案出现了在故障发生时停止模型训练中所有节点的任务,同时释放故障节点中的训练进程,但不释放非故障节点中的训练进程,从而使管理节点在训练任务出现故障后重启训练任务时非故障节点无需重新加载备份(检查点)状态。但是,该方案只是从重调度时间和初始化时间进行优化,这部分所占的比重不高,依然存在对处理器时间的大量浪费的问题,造成资源的过度占用。
技术实现思路<
本文档来自技高网...
【技术保护点】
1.一种任务处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述在执行所述多组训练子任务中出现目标服务节点故障,停止执行所述目标服务节点所在的目标组训练子任务,包括:
3.根据权利要求1所述的方法,其特征在于,所述确定备用服务节点,并通过所述备用服务节点和其他服务节点执行所述目标组训练子任务中未执行的训练子任务,包括:
4.根据权利要求3所述的方法,其特征在于,所述通过所述目标服务节点集群,执行所述目标组训练子任务中未执行的训练子任务,包括:
5.根据权利要求4所述的方法,其特征在于,所述
...【技术特征摘要】
1.一种任务处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述在执行所述多组训练子任务中出现目标服务节点故障,停止执行所述目标服务节点所在的目标组训练子任务,包括:
3.根据权利要求1所述的方法,其特征在于,所述确定备用服务节点,并通过所述备用服务节点和其他服务节点执行所述目标组训练子任务中未执行的训练子任务,包括:
4.根据权利要求3所述的方法,其特征在于,所述通过所述目标服务节点集群,执行所述目标组训练子任务中未执行的训练子任务,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述当前的状态数据,通过所述目标服务节点集群执行所述目标组训练子任务中未执行的训练子任务,包括:
6.根据权利要求...
【专利技术属性】
技术研发人员:吴迎俊,齐骥,李莉,
申请(专利权)人:中移苏州软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。