当前位置: 首页 > 专利查询>之江实验室专利>正文

一种任务执行的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:37994715 阅读:19 留言:0更新日期:2023-06-30 10:08
本说明书公开了一种任务执行的方法、装置、存储介质及电子设备。所述任务执行的方法包括:获取目标模型的模型数据,针对每个计算单元,确定该计算单元在每个时间节点之前允许进行针对各微训练批次的反向传播的最大次数,并确定反向传播次数的最大值所对应的时间节点,作为前向传播节点,在至少位于所述前向传播节点之前的各时间节点中确定该计算单元执行针对每个微训练批次的反向传播的时间节点,作为反向传播节点,根据每个计算单元对应的前向传播节点以及每个计算单元对应的反向传播节点,确定针对所述目标模型的训练策略,并基于所述训练策略,执行针对所述目标模型的任务执行任务。执行任务。执行任务。

【技术实现步骤摘要】
一种任务执行的方法、装置、存储介质及电子设备


[0001]本说明书涉及计算机
,尤其涉及一种任务执行的方法、装置、存储介质及电子设备。

技术介绍

[0002]随着深度学习技术的发展,一些超大规模的模型也随之出现,这些模型所需计算的参数量达到了千亿乃至万亿级,因此一些可以用于多机多卡集群环境的流水线并行算法被提出,以通过多个计算单元(如图形处理器(Central Process Unit,GPU))并行执行模型所涉及的运算。
[0003]在流水线并行算法中,通常会将一个训练批次划分为多个微训练批次(Microbatch),进而通过不同的计算单元完成对多个微批次的前向传播以及反向传播。
[0004]然而,目前在通过流水线并行算法进行任务执行过程中,对各微批次的前向传播过程和反向传播过程的时间及次序设置的并不合理,导致任务执行时存储在计算单元缓存中的激活值无法得到及时释放,模型收敛率较低,进一步影响模型的训练效率。
[0005]因此,如何对任务执行过程中产生的激活值进行有效释放,提高模型的收敛率以及训练效率,是一个亟待解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种任务执行的方法,其特征在于,包括:获取目标模型的模型数据;根据所述模型数据,对所述目标模型进行拆分,得到各子模型,每个子模型包含有所述目标模型的部分网络层;将各子模型部署在不同的计算单元中;针对每个计算单元,确定该计算单元在每个时间节点之前允许进行针对各微训练批次的反向传播的最大次数,并确定反向传播次数的最大值所对应的时间节点,作为该计算单元执行针对各微训练批次的前向传播的前向传播节点;在至少位于所述前向传播节点之前的各时间节点中确定该计算单元执行针对每个微训练批次的反向传播的时间节点,作为该计算单元执行针对各微训练批次的反向传播的反向传播节点;根据每个计算单元对应的前向传播节点以及每个计算单元对应的反向传播节点,确定针对所述目标模型的训练策略,并基于所述训练策略,执行针对所述目标模型的任务执行任务。2.如权利要求1所述的方法,其特征在于,针对每个计算单元,确定该计算单元在每个时间节点之前允许进行针对各微训练批次的反向传播的最大次数,具体包括:将所述目标模型当前的训练批次划分为至少两个微批次;确定该计算单元在每个时间节点之前允许进行针对所述至少两个微训练批次的反向传播的最大次数。3.如权利要求2所述的方法,其特征在于,针对每个时间节点,当该计算单元不在该时间节点进行其中任意一个微训练批次的前向传播时,该时间节点后的剩余训练时长足够完成该微训练批次的前向传播和反向传播以及该微训练批次后的其他微训练批次的前向传播和反向传播。4.如权利要求1所述的方法,其特征在于,针对每个计算单元,针对每个计算单元,确定该计算单元在每个时间节点之前允许进行针对各微训练批次的反向传播的最大次数,具体包括:针对每个微训练批次以及每个时间节点,根据该计算单元在前一个时间节点执行针对上一个微训练批次的反向传播的最大次数、该计算单元在前两个时间节点执行针对上一个微训练批次的反向传播的最大次数,以及该计算单元在前一个时间节点执行针对该微训练批次的反向传播最大次数中的至少一种,确定该计算单元在每个时间节点之前允许进行针对各微训练批次的反向传播的最大次数。5.如权利要求4所述的方法,其特征在于,针对每个微训练批次以及每个时间节点,根据该计算单元在前一个时间节点执行针对上一个微训练批次的反向传播的最大次数、该计算单元在前两个时间节点执行针对上一个微训练批次的反向传播的最大次数,以及该计算单元在前一个时间节点执行针对该微训练批次的反向传播最大次数中的至少一种,确定该计算单元在每个时间节点之前允许进行针对各微训练批次的反向传播的最大次数,具体包括:若该计算单元为最后一个执行计算的计算单元,则针对每个时间节点,若在该时间节点之前完成针对该微训练批次的前向传播,则根据该计算单元在前一个时间节点执行针对
上一个微训练批次的反向传播的最大次数,以及该计算单元在前两个时间节点执行针对上一个微训练批次的反向传播的最大次数,确定该计算单元在该时间节点之前允许执行针对该微训练批次的反向传播的最大次数。6.如权利要求4所述的方法,其特征在于,针对每个微训练批次以及每个时间节点,根据该计算单元在前一个时间节点执行针对上一个微训练批次的反向传播的最大次数、该计算单元在前两个时间节点执行针对上一个微训练批次的反向传播的最大次数,以及该计算单元在前一个时间节点执行针对该微训练批次的反向传播最大次数中的至少一种,确定该计算单元在每个时间节点之前允许进行针对各微训练批次的反向传播的最大次数,具体包括:若该计算单元不为最后一个执行计算的计算单元,则针对每个时间节点,当下一个计算单元在前一个时间节点之前完成针对该微训练批次的反向传播,则根据该计算单元在前一个时间节点执行针对上一个微训练批次的反向传播的最大次数,以及该计算单元在前两个时间节点执行针对上一个微训练批次的反向传播的最大次数,确定该计算单元在该时间节点之前允许执行针对该微训练批次的反向传播的最大次数。7.如权利要求4所述的方法,其特征在于,针对每个微训练批次以及每个时间节点,根据该计算单元在前一个时间节点执行针对上一个微训练批次的反向传播的最大次数、该计算单元在前两个时间节点执行针对上一个微训练批次的反向传播的最大次数,以及该计算单元在前一个时间节点执行针对该微训练批次的反向传播最大次数中的至少一种,确定该计算单元在每个时间节点之前允许进行针对各微训练批次的反向传播的最大次数,具体包括:针对每个时间节点,在该计算单元为最后一个执行计算的计算单元且在该时间节点之前未完成针对该微训练批次...

【专利技术属性】
技术研发人员:段钧文张吴越刘鹏张丽娜唐雪飞赖彦名朱春节
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1