【技术实现步骤摘要】
模型训练方法、装置、设备以及存储介质
[0001]本申请是申请日为2022年11月8日、申请号为202211394926.4的中国专利申请“模型训练方法、装置、设备以及存储介质”的分案申请。
[0002]本公开涉及计算机
,尤其涉及人工智能、深度学习、分布式训练等
技术介绍
[0003]近年来,随着数据量的不断增长,用户对深度学习模型训练的性能具有越来越高的要求。利用分布式系统进行分布式训练是一种行之有效的性能提升手段。不过,分布式系统间和分布式系统内部的通信均存在较大的开销。因此,亟需减少通信对计算的阻塞,以充分满足用户对性能的要求。
技术实现思路
[0004]本公开提供了一种模型训练方法、装置、设备、存储介质以及程序产品。
[0005]根据本公开的一方面,提供了一种模型训练方法,包括:针对至少一个模型训练阶段中的每个模型训练阶段,获取与所述模型训练阶段对应的至少一个计算操作、至少一个通信操作和同步模式;根据所述同步模式,将所述至少一个计算操作和所述至少一个通信操作分配至计算 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,包括:针对至少一个模型训练阶段中的每个模型训练阶段,获取与所述模型训练阶段对应的至少一个计算操作、至少一个通信操作和同步模式,所述至少一个计算操作包括第一计算操作,所述至少一个通信操作包括第一通信操作,所述第一通信操作用于将所述第一计算操作的计算结果发送至第一节点;根据所述同步模式,将所述至少一个计算操作分配至计算流中,并将所述至少一个通信操作分配至通信流中;以及执行所述计算流和所述通信流,以便对模型进行训练;其中,所述根据所述同步模式,将所述至少一个计算操作分配至计算流中,并将所述至少一个通信操作分配至通信流中,包括:在所述同步模式为通信流同步模式的情况下,在所述计算流中添加所述至少一个计算操作,在所述通信流中添加所述至少一个通信操作;在所述计算流中所述第一计算操作的后一位添加第一切换操作,并在所述第一切换操作的后一位添加第二等待操作,其中,所述第一切换操作用于切换至所述通信流中与所述第一计算操作对应的第一通信操作,所述第二等待操作用于等待所述第一通信操作执行完毕;以及在所述通信流中所述第一通信操作的前一位添加第一等待操作,并在所述第一等待操作的后一位添加第二切换操作,其中,所述第一等待操作用于等待所述第一切换操作执行完毕,所述第二切换操作用于切换至所述计算流中与所述第一通信操作对应的第一计算操作。2.根据权利要求1所述的方法,其中,所述根据所述同步模式,将所述至少一个计算操作分配至计算流中,并将所述至少一个通信操作分配至通信流中,还包括:在所述同步模式为异步模式的情况下,在所述计算流中添加所述至少一个计算操作,在所述通信流中添加所述至少一个通信操作;在所述计算流中所述第一计算操作的后一位添加第一切换操作,其中,所述第一切换操作用于切换至所述通信流中与所述第一计算操作对应的第一通信操作;以及在所述通信流中所述第一通信操作的前一位添加第一等待操作,其中,所述第一等待操作用于等待所述第一切换操作执行完毕。3.根据权利要求1所述的方法,其中,所述至少一个计算操作还包括第二计算操作,所述至少一个通信操作包括第二通信操作,所述第二通信操作用于获取来自第二节点的计算数据,所述第二计算操作用于对所述计算数据进行计算。4.根据权利要求3所述的方法,其中,所述根据所述同步模式,将所述至少一个计算操作分配至计算流中,并将所述至少一个通信操作分配至通信流中,还包括:在所述同步模式为异步模式的情况下,在所述计算流中添加所述至少一个计算操作,在所述通信流中添加所述至少一个通信操作;在所述通信流中所述第二通信操作的后一位添加第三切换操作,其中,所述第三切换
操作用于切换至所述计算流中与所述第二通信操作对应的第二计算操作;以及在所述计算流中所述第二计算操作的前一位添加第三等待操作,其中,所述第三等待操作用于等待所述第三切换操作执行完毕。5.根据权利要求3所述的方法,其中,所述根据所述同步模式,将所述至少一个计算操作分配至计算流中,并将所述...
【专利技术属性】
技术研发人员:孙逸伦,李雨芮,巩伟宝,于佃海,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。