当前位置: 首页 > 专利查询>之江实验室专利>正文

一种面向神经网络模型计算的图执行流水并行方法和装置制造方法及图纸

技术编号:33624141 阅读:26 留言:0更新日期:2022-06-02 00:51
本发明专利技术提出了一种面向神经网络模型计算的图执行流水并行方法和装置,提供了一种深度学习训练系统中面向神经网络模型计算的图执行流水并行方法和装置。包括面向神经网络模型计算过程中的图执行流程和各功能模块协同工作的过程。所述面向神经网络模型计算的图执行流水并行方法是根据深度学习框架编译生成的物理计算图创建本机上的图执行体,通过设计为每个图执行体分配多个空闲内存块的方案,实现了整张计算图以流水并行的方式同时参与到不同批次数据的深度学习训练任务中,充分提高了内存的使用率和数据的并行速率。内存的使用率和数据的并行速率。内存的使用率和数据的并行速率。

【技术实现步骤摘要】
一种面向神经网络模型计算的图执行流水并行方法和装置


[0001]本专利技术涉及深度学习
,特别涉及一种面向神经网络模型计算的图执行流水并行方法和装置。

技术介绍

[0002]随着人工智能产业化应用的快速发展,实际应用场景对大模型的需求变得越来越紧迫,机器学习工作负载的结构越来越趋于复杂的大模型,导致用于大模型计算的图的执行成本非常高。已有的用于神经网络模型计算的图执行方法多数基于同步的方法,导致整个图执行系统的资源利用率不高,限制了分布式系统的加速比和吞吐率。
[0003]为解决以上问题,本专利技术提供的用于神经网络模型计算的图执行流水并行方法隔离了各批次的训练数据与不同子图,每批次的训练数据按照1F1B前向后向的方式依次流过前向计算图和反向计算图。本专利技术可使得每个设备进程上都会有一个批次的数据正在被处理,使所有设备进程保持忙碌,而不会出现管道暂停,整个流水线是比较均衡的。同时能确保以固定周期执行每个子图上的参数更新,也有助于防止同时处理过多小批量并确保模型收敛。

技术实现思路

[0004]本专利技术的目的在于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向神经网络模型计算的图执行流水并行方法,其特征在于,所述神经网络模型中设有若干个执行体,所述执行体共有2*N个,所述N为正整数,所述执行体设有若干个内存块;所述方法具体包括如下步骤:S1、将训练数据分成若干个批次子数据;S2、若干个批次子数据依次输入神经网络模型中,当第i批次的子数据输入后,第n执行体对第i批次的子数据执行自身核函数计算,并将执行结果写入第n执行体空闲的内存块中;接着输入第i+1批次的子数据;所述i,n均为正整数;S3、当第i+1批次的子数据输入后,第n执行体对第i+1批次的子数据执行S2操作的同时,将第i批次所在的内存块的地址发送至第n+1执行体;第n+1执行体解析第i批次所在的内存块,得到第n执行体对第i批次的子数据的执行结果,并将第n执行体的执行结果作为第n+1执行体的输入数据,执行自身核函数计算,并将执行结果写入第n+1执行体空闲的内存块中;接着输入第i+2批次的子数据;S4、当第i+2批次的子数据输入后,第n执行体对第i+2批次的子数据执行S2操作,第n执行体和第n+1执行体对第i+1批次的子数据执行S3的操作;同时第n+1执行体将第i批次所在的内存块的地址发送至第n+2执行体,第n+2执行体解析第i批次所在的内存块,得到第n+1执行体对第i批次的子数据的执行结果,并将第n+1执行体的执行结果作为第n+2执行体的输入数据,执行自身核函数计算,并将执行结果写入第n+2执行体空闲的内存块中;S5、第n执行体回收发送给第n+1执行体的内存块;S6、最后一个执行体执行自身核函数计算,并将执行结果写入最后一个执行体的内存块,执行完毕即刻自行回收内存块。2.如权利要求1所述的一种面向神经网络模型计算的图执行流水并行方法,其特征在于:执行体在执行自身核函数计算前,执行体会检查自身是否存在空闲的内存块;若存在,则对第i批次的子数据执行自身核函数计算;若不存在,则令第i批次等待存在空闲的内存块。3.如权利要求2所述的一种面向神经网络模型计算的图执行流水并行方法,其特征在于,对于第N*n+1批次的子数据,执行体在执行自...

【专利技术属性】
技术研发人员:王宏升谭博文鲍虎军陈光
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1