当前位置: 首页 > 专利查询>之江实验室专利>正文

面向异构计算设备的深度学习图像分类方法及装置制造方法及图纸

技术编号:35370960 阅读:11 留言:0更新日期:2022-10-29 18:13
本发明专利技术公开了面向异构计算设备的深度学习图像分类方法及装置,将深度学习模型建模为一个有向无环图,有向无环图的节点表深度学习模型的算子,节点之间的有向边代表深度学习模型算子间的数据传输;根据算子分别在各异构计算设备上的处理时间为节点赋值,根据算子间数据在两个计算设备间的传输时间为节点之间的有向边赋值;将每个节点之间的有向边替换为新的节点,并增加两条有向边,保持有向无环图的拓扑结构,用原有向边的权重为新的节点赋值;对算子的内存占用、设备的内存限制、算子在设备上的执行顺序、设备与设备间的数据传输、设备与设备间的数据传输顺序建模,模型的目标函数是模型的端到端推理时延,从而得到最小时延的模型。的模型。的模型。

【技术实现步骤摘要】
面向异构计算设备的深度学习图像分类方法及装置


[0001]本专利技术涉及深度学习领域,尤其是涉及面向异构计算设备的深度学习图像分类方法及装置。

技术介绍

[0002]近年来,深层学习模型在不同的场景中广泛应用,其中包括物体检测、语音识别、机器翻译等应用。在这些应用中,研究人员通过增加深度学习模型可训练的参数量,来提升模型的准确度和泛化能力。举例来说,最先进的语言模型Megatron

NLG[3]有5300亿个参数,其在LAMBADA[4]的下一个单词预测任务中,准确率为87.15%。大规模的深度学习模型推理需要大量的内存空间来存储参数和中间变量,这些模型需要充足的设备内存空间,然而每台设备的内存大小是有限的,通常情况下无法承载大规模深度学习模型。例如,有1750亿个参数的GPT

3模型需要350GB的GPU内存,这远远超出了任何商用现成的GPU的内存大小。此外,随着物联网(IoT)的普及,如移动电话和智能传感器,提出了使用多个IoT设备进行大规模深度学习模型推理来满足IoT应用对隐私、时延和预算的需求。因此,人们通常希望可以把一个大规模深度学习模型分割成多个子模型,并把子模型放置在各个计算设备上运行,并满足大规模深度学习模型推理的时延要求。通常来说,我们希望大规模深度学习模型的端到端推理时延越小越好。我们通常要考虑各个算子在各计算设备上的计算时间,以及设备间的网络状况对算子进行分配,该过程被现有方法建模成一个整数线性规划(Integer linear programming,ILP)模型,但现有方法存在以下问题:1、现有方法没有办法拓展到大规模计算设备上。通常情况下,现有建模仅能适配三台计算设备,对于使用大量IoT设备来进行推理的问题不适用。
[0003]2、现有方法没有考虑到一个算子在不同设备上的计算时间是不同的。设备的计算能力、内存大小、网络传输能力(以带宽计算),存在差异,现有方法认为一个算子在任一计算设备上的计算时间相同,这会导致算子分配的结果不能保证最优的端到端推理时延。

技术实现思路

[0004]为解决现有技术的不足,实现深度学习模型在大规模异构计算设备上的协同推理,以及提高算子基于不同计算设备的最优端到端图像分类时延的目的,本专利技术采用如下的技术方案:一种面向异构计算设备的深度学习图像分类方法,包括如下步骤:步骤S1,将深度学习模型建模为有向无环图,其中有向无环图的节点表示深度学习模型的算子,有向无环图的有向边表示深度学习模型算子间的数据传输,获取算子在各计算设备上的计算时间,以及算子间的数据在两个计算设备间的数据传输时间;步骤S2,将有向无环图中的有向边替换为新的节点,并在新的节点与原节点之间添加新的有向边,生成新的有向无环图;步骤S3,构建计算设备及其运行计算任务处理时间、内存开销,通讯任务时延,基
于有向无环图的计算任务的紧后任务,基于新的有向无环图的计算任务或通讯任务的紧后任务;步骤S4,设定分配决策、通讯决策和时间决策,分配决策是将任务分配至对应的计算设备,通讯决策是通讯任务的通讯时间,时间决策是任务的开始时间;步骤S5,将深度学习模型分割成多份算子,并分配到多个计算设备上执行,基于步骤S3和步骤S4中参数构建约束条件,最小化深度学习模型的推理完成时间,约束条件包括:计算任务或通讯任务,其完成时间小于等于与他直接或间接紧后的计算或通讯任务的开始时间;算子分配在计算设备上时,其计算的完成时间为计算开始时间加上计算所需的时间;一个算子只由一台计算设备进行计算,且在计算过程中不能被中断;每台计算设备上的算子所占内存大小不能超过该设备的内存大小;两个在有向无环图中不存在先后顺序关系的算子,当他们布置在同一设备上时,一个时刻只能有一个算子被计算设备执行;对于通讯任务,当两个存在数据传输的算子被分配到同一台设备上时,其数据传输时延忽略不计,但当两个存在数据传输的算子被分配到不同设备上时,存在数据传输时延;当两个计算设备之间存在多个通讯任务时,一个时刻只能有一个通讯任务被执行;步骤S6,将图像输入分割后的计算设备,基于最小化的深度学习模型进行图像分类。
[0005]进一步地,所述有向无环图为:其中表示有向无环图的节点,表示有向无环图的有向边;新的有向无环图为:其中新的节点包含有向无环图的节点及其有向边构成的节点;表示新的有向边;设定计算设备编号为k,所有设备编号的集合为K,节点计算任务在设备k上的处理时间为,通讯任务的平均传输时延为,节点计算任务的内存开销为,设备k的内存上限为;初始的有向无环图G中,节点计算任务的直接或间接紧后任务集合;新的有向无环图中,节点计算任务或通讯任务的直接或间接紧后任务集合。
[0006]分配决策,表示将任务分配到第k个设备上执行;通讯决策,表示中任务和任务存在通讯任务q的通讯时间;时间决策,表示任务的开始时间;
最小化深度学习模型的推理完成时间表示为,表示第i个算子的完成时间,表示深度学习模型表示最后一个推理完成的算子。
[0007]进一步地,所述约束条件中,,,,表示第个算子计算任务或第i个通讯任务,其完成时间一定小于等于与他直接或间接紧后的计算或通讯任务j的开始时间。
[0008]进一步地,所述约束条件中,,,表示第i个算子分配在第k个计算设备上时,其计算的完成时间为计算开始时间加上计算所需的时间。
[0009]进一步地,所述约束条件中,,表示分配决策参数的数值在所有K个设备上的和为1,因为一个算子只由一台设备进行计算,且在计算过程中不能被中断。
[0010]进一步地,所述约束条件中,,,表示每台设备上的算子所占内存大小不能超过该设备的内存大小。
[0011]进一步地,所述约束条件中,,,其中,,,,and,表示两个在有向无环图中不存在先后顺序关系的算子i和j,当他们布置在同一设备上时,一个时刻只能有一个算子被计算设备执行。
[0012]进一步地,所述约束条件中,所述约束条件中,,,,,,,,,,,,,表示针对数据通讯任务q,,当两个存在数据传输的算子被分配到同一台设备上时,其数据传输时延忽略不计,但当两个存在数据传输的算子被分配到不同设备上时,存在数据传输时延。
[0013]进一步地,所述约束条件中,所述约束条件中,所述约束条件中,所述约束条件中,表示当两个计算设备之间存在多个通讯任务时,一个时刻只能有一个通讯任务被执行;其中S
q
表示通讯任务q的开始时间,C
q
表示通讯任务q的完成时间,S
r
表示通讯任务r的开始时间,C
r
表示通讯任务r的结束时间,表示指示变量,且,

并且 ,,,;分别表示相对于指标变量、通讯策略、分配策略的趋于正无穷大的数。
[0014]一种面向异构计算设备的深度学习图像分类装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的面向异构计算设备的深度学习图像分类方法。...

【技术保护点】

【技术特征摘要】
1.一种面向异构计算设备的深度学习图像分类方法,其特征在于包括如下步骤:步骤S1,将深度学习模型建模为有向无环图,其中有向无环图的节点表示深度学习模型的算子,有向无环图的有向边表示深度学习模型算子间的数据传输,获取算子在各计算设备上的计算时间,以及算子间的数据在两个计算设备间的数据传输时间;步骤S2,将有向无环图中的有向边替换为新的节点,并在新的节点与原节点之间添加新的有向边,生成新的有向无环图;步骤S3,构建计算设备及其运行计算任务处理时间、内存开销,通讯任务时延,基于有向无环图的计算任务的紧后任务,基于新的有向无环图的计算任务或通讯任务的紧后任务;步骤S4,设定分配决策、通讯决策和时间决策,分配决策是将任务分配至对应的计算设备,通讯决策是通讯任务的通讯时间,时间决策是任务的开始时间;步骤S5,将深度学习模型分割成多份算子,并分配到多个计算设备上执行,基于步骤S3和步骤S4中参数构建约束条件,最小化深度学习模型的推理完成时间;步骤S6,将图像输入分割后的计算设备,基于最小化的深度学习模型进行图像分类。2.根据权利要求1所述的面向异构计算设备的深度学习图像分类方法,其特征在于:所述有向无环图为:其中表示有向无环图的节点,表示有向无环图的有向边;新的有向无环图为:其中新的节点包含有向无环图的节点及其有向边构成的节点;表示新的有向边;设定计算设备编号为k,所有设备编号的集合为K,节点计算任务在设备k上的处理时间为,通讯任务的平均传输时延为,节点计算任务的内存开销为,设备k的内存上限为;初始的有向无环图G中,节点计算任务的直接或间接紧后任务集合;新的有向无环图中,节点计算任务或通讯任务的直接或间接紧后任务集合;分配决策,表示将任务分配到第k个设备上执行;通讯决策,表示中任务和任务存在通讯任务q的通讯时间;时间决策,表示任务的开始时间;最小化深度学习模型的推理完成时间表示为,表示第i个算子的完成时间,表示深度学习模型表示最后一个推理完成的算子。3.根据权利要求2所述的面向异构计算设备的深度学习图像分类方法,其特征在于:所述约束条件中,,,,表示第个算子计算任务或第i个通讯任务,其完成时间一定小于等于与他直接或间接紧后的计算或通讯任务j的开始时间。
4.根据权利要...

【专利技术属性】
技术研发人员:张北北高丰穆晓妍王东升孙铭鸽白文媛
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1