当前位置: 首页 > 专利查询>东南大学专利>正文

边缘计算下异构处理器加速多出口DNN推理的方法技术

技术编号:33919170 阅读:29 留言:0更新日期:2022-06-25 20:44
本发明专利技术公开一种边缘计算下异构处理器加速多出口DNN(Deep Neural Networks)推理的方法,首先针对不同负载下的CPU与GPU,分别统计深度神经网络各层在CPU、GPU上的计算成本、各层提前退出分支出口的分类能力以及各网络层中间数据量大小;然后分析数据,得出特定负载情况下,将深度神经网络各层分配给CPU(GPU)处理器的最优并行组合模型;最后在终端设备上在线监测分析CPU、GPU的负载情况、以及当前的计算能力,以最小化推理时延为目标对深度神经网络推理任务进行切分,任务切块分别被分配在GPU与CPU,最终形成基于异构处理器的推理加速框架。此种方法能够提高推理的灵活性,保证准确率,降低推理总时延,满足边缘智能应用的实时性与高精度需求。时性与高精度需求。时性与高精度需求。

【技术实现步骤摘要】
边缘计算下异构处理器加速多出口DNN推理的方法


[0001]本专利技术属于智能终端领域和深度学习领域,具体地说是在具有异构处理器的智能终端中部署智能应用的场景下,实现应用所依赖的深度学习模型推理优化加速的方法,具体涉及一种边缘计算下异构处理器加速多出口DNN推理的方法。

技术介绍

[0002]近年来,随着深度学习技术的不断发展以及智能手机、智能手环以及各类IOT(Internet of Things)设备等智能终端的快速普及,在智能终端上运行深度学习应用已成为了必然趋势。在这种模式下,智能终端实时采集周围环境以及用户行为等海量数据,并通过多种相应的深度学习算法对这些环境与用户数据进行挖掘分析,如利用深度神经网络构建的目标检测应用、模拟现实场景的虚拟现实应用以及强大的智能生活助手等。这些智能应用往往是数据密集型与计算密集型任务,它所依赖的深度神经网络模型,主要通过增加网络深度、优化网络结构来获得更优的特征表达与学习推理能力,以达到更高的准确率。然而,更深更复杂的模型极大地增加了推理延迟与计算能耗,例如ResNet

50所需的浮点运算量已达到4
×
109,这些计算成本对于资源有限、能耗敏感的移动智能终端来说难以接受。因此,单靠智能终端的计算能力往往难以满足深度学习处理应用的需求。于是将资源密集型的深度学习任务卸载给强大的云数据中心变成了常用的处理方案,但是,将大量智能终端捕获的原始数据直接传输到云端执行可能会由于不受控制的长广域网延迟和不稳定的主干网络,带来不可预测的性能问题,在移动智能终端上运行深度学习应用面临着巨大的阻力。
[0003]为了减少云计算处理模式的延迟和缓解集中式处理的单点压力问题,近几年来学术界提出了一种具有终端设备与边缘服务器协同作用的体系架构——“边缘计算”,即将部分智能服务从云数据中心下沉到边缘设备,在靠近智能终端设备的位置提供计算、存储资源和通信服务,相比于云数据中心,边缘服务器具有高带宽、低延迟的特点,缓解了云数据中心的计算和存储压力,提高可用性,并保护数据安全和隐私。由于边缘节点距离用户较近,则可以为延迟敏感型的智能应用服务,从而满足终端应用的实时性要求。同时,边缘节点也可以对终端上传的数据进行预处理,从而减少核心网络的传输流量。另一方面,对于深度神经网络模型本身的优化,相关研究关注点主要在模型压缩方面,使用知识蒸馏,网络剪枝,参数量化等方法减少模型的参数量与计算量,从而使深度学习模型能成功部署在移动智能终端上。然而,深度神经网络的精度会因模型压缩而降低,且深度学习框架对模型压缩后的稀疏结构的支持并不友好。结合边缘计算这一新型计算模型的优势,许多研究工作逐渐开始将边缘计算与人工智能应用两者进行结合,边缘智能(Edge Intelligence)成为了新的趋势。
[0004]为了在边缘计算环境下高效运行深度学习应用,边缘智能的部分相关工作已经在关注终端层、边缘层两者的计算和存储能力特点,将其与深度神经网络的结构特点结合考虑,以减少总体的计算开销和传输时延。现有的方法仍处于初步研究阶段,可以用终端上的
方法主要包括以下两类:(1)模型提前退出机制;(2)推理策略加速机制。
[0005]在研究(1)中,基于模型输入数据的复杂程度分布特点以及深度学习模型各网络层的特征提取能力差异,研究者发现模型中浅层网络提取的特征已可用于部分样本提前完成分类任务,输入数据不再无差别地执行整个模型的前向推理,而是根据自身数据的复杂程度选择合适的浅层分支出口提前退出,每个出口都有手动设置的阈值对早期结果进行决策。目前的工作简单地在深度神经网络原型上添加三个出口,使得简单任务可以在较浅层完成推理任务,避免无差别的执行整个深度学习模型的推理。然而,此类方法忽略了极端情况下的任务执行模式(所有的分支都需要执行一遍),将导致不可预测的性能骤降问题。
[0006]在研究(2)中,推理策略加速机制主要分为推理任务的卸载算法优化和硬件推理的加速优化。在推理任务的卸载算法优化中,根据边缘环境中服务器的资源是有限的这一特点,为了在终端设备上执行深度学习任务,现阶段主要采取0

1任务卸载的方式,即,将部分任务卸载给边缘服务器进行处理,剩余部分的任务利用终端的资源进行处理。在智能终端上的硬件推理的加速优化方面,现有在智能终端上的研究工作,仅简单地提升GPU硬件的算力并将深度学习推理任务卸载给GPU处理,未考虑智能终端上各处理器的实际计算能力和资源利用情况,留有性能提升的空间。
[0007]故现有的深度学习模型推理加速方法应用于边缘计算融合人工智能应用的场景下仍存在较大的局限性,无法满足边缘智能应用低时延、高精度的运行需求,本案由此产生。

技术实现思路

[0008]本专利技术的目的,在于提供一种边缘计算下异构处理器加速多出口DNN推理的方法,基于深度神经网络各层计算量和分类效益分析进行任务推理优化,主干层与分支出口网络层采用异构处理器并行推理以达到加速多路径的推理加速效果,在边缘计算环境下实现多路径深度神经网络基于异构处理器的推理加速框架,提高模型推理的灵活性,保证准确率的同时最小化推理总时延,从而满足边缘智能应用的实时性与高精度需求。
[0009]为了达成上述目的,本专利技术的解决方案是:
[0010]一种边缘计算下异构处理器加速多出口DNN推理的方法,包括如下步骤:
[0011]步骤1,在已有的数据集上,分析深度神经网络各层的输出特征图的数据量大小,对各层分支出口的分类能力、在异构处理器上的计算开销差异以及中间特征的数据量传输延迟进行量化表示,构建量化模型;
[0012]步骤2,针对不同的处理器负载情况下,即,在不同的CPU利用率、GPU利用率情况下,在步骤1的“量化模型”、“各层分支的分类能力”以及“中间特征的数据量传输延迟”三者之间决策,从而确定最终基于异构处理器的推理组合;
[0013]步骤3,结合步骤2中对传输阶段的中间特征图处理方法,将深度神经网络部署至终端异构处理器的环境下,CPU层实时监测系统中的设备资源负载情况与当前处理器的计算能力,以最小化时延为目标对多路径的深度学习推理模型进行切分,将计算分割为“GPU

CPU”两部分,按照最佳性能将不同网络层的推理任务分别卸载到CPU或GPU上,实现在线的推理加速。
[0014]上述步骤1的具体内容是:
[0015]步骤101,分析卷积层、池化层、激励层和全连接层的内部参数结构,参数包括卷积核窗口大小、池化窗口大小、滑动步长、激励函数和输出神经元个数,计算各类型层的浮点运算量;
[0016]步骤102,在实际环境中,测试各类网络层在设备上的执行情况,修改层的参数改变浮点运算量,同时改变系统CPU利用率、统计各种情况下的时间开销,制作数据集用于训练预测推理耗时的回归模型;
[0017]步骤103,在深度神经网络的每个卷积层后添加分类器作为浅层出口,与模型主干同时训练,浅层出口使用独立的损失函数,模型主干使用联合损失函数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.边缘计算下异构处理器加速多出口DNN推理的方法,其特征在于,包括如下步骤:步骤1,在已有的数据集上,分析深度神经网络各层的输出特征图的数据量大小,对各层分支出口的分类能力、在异构处理器上的计算开销差异以及中间特征的数据量传输延迟进行量化表示,构建量化模型;步骤2,针对不同的处理器负载情况下,即,在不同的CPU利用率、GPU利用率情况下,在步骤1的“量化模型”、“各层分支出口的分类能力”以及“中间特征的数据量传输延迟”三者之间决策,从而确定最终基于异构处理器的推理组合;步骤3,结合步骤2中对传输阶段的中间特征图处理方法,将深度神经网络部署至终端异构处理器的环境下,CPU层实时监测系统中的设备资源负载情况与当前处理器的计算能力,以最小化时延为目标对多路径的深度学习推理模型进行切分,将计算分割为“GPU

CPU”两部分,按照最佳性能将不同网络层的推理任务分别卸载到CPU或GPU上,实现在线的推理加速。2.如权利要求1所述的边缘计算下异构处理器加速多出口DNN推理的方法,其特征在于:所述步骤1的具体内容是:步骤101,分析卷积层、池化层、激励层和全连接层的内部参数结构,参数包括卷积核窗口大小、池化窗口大小、滑动步长、激励函数和输出神经元个数,计算各类型层的浮点运算量;步骤102,在实际环境中,测试各类网络层在设备上的执行情况,修改层的参数改变浮点运算量,同时改变系统CPU利用率、统计各种情况下的时间开销,制作数据集用于训练预测推理耗时的回归模型;步骤103,在深度神经网络的每个卷积层后添加分类器作为浅层出口,与模型主干同时训练,浅层出口使用独立的损失函数,模型主干使用联合损失函数;步骤104,训练时使用交叉验证法,获得每个出口在不同验证集上的准确率,假设深度神经网络共有n

1个备选出口,其中不包含主干出口,进入分支的样本都有一定的概率达到置信度,可以退出网络,各分支出口的退出概率用先验统计概率p
i
来表示,P={p0,p1,p2,p3,...,p
n
‑1,p
n
},假设p0为虚拟出口,p0=0;p
n
表示多出口网络主干网络的出口退出概率,p
n
=1;设置μ
i
为执行第i个网络层的概率,f(μ
i
,p
i
)为执行第i个分支退出的概率,其中f(μ
i
,p
i
)=μ
i
*p
i
;步骤105,从初始输入到每个出口所经过的计算层,形成n条推理路径,其中,最长的路径为模型主干,使用步骤102的回归模型所预测主干各网络层使用CPU/GPU计算所...

【专利技术属性】
技术研发人员:东方蔡光兴沈典王慧田张竞慧
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1