当前位置: 首页 > 专利查询>东南大学专利>正文

面向边缘智能应用的深度神经网络多路径推理加速方法技术

技术编号:24997520 阅读:34 留言:0更新日期:2020-07-24 17:59
本发明专利技术公开一种面向边缘智能应用的深度神经网络多路径推理加速方法,首先分析深度神经网络各层设置提前退出分支出口的分类能力与计算成本,选择推理效益最大的出口组合添加至原模型;然后在出口与主干层之间设置门限单元并加以训练,判断任务是否能在当前出口退出;对于无法在终端层提前退出而必须传输至边缘层的任务,压缩其中间特征数据;最后在边缘计算环境下在线监测分析网络负载和终端、边缘设备的计算能力,以最小化推理时延为目标对多路径模型进行切割,模型切块分别部署在终端层与边缘层,最终形成多路径推理加速框架。此种方法能够提高推理的灵活性,保证准确率,降低推理总时延,满足边缘智能应用的实时性与高精度需求。

【技术实现步骤摘要】
面向边缘智能应用的深度神经网络多路径推理加速方法
本专利技术属于边缘智能领域和深度学习领域,具体地说是在边缘计算环境中部署智能应用的场景下,实现应用所依赖的深度学习模型推理优化加速的方法。
技术介绍
在人工智能高速发展期间,深度神经网络(DeepNeuralNetwork,DNN)凭借其强大的学习能力,在计算机视觉或自然语言处理等经典任务场景下均取得了相当优异的效果。同时,随着物联网时代的发展,智能摄像头、智能传感器以及各类物联网设备等智能终端快速普及,使得深度学习算法成功运用于一些实际部署,例如人脸识别、智能安防等场景。终端智能化成为当前物联网时代发展的必然趋势,越来越多的智能终端应用在关注并解决实际问题,对应用的实时性与准确性提出了严格的要求。智能应用往往是数据密集型与计算密集型任务,它所依赖的深度神经网络模型,主要通过增加网络深度、优化网络结构来获得更优的特征表达与学习推理能力,以达到更高的准确率。然而,更深的模型极大地增加了推理延迟与计算能耗,例如ResNet-50所需的浮点运算量已达到4×109,这些计算成本对于资源受限、能耗敏感的移动智能终端来说难以接受。因此,传统的方法选择集中式计算,将智能终端采集的源数据上传到资源丰富、算力密集的云数据中心进行处理。然而,云数据中心与终端设备之间存在远距离、高延迟的特点,同时物联网时代预测产生超过850ZB的数据量,类似自动驾驶这类数据密集型与计算密集型的场景,集中式计算已无法满足应用的实时性要求。加之GPU元件昂贵的制造成本,在移动智能终端上运行深度学习应用面临着巨大的阻力。针对集中式计算的高延迟问题与智能终端面临的高能耗问题,现有的研究工作主要从计算模型与深度神经网络模型两个方面进行革新与优化。在计算模型方面,美国太平洋西北国家实验室于2013年提出边缘计算(EdgeComputing),即在网络边缘执行计算的一种新型计算模型,其操作的对象包括来自于云服务的下行数据和来自万物互联服务的上行数据。边缘计算的目的在于有效减少计算系统的延迟,减少数据传输的带宽负载,缓解云数据中心的计算和存储压力,提高可用性,并保护数据安全和隐私。边缘计算的特点是在云数据中心层和终端设备层之间定义了边缘设备层,边缘设备可以是数据源到云计算中心路径之间的任意计算和网络资源,包括路由器、网关、交换机、接入点、基站、特定边缘服务器等,它们能够对终端设备上传的数据进行计算和存储。由于边缘节点距离用户较近,则可以为运行对延迟较为敏感的智能应用服务,从而满足终端应用的实时性要求。同时,边缘节点也可以对终端上传的数据进行预处理,从而减少核心网络的传输流量。另一方面,对于深度神经网络模型本身的优化,相关研究主要关注模型中存在的大量冗余计算,针对资源受限的终端设备,过去的工作集中在模型压缩方面,使用网络剪枝、参数量化、知识蒸馏等方法减少模型的参数量与计算量,从而使深度学习模型能成功部署在移动智能终端上。然而,模型压缩的方法对网络精度也产生了影响,模型压缩后的稀疏结构并不适应所有深度学习框架。借助边缘计算这一新型计算模型的优势,许多研究工作逐渐开始将边缘计算与人工智能应用两者进行结合,边缘智能(EdgeIntelligence)成为了新的趋势。为了在边缘计算环境下高效运行深度学习应用,边缘智能的部分相关工作已经在关注终端层、边缘层、云层三者的计算和存储能力特点,将其与深度神经网络的结构特点结合考虑,以减少总体的计算开销和传输时延。现有的方法仍处于初步研究阶段,主要包括以下两类:(1)模型切割;(2)模型提前退出机制。在研究(1)中,根据边缘环境下的网络状态与设备资源负载情况,深度神经网络被切割为多个子模型分块,分别部署在终端层、边缘层和云层,在充分利用系统中的计算资源的同时减少网络传输开销,从而最大程度地缩短总体推理时延。但是现有的工作仍然保留部分计算卸载到云层,与云层之间的网络传输必然导致高延迟、带宽不稳定等问题,无法保证任务的实时性要求,加之数据量巨大,仍然存在性能瓶颈。在研究(2)中,基于深度神经网络各层的特征提取能力差异以及输入数据的复杂程度分布特点,研究者发现模型中早期浅层提取的特征已可用于部分样本提前完成分类或回归,输入数据不再无差别地完成整个模型的前馈计算,而是选择合适的浅层出口提前退出,每个出口都有手动设置的阈值对早期结果进行决策。于是,目前的工作简单地在深度神经网络原型上添加三个出口分别对应终端层、边缘层和云层,使得简单任务可以在终端层或边缘层提前完成,避免该类型任务与云层之间产生不必要的传输开销,同时减少冗余计算。然而,此类方法直接忽略了对出口位置和数量的选择,简单预设的出口未考虑终端层和边缘层复杂多变的计算资源负载情况,手动设置的阈值对于新采集的数据不具备良好的决策能力,导致模型推理精度下降,无法满足自动驾驶这类应用的高精度需求。故现有的深度学习模型推理加速方法应用于边缘计算融合人工智能应用的场景下仍存在较大的局限性,无法满足边缘智能应用低时延、高精度的运行需求,本案由此产生。
技术实现思路
本专利技术的目的,在于提供一种面向边缘智能应用的深度神经网络多路径推理加速方法,基于深度神经网络各层出口的分类效益分析进行出口选择,主干层与出口间设置门限单元以达到多路径推理决策效果,终端层与边缘层之间执行中间特征数据压缩编码,在边缘计算环境下实现深度神经网络多路径推理加速框架,提高模型推理的灵活性,保证准确率的同时最小化推理总时延,从而满足边缘智能应用的实时性与高精度需求。为了达成上述目的,本专利技术的解决方案是:一种面向边缘智能应用的深度神经网络多路径推理加速方法,包括如下步骤:步骤1,在已有的数据集上,分析深度神经网络各层的输出特征图直接用于分类所达到的准确率,对各层分支出口的分类能力与计算开销进行量化表示,从而计算出在任意层之后设置出口的推理效益,使用启发式算法选择效益最大化的出口组合并添加至原模型;步骤2,基于步骤1选择的最佳出口组合,在最佳出口组合与模型主干之间设置门限单元,利用中间特征在“提前退出”和“前向传播”两者之间决策,从而确定推理路径;步骤3,对于步骤2中门限单元判定无法在浅层出口提前退出的任务,将产生的中间特征图传输至边缘服务器之前进行压缩编码;步骤4,结合步骤3中对传输阶段的中间特征图处理方法,将多路径的深度神经网络部署至边缘计算环境,终端层与边缘层实时监测系统中的设备资源负载情况与网络传输性能,以最小化时延为目标对多路径推理模型进行切割,将计算分割为“终端-边缘”两部分,浅层切块于终端本地执行,深层切块卸载至边缘层处理,实现在线的多路径推理加速。上述步骤1的具体内容是:步骤101,分析卷积层、池化层、激励层和全连接层的内部参数结构,参数包括卷积核窗口大小、池化窗口大小、滑动步长、激励函数和输出神经元个数,计算各类型层的浮点运算量;步骤102,在真实设备中执行各类网络层的计算,修改层的参数改变浮点运算量,同时改变系统CPU占用率、可用内存大小,记录每种情况下的时间开销,制作数据集用于训本文档来自技高网
...

【技术保护点】
1.一种面向边缘智能应用的深度神经网络多路径推理加速方法,其特征在于包括如下步骤:/n步骤1,在已有的数据集上,分析深度神经网络各层的输出特征图直接用于分类所达到的准确率,对各层分支出口的分类能力与计算开销进行量化表示,从而计算出在任意层之后设置出口的推理效益,使用启发式算法选择效益最大化的出口组合并添加至原模型;/n步骤2,基于步骤1选择的最佳出口组合,在最佳出口组合与模型主干之间设置门限单元,利用中间特征在“提前退出”和“前向传播”两者之间决策,从而确定推理路径;/n步骤3,对于步骤2中门限单元判定无法在浅层出口提前退出的任务,将产生的中间特征图传输至边缘服务器之前进行压缩编码;/n步骤4,结合步骤3中对传输阶段的中间特征图处理方法,将多路径的深度神经网络部署至边缘计算环境,终端层与边缘层实时监测系统中的设备资源负载情况与网络传输性能,以最小化时延为目标对多路径推理模型进行切割,将计算分割为“终端-边缘”两部分,浅层切块于终端本地执行,深层切块卸载至边缘层处理,实现在线的多路径推理加速。/n

【技术特征摘要】
1.一种面向边缘智能应用的深度神经网络多路径推理加速方法,其特征在于包括如下步骤:
步骤1,在已有的数据集上,分析深度神经网络各层的输出特征图直接用于分类所达到的准确率,对各层分支出口的分类能力与计算开销进行量化表示,从而计算出在任意层之后设置出口的推理效益,使用启发式算法选择效益最大化的出口组合并添加至原模型;
步骤2,基于步骤1选择的最佳出口组合,在最佳出口组合与模型主干之间设置门限单元,利用中间特征在“提前退出”和“前向传播”两者之间决策,从而确定推理路径;
步骤3,对于步骤2中门限单元判定无法在浅层出口提前退出的任务,将产生的中间特征图传输至边缘服务器之前进行压缩编码;
步骤4,结合步骤3中对传输阶段的中间特征图处理方法,将多路径的深度神经网络部署至边缘计算环境,终端层与边缘层实时监测系统中的设备资源负载情况与网络传输性能,以最小化时延为目标对多路径推理模型进行切割,将计算分割为“终端-边缘”两部分,浅层切块于终端本地执行,深层切块卸载至边缘层处理,实现在线的多路径推理加速。


2.如权利要求1所述的面向边缘智能应用的深度神经网络多路径推理加速方法,其特征在于:所述步骤1的具体内容是:
步骤101,分析卷积层、池化层、激励层和全连接层的内部参数结构,参数包括卷积核窗口大小、池化窗口大小、滑动步长、激励函数和输出神经元个数,计算各类型层的浮点运算量;
步骤102,在真实设备中执行各类网络层的计算,修改层的参数改变浮点运算量,同时改变系统CPU占用率、可用内存大小,记录每种情况下的时间开销,制作数据集用于训练预测计算时间的回归模型;
步骤103,在深度神经网络的每个卷积层后添加分类器作为浅层出口,与模型主干同时训练,浅层出口使用独立的损失函数,模型主干使用联合损失函数;
步骤104,训练时使用交叉验证法,获得每个出口在不同验证集上的准确率,假设深度神经网络共有n-1个备选出口,该备选出口不包含主干出口,计算各个出口的平均准确率作为其先验退出概率P=<p1,p2,…,pn-1>;
步骤105,从初始输入到每个出口所经过的计算层,形成n条推理路径,其中,最长的路径为模型主干,使用步骤102的回归模型预测每条路径的时间开销T=<t1,t2,…,tn-1,tn>;
步骤106,结合先验退出概率P和时间开销T,增设p0=0,表示进入最浅的分支出口之前无样本退出,使用启发式算法,选择具有最大推理效益的出口组合,组合内包含N个分支出口,用ei表示对N个出口排序后第i个出口所在的路径序号,最终得到BestN=<e1,e2,…,eN>,效益最大化转换为时间代价最小化,优化目标定义如下:



其中,和分别表示出口ej所在路径的退出概率与时间开销,且


3.如权利要求1所述的面向边缘智能应用的深度神经网络多路径推理加速方法,其特征在于:所述步骤2的具体内容是:
步骤201,制作门限单元的训练集,在具有最优出口...

【专利技术属性】
技术研发人员:东方王慧田沈典蔡光兴黄兆武
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1