面向边缘智能应用的深度神经网络多路径推理加速方法技术

技术编号：24997520 阅读：34 留言：0更新日期：2020-07-24 17:59

本发明专利技术公开一种面向边缘智能应用的深度神经网络多路径推理加速方法，首先分析深度神经网络各层设置提前退出分支出口的分类能力与计算成本，选择推理效益最大的出口组合添加至原模型；然后在出口与主干层之间设置门限单元并加以训练，判断任务是否能在当前出口退出；对于无法在终端层提前退出而必须传输至边缘层的任务，压缩其中间特征数据；最后在边缘计算环境下在线监测分析网络负载和终端、边缘设备的计算能力，以最小化推理时延为目标对多路径模型进行切割，模型切块分别部署在终端层与边缘层，最终形成多路径推理加速框架。此种方法能够提高推理的灵活性，保证准确率，降低推理总时延，满足边缘智能应用的实时性与高精度需求。

全部详细技术资料下载

【技术实现步骤摘要】
面向边缘智能应用的深度神经网络多路径推理加速方法
本专利技术属于边缘智能领域和深度学习领域，具体地说是在边缘计算环境中部署智能应用的场景下，实现应用所依赖的深度学习模型推理优化加速的方法。
技术介绍
在人工智能高速发展期间，深度神经网络(DeepNeuralNetwork,DNN)凭借其强大的学习能力，在计算机视觉或自然语言处理等经典任务场景下均取得了相当优异的效果。同时，随着物联网时代的发展，智能摄像头、智能传感器以及各类物联网设备等智能终端快速普及，使得深度学习算法成功运用于一些实际部署，例如人脸识别、智能安防等场景。终端智能化成为当前物联网时代发展的必然趋势，越来越多的智能终端应用在关注并解决实际问题，对应用的实时性与准确性提出了严格的要求。智能应用往往是数据密集型与计算密集型任务，它所依赖的深度神经网络模型，主要通过增加网络深度、优化网络结构来获得更优的特征表达与学习推理能力，以达到更高的准确率。然而，更深的模型极大地增加了推理延迟与计算能耗，例如ResNet-50所需的浮点运算量已达到4×109，这些计算成本对于资源受限、能耗敏感的移动智能终端来说难以接受。因此，传统的方法选择集中式计算，将智能终端采集的源数据上传到资源丰富、算力密集的云数据中心进行处理。然而，云数据中心与终端设备之间存在远距离、高延迟的特点，同时物联网时代预测产生超过850ZB的数据量，类似自动驾驶这类数据密集型与计算密集型的场景，集中式计算已无法满足应用的实时性要求。加之GPU元件昂贵的制造成本，在移动智能终端上运行深度学习应用面临着巨...

【技术保护点】
1.一种面向边缘智能应用的深度神经网络多路径推理加速方法，其特征在于包括如下步骤：/n步骤1，在已有的数据集上，分析深度神经网络各层的输出特征图直接用于分类所达到的准确率，对各层分支出口的分类能力与计算开销进行量化表示，从而计算出在任意层之后设置出口的推理效益，使用启发式算法选择效益最大化的出口组合并添加至原模型；/n步骤2，基于步骤1选择的最佳出口组合，在最佳出口组合与模型主干之间设置门限单元，利用中间特征在“提前退出”和“前向传播”两者之间决策，从而确定推理路径；/n步骤3，对于步骤2中门限单元判定无法在浅层出口提前退出的任务，将产生的中间特征图传输至边缘服务器之前进行压缩编码；/n步骤4，结合步骤3中对传输阶段的中间特征图处理方法，将多路径的深度神经网络部署至边缘计算环境，终端层与边缘层实时监测系统中的设备资源负载情况与网络传输性能，以最小化时延为目标对多路径推理模型进行切割，将计算分割为“终端-边缘”两部分，浅层切块于终端本地执行，深层切块卸载至边缘层处理，实现在线的多路径推理加速。/n

【技术特征摘要】
1.一种面向边缘智能应用的深度神经网络多路径推理加速方法，其特征在于包括如下步骤：
步骤1，在已有的数据集上，分析深度神经网络各层的输出特征图直接用于分类所达到的准确率，对各层分支出口的分类能力与计算开销进行量化表示，从而计算出在任意层之后设置出口的推理效益，使用启发式算法选择效益最大化的出口组合并添加至原模型；
步骤2，基于步骤1选择的最佳出口组合，在最佳出口组合与模型主干之间设置门限单元，利用中间特征在“提前退出”和“前向传播”两者之间决策，从而确定推理路径；
步骤3，对于步骤2中门限单元判定无法在浅层出口提前退出的任务，将产生的中间特征图传输至边缘服务器之前进行压缩编码；
步骤4，结合步骤3中对传输阶段的中间特征图处理方法，将多路径的深度神经网络部署至边缘计算环境，终端层与边缘层实时监测系统中的设备资源负载情况与网络传输性能，以最小化时延为目标对多路径推理模型进行切割，将计算分割为“终端-边缘”两部分，浅层切块于终端本地执行，深层切块卸载至边缘层处理，实现在线的多路径推理加速。

2.如权利要求1所述的面向边缘智能应用的深度神经网络多路径推理加速方法，其特征在于：所述步骤1的具体内容是：
步骤101，分析卷积层、池化层、激励层和全连接层的内部参数结构，参数包括卷积核窗口大小、池化窗口大小、滑动步长、激励函数和输出神经元个数，计算各类型层的浮点运算量；
步骤102，在真实设备中执行各类网络层的计算，修改层的参数改变浮点运算量，同时改变系统CPU占用率、可用内存大小，记录每种情况下的时间开销，制作数据集用于训练预测计算时间的回归模型；
步骤103，在深度神经网络的每个卷积层后添加分类器作为浅层出口，与模型主干同时训练，浅层出口使用独立的损失函数，模型主干使用联合损失函数；
步骤104，训练时使用交叉验证法，获得每个出口在不同验证集上的准确率，假设深度神经网络共有n-1个备选出口，该备选出口不包含主干出口，计算各个出口的平均准确率作为其先验退出概率P＝<p1,p2,…,pn-1>；
步骤105，从初始输入到每个出口所经过的计算层，形成n条推理路径，其中，最长的路径为模型主干，使用步骤102的回归模型预测每条路径的时间开销T＝<t1,t2,…,tn-1,tn>；
步骤106，结合先验退出概率P和时间开销T，增设p0＝0，表示进入最浅的分支出口之前无样本退出，使用启发式算法，选择具有最大推理效益的出口组合，组合内包含N个分支出口，用ei表示对N个出口排序后第i个出口所在的路径序号，最终得到BestN＝<e1,e2,…，eN>，效益最大化转换为时间代价最小化，优化目标定义如下：

其中，和分别表示出口ej所在路径的退出概率与时间开销，且

3.如权利要求1所述的面向边缘智能应用的深度神经网络多路径推理加速方法，其特征在于：所述步骤2的具体内容是：
步骤201，制作门限单元的训练集，在具有最优出口...

【专利技术属性】
技术研发人员：东方，王慧田，沈典，蔡光兴，黄兆武，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人