一种端边云协同卷积神经网络推理方法及系统技术方案

技术编号:34725963 阅读:11 留言:0更新日期:2022-08-31 18:13
一种端边云协同卷积神经网络推理方法及系统,包括:基于构建的模型压缩方法,得到该模型在所有压缩划分方案下的延时;基于获得的所有压缩划分方案的延时,确定联合压缩划分方案性能上下界;构建在给定CNN划分层上给定压缩率下的模型精度上界估计方法;构建在给定精度要求和CNN划分层时的压缩率决策方法;搜索延时最优的联合最优模型压缩划分方案;运行系统,进行模型推理。本发明专利技术通过CNN模型的压缩划分来进行分层级的计算卸载,对通信和计算瓶颈进行联合优化,实现快速的海量终端数据智能分析,通过全等通道剪枝方法和统一仿射量化方法,可靠可控地高效压缩CNN模型在任意给定层上的通信量,显著降低了端边云协同CNN推理的传输延时。传输延时。传输延时。

【技术实现步骤摘要】
一种端边云协同卷积神经网络推理方法及系统


[0001]本专利技术属于分布式智能领域,具体涉及一种端边云协同卷积神经网络推理方法及系统。

技术介绍

[0002]随着高度智能的深度学习算法以及广泛应用的物联网技术的发展,大量的智能应用(如交通监控,缺陷检测,电网巡检等)依赖于使用深度学习卷积神经网络(Convolutional Neural Network)模型推理对海量终端数据进行高精度快速的智能分析。已有方法通过设计优化深度学习CNN推理推进了高精度的智能分析,在部分视觉任务上甚至取得了超越人类的效果。然而基于CNN推理的高精度的智能分析往往伴随着高昂的计算开销,难以直接在计算资源受限的终端部署实现快速的智能分析,阻碍了大量实际应用的落地。因此,如何在实际的设备资源条件下实现高精度快速的终端数据智能分析是支撑智能应用的一个关键问题。高精度深度学习CNN推理高昂的计算开销限制了其在一般计算资源受限的设备完成快速的智能分析。为了消除CNN推理带来的计算瓶颈,现有应用常上传数据使用算力可扩展的云计算来完成智能分析。然而考虑到海量终端数据的体量,这种方式也无法在实际的带宽资源下支撑大量的智能应用。现有的终端计算和云计算的方式分别受制于计算和通信,都无法支撑高精度快速的海量终端数据智能分析。

技术实现思路

[0003]本专利技术的目的在于提供一种端边云协同卷积神经网络推理方法及系统,以解决现有方式无法在实际的带宽资源下支撑大量的智能应用,以及现有的终端计算和云计算的方式分别受制于计算和通信,都无法支撑高精度快速的海量终端数据智能分析的问题。
[0004]为实现上述目的,本专利技术采用以下技术方案:
[0005]一种端边云协同卷积神经网络推理方法,包括以下步骤:
[0006]构建通信最优模型压缩方法,通过全等通道剪枝和统一仿射量化压缩CNN模型在任意给定层上的通信量;
[0007]基于构建的模型压缩方法,对给定的CNN模型在给定端边云系统中进行信息搜集,得到该模型在所有压缩划分方案下的延时;
[0008]基于获得的所有压缩划分方案的延时,确定联合压缩划分方案性能上界(T
max
,A
max
)以及下界(T
min
,A
min
),其中,T
max
、T
min
为推理延时上下界,A
max
、A
min
为推理精度上下界,(T
max
,A
max
)由在无压缩时延时最小的方案确定,(T
min
,A
min
)由压缩时延时最小的方案确定;
[0009]构建在给定CNN划分层上给定压缩率下的模型精度上界估计方法;
[0010]构建在给定精度要求和CNN划分层时的压缩率决策方法;
[0011]在给定精度要求A0下,基于模型精度上界估计方法和压缩率决策方法,搜索延时最优的联合最优模型压缩划分方案,其中,若给定精度大于上界A
max
,直接提供上界方案;若给定精度小于下界A
min
,直接提供下界方案;其余情况,基于给定精度要求A0,搜索延时最优
的联合模型压缩划分方案(l
*
,r
*
),输出基于该方案优化的模型的最优端到端推理延时T
*

[0012]在给定延时要求T0下,基于模型精度上界估计方法和压缩率决策方法,搜索精度最优的联合最优模型压缩划分方案,若给定延时大于上界T
max
,直接提供上界方案;若给定延时小于下界T
min
,直接提供下界方案;其余情况,基于给定延时要求T0,搜索精度最优的联合模型压缩划分方案(l
*
,r
*
),输出基于该方案优化的模型的最优推理精度A
*

[0013]基于输出的联合最优模型压缩划分方案(l
*
,r
*
),优化模型并部署在端边云系统中,运行系统,进行模型推理。
[0014]进一步的,构建通信最优模型压缩方法包括以下步骤:
[0015]步骤1.1、全等通道剪枝,对于给定的CNN层,求解
[0016][0017]s.t.||β||0≤K

,
[0018][0019]删减不重要的卷积核,其中‖
·

F
表示Frobenius范数,S,L,K和K

分别表示测试样本的数量、同时需要删除卷积核的分支数量、删除的卷积核数量和剩余的卷积核数量,Y表示当前卷积核的输出的特征图,X
k
表示对应于第k个输入特征图的通道,W
l,k
表示第l个卷积核的第k列,β是一个k维向量,每一维的数值表示一个卷积核的重要程度,λ1为惩罚系数;首先固定W
l,k
,增大λ1,计算β,并删除当前对应β向量中的最小值及其对应的卷积核,之后固定删除最小元素后的β,通过训练更新W
l,k
,循环迭代直至β中分量数目少于K';
[0020]步骤1.2、统一仿射量化,将经过步骤1.1压缩的给定CNN层输出通过仿射量化至8

bit。
[0021]进一步的,得到该模型在所有压缩划分方案下的延时具体操作为:对给定CNN模型在给定端边云系统中进行信息搜集得到所有压缩划分方案的延时,将一个N层CNN模型部署在3层端边云系统中,划分层设置l=(l1,l2),压缩设置r=(r1,r2),其中0到l1层CNN模型运行在端设备上,l1层CNN模型的压缩率为r1,l1+1到l2层CNN模型运行在边设备上,l2层CNN模型的压缩率为r2,l2+1到N层CNN模型运行在云设备上,基于压缩模型达到相应压缩率,在压缩划分方案(l,r)下,CNN推理的端到端延时其中l0≡0,l3≡N,T
c
为端边云所有设备上的计算延时之和,T
t
为端边云间的通信延时之和。
[0022]进一步的,构建在给定CNN划分层上给定压缩率下的模型精度上界估计方法的具体操作为:
[0023]在给定CNN划分层上给定压缩率下的模型精度上界估计,对于给定划分层l
g
,压缩率r

精度A函数A(l
g
,r)具有单调凹的性质,在给定划分层和压缩率(l
g
,r
g
)时,基于两个已有的压缩率

精度数据点((l
g
,r1),A1)和((l
g
,r2),A2),r1≤r2<r
g
或r
g
<r1≤r2,估计方案(l
g
,r
g
)的精度上界选择的已有数据离(l...

【技术保护点】

【技术特征摘要】
1.一种端边云协同卷积神经网络推理方法,其特征在于,包括以下步骤:构建通信最优模型压缩方法,通过全等通道剪枝和统一仿射量化压缩CNN模型在任意给定层上的通信量;基于构建的模型压缩方法,对给定的CNN模型在给定端边云系统中进行信息搜集,得到该模型在所有压缩划分方案下的延时;基于获得的所有压缩划分方案的延时,确定联合压缩划分方案性能上界(T
max
,A
max
)以及下界(T
min
,A
min
),其中,T
max
、T
min
为推理延时上下界,A
max
、A
min
为推理精度上下界,(T
max
,A
max
)由在无压缩时延时最小的方案确定,(T
min
,A
min
)由压缩时延时最小的方案确定;构建在给定CNN划分层上给定压缩率下的模型精度上界估计方法;构建在给定精度要求和CNN划分层时的压缩率决策方法;在给定精度要求A0下,基于模型精度上界估计方法和压缩率决策方法,搜索延时最优的联合最优模型压缩划分方案,其中,若给定精度大于上界A
max
,直接提供上界方案;若给定精度小于下界A
min
,直接提供下界方案;其余情况,基于给定精度要求A0,搜索延时最优的联合模型压缩划分方案(l
*
,r
*
),输出基于该方案优化的模型的最优端到端推理延时T
*
;在给定延时要求T0下,基于模型精度上界估计方法和压缩率决策方法,搜索精度最优的联合最优模型压缩划分方案,若给定延时大于上界T
max
,直接提供上界方案;若给定延时小于下界T
min
,直接提供下界方案;其余情况,基于给定延时要求T0,搜索精度最优的联合模型压缩划分方案(l
*
,r
*
),输出基于该方案优化的模型的最优推理精度A
*
;基于输出的联合最优模型压缩划分方案(l
*
,r
*
),优化模型并部署在端边云系统中,运行系统,进行模型推理。2.根据权利要求1所述的一种基于联合压缩划分的端边云卷积神经网络推理方法,其特征在于,构建通信最优模型压缩方法包括以下步骤:步骤1.1、全等通道剪枝,对于给定的CNN层,求解删减不重要的卷积核,其中‖
·

F
表示Frobenius范数,S,L,K和K

分别表示测试样本的数量、同时需要删除卷积核的分支数量、删除的卷积核数量和剩余的卷积核数量,Y表示当前卷积核的输出的特征图,X
k
表示对应于第k个输入特征图的通道,W
l,k
表示第l个卷积核的第k列,β是一个k维向量,每一维的数值表示一个卷积核的重要程度,λ1为惩罚系数;首先固定W
l,k
,增大λ1,计算β,并删除当前对应β向量中的最小值及其对应的卷积核,之后固定删除最小元素后的β,通过训练更新W
l,k
,循环迭代直至β中分量数目少于K';步骤1.2、统一仿射量化,将经过步骤1.1压缩的给定CNN层输出通过仿射量化至8

bit。3.根据权利要求1所述的一种基于联合压缩划分的端边云卷积神经网络推理方法,其特征在于,得到该模型在所有压缩划分方案下的延时具体操作为:对给定CNN模型在给定端边云系统中进行信息搜集得到所有压缩划分方案的延时,将一个N层CNN模型部署在3层端
边云系统中,划分层设置l=(l1,l2),压缩设置r=(r1,r2),其中0到l1层CNN模型运行在端设备上,l1层CNN模型的压缩率为r1,l1+1到l2层CNN模型运行在边设备上,l2层CNN模型的压缩率为r2,l2+1到N层CNN模型运行在云设备上,基于压缩模型达到相应压缩率,在压缩划分方案(l,r)下,CNN推理的端到端延时其中l0≡0,l3≡N,T
c
为端边云所有设备上的计算延时之和,T
t
为端边云间的通信延时之和。4.根据权利要求1所述的一种基于联合压缩划分的端边云卷积神经网络推理方法,其特征在于,构建在给定CNN划分层上给定压缩率下的模型精度上界估计方法的具体操作为:在给定CNN划分层上给定压缩率下的模型精度上界估计,对于给定划分层l
g
,压缩率r

精度A函数A(l
g
,r)具有单调凹的性质,在给定划分层和压缩率(l
g
,r
g
)时,基于两个已有的压缩率

精度数据点((l
g
,r1),A1)和((l
g
,r2),A2),r1≤r2<r
g
或r
g
<r1≤r2,估计方案(l
g
,r
g
)的精度上界选择的已有数据离(l
g
,r
g
)越近,估计越准确,因此在已有数据中选取离(l
g
,r
g
)距离之和最小的两个点。5.根据权利要求1所述的一种基于联合压缩划分的端边云卷积神经网络推理方法,其特征在于,构建在给定精度要求和CNN划分层时的压缩率决策方法:利用压缩给定CNN层l
g
后CNN模型精度A

压缩率R函数R(l
g
,A)的单调凹性质,快速确定满足精度要求A
g
时,l
g
上最大的压缩率CRD(A
g
|l
g
)=R
*
(l
g
,A
g
);包括以下步骤:步骤5.1、基于已有的和(l
g
,A
g
)距离之和最小的两个数据点((l
g
,A1),r1)及((l
g
,A2),r2),基于计算压缩率的估计值r

;步骤5.2、通过实际的模型压缩得到数据((l

【专利技术属性】
技术研发人员:杨树森段亚璐赵聪赵鹏张展华郭思言栗海亮
申请(专利权)人:杭州卷积云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1