一种实时边云协同卷积神经网络推理方法及系统技术方案

技术编号:34725952 阅读:15 留言:0更新日期:2022-08-31 18:13
一种实时边云协同卷积神经网络推理方法及系统,包括以下步骤:将压缩后的CNN模型转化为边云协同推理模型SW

【技术实现步骤摘要】
一种实时边云协同卷积神经网络推理方法及系统


[0001]本专利技术属于分布式智能领域,具体涉及一种实时边云协同卷积神经网络推理方法及系统。

技术介绍

[0002]随着深度学习的发展,卷积神经网络(Convolutional Neural Network,CNN)推理在一系列任务上取得了瞩目的成绩,在部分视觉任务上甚至取得了超越人类的效果。基于广泛分布的物联网(Internet of Things,IoT)设备上持续产生的海量高分辨率图像,准确实时的CNN推理支撑着大量的实际应用(如基于监控摄像头的行人识别、基于无人机的目标追踪、基于自动驾驶汽车的交通信号灯识别等)。然而,在已有方法中,CNN推理的实时效率(高精度下的吞吐量)在主流的边缘或云端计算范式下仍十分受限。具体来看,现有边缘计算方法的效率受制于计算密集的CNN模型以及计算资源受限的边缘设备。现有云端计算方法的效率受制于海量的高分辨率边缘图像以及有限的边云带宽。基于边云协同推理可以有效提高效率,然而该类方法的效率受网络波动影响。一个固定的边云协同方案在波动的网络环境难以满足实时流式处理的需求。

技术实现思路

[0003]本专利技术目的在于提供一种实时边云协同卷积神经网络推理方法及系统,以解决现有云端计算方法的效率受制于海量的高分辨率边缘图像以及有限的边云带宽的问题。
[0004]为实现上述目的,本专利技术采用以下技术方案:
[0005]一种实时边云协同卷积神经网络推理方法,包括以下步骤:
[0006]在边缘设备上对CNN模型通过特征图压缩,将压缩后的CNN模型转化为边云协同推理模型SW

CNN;
[0007]在给定的边云系统中进行信息搜集得到SW

CNN各层在各压缩率下的通信计算延时;
[0008]对实时边云协同CNN推理控制问题进行建模,对按照时间序列i=1,2...到来的流式推理任务,根据实时网络性能调整压缩率c;
[0009]初始化任务队列,控制器根据当前的任务剩余时间信息及实时网络情况,建模实时边云协同推理控制问题并求解,为SW

CNN选择压缩率;调整SW

CNN的压缩率至c
n
,分析任务p
n

[0010]任务p
n
完成后,若任务队列不为空,则重复调整SW

CNN的压缩率至c
n
,处理任务p
n
,直到处理完任务队列中的所有任务。
[0011]进一步的,在边缘设备上对CNN模型通过特征图压缩具体包括:
[0012]给定CNN层之间的通信数据为特征图,其数据量D
s
=F
s
*F
n
*F
b
,其中F
s
表示单张特征图的面积,F
n
表示特征图的数量,F
b
表示量化后的数据bit位数,分别降低F
n
和F
b
,假设经过压缩操作后剩余的特征图数量为F
rn
,剩余的数据量化位数为F
rb
,则(F
rn
,F
rb
)为当前的压缩
设置,该设置的通信压缩率c=1

(F
rn
*F
rb
)/(F
n
*F
b
),剩余率r=1

c,经过压缩之后,在原有数据集上通过端到端训练进行模型微调以恢复精度,计算压缩率

精度的帕累托集合,确定选取相同压缩率下精度最高的方案。
[0013]进一步的,采用通道剪枝ChannelPruning和统一仿射量化UniformAffineQuantization分别降低F
n
和F
b

[0014]进一步的,将压缩后的CNN模型转化为边云协同推理模型SW

CNN具体包括:
[0015]SW

CNN转化,对于给定的CNN模型,得到大具有不同压缩率及精度的CNN模型,将给定CNN模型转化为集成了不同压缩率的CNN模型的SW

CNN模型,对于给定的CNN模型,其相应的SW

CNN模型具有相同的结构,对于给定的具有F
N
及F
B
的划分层,根据不同压缩设置生成不同的子模型,除给定划分层外,不同的子模型共享所有参数,对于压缩层,不同的子模型根据(F
rn
,F
rb
)相互嵌套并共享参数,使用(F
rn
,F
rb
)压缩设置的子模型使用从序号1到F
rn
的特征图及1到F
rb
的数据bit位数,故(F
rn
,F
rb
)大的子模型包含了特征图数量及压缩位数小的子模型,即小的子模型嵌套在大的子模型中。
[0016]进一步的,对于给定的CNN模型,先训练具有与其对应的SW

CNN相同结构的CNN模型,以其参数初始化与给定CNN模型相对应的SW

CNN模型;预训练好的模型作为教师模型指导其余的子模型训练;迭代训练SW

CNN,在每次训练迭代中,所有子模型独立完成其前向推理及反向传播过程,之后将梯度进行加和用于更新SW

CNN模型,在训练开始的第一个epoch,对不同子模型的梯度使用DBSCAN进行聚类,以此对子模型进行分组,在后续训练中每次迭代更新时,仅在每个分组中抽样一个模型参与训练更新,训练的子模型个数为子模型分组的数量,由DBSCAN算法中的eps参数调整。
[0017]进一步的,计算延时:
[0018]将一个N层的CNN模型部署在2层边云系统中,划分层为l,压缩率为c,其中0到l层CNN模型运行在边设备上,l+1到N层CNN模型运行在云服务器上,在此划分压缩方案下,CNN推理的端到端延时其中为边上CNN模型推理的延时之和,T
t
(l)*c为边云间的通信延时之和,为云上剩余CNN模型推理的延时之和,不同(l,c)对应不同的推理延时和精度,l由用户指定,将给定的CNN转化为SW

CNN,c从SW

CNN的压缩率

精度帕累托集合中选择。
[0019]进一步的,调整压缩率:
[0020]当上一任务p
n
‑1完成时,控制器以当前任务数量p
n
、上一任务给当前任务留下的剩余时间l
n
‑1以及当前的网络带宽b
n
为输入,决定当前对于该批任务的压缩率c
n
以最大化实时的性能指标RP,若任务p...

【技术保护点】

【技术特征摘要】
1.一种实时边云协同卷积神经网络推理方法,其特征在于,包括以下步骤:在边缘设备上对CNN模型通过特征图压缩,将压缩后的CNN模型转化为边云协同推理模型SW

CNN;在给定的边云系统中进行信息搜集得到SW

CNN各层在各压缩率下的通信计算延时;对实时边云协同CNN推理控制问题进行建模,对按照时间序列i=1,2...到来的流式推理任务,根据实时网络性能调整压缩率c;初始化任务队列,控制器根据当前的任务剩余时间信息及实时网络情况,建模实时边云协同推理控制问题并求解,为SW

CNN选择压缩率;调整SW

CNN的压缩率至c
n
,处理任务p
n
;任务p
n
完成后,若任务队列不为空,则重复调整SW

CNN的压缩率至c
n
,处理任务p
n
,直到处理完任务队列中的所有任务。2.根据权利要求1所述的一种实时边云协同卷积神经网络推理方法,其特征在于,在边缘设备上对CNN模型通过特征图压缩具体包括:给定CNN层之间的通信数据为特征图,其数据量D
s
=F
s
*F
n
*F
b
,其中F
s
表示单张特征图的面积,F
n
表示特征图的数量,F
b
表示量化后的数据bit位数,分别降低F
n
和F
b
,假设经过压缩操作后剩余的特征图数量为F
rn
,剩余的数据量化位数为F
rb
,则(F
rn
,F
rb
)为当前的压缩设置,该设置的通信压缩率c=1

(F
rn
*F
rb
)/(F
n
*F
b
),剩余率r=1

c,经过压缩之后,在原有数据集上通过端到端训练进行模型微调以恢复精度,计算压缩率

精度的帕累托集合,确定选取相同压缩率下精度最高的方案。3.根据权利要求2所述的一种实时边云协同卷积神经网络推理方法,其特征在于,采用通道剪枝ChannelPruning和统一仿射量化UniformAffineQuantization分别降低F
n
和F
b
。4.根据权利要求2所述的一种实时边云协同卷积神经网络推理方法,其特征在于,将压缩后的CNN模型转化为边云协同推理模型SW

CNN具体包括:SW

CNN转化,对于给定的CNN模型,得到大具有不同压缩率及精度的CNN模型,将给定CNN模型转化为集成了不同压缩率的CNN模型的SW

CNN模型,对于给定的CNN模型,其相应的SW

CNN模型具有相同的结构,对于给定的具有F
N
及F
B
的划分层,根据不同压缩设置生成不同的子模型,除给定划分层外,不同的子模型共享所有参数,对于压缩层,不同的子模型根据(F
rn
,F
rb
)相互嵌套并共享参数,使用(F
rn
,F
rb
)压缩设置的子模型使用从序号1到F
rn
的特征图及1到F
rb
的数据bit位数,故(F
rn
,F
rb
)大的子模型包含了特征图数量及压缩位数小的子模型,即小的子模型嵌套在大的子模型中。5.根据权利要求4所述的一种实时边云协同卷积神经网络推理方法,其特征在于,对于给定的CNN模型,先训练具有与其对应的SW

CNN相同结构的CNN模型,以其参数初始化与给定CNN模型相对应的SW

CNN模型;预训练好的模型作为教师模型指导其余的子模型训练;迭代训练SW

CNN,在每次训练迭代中,所有子模型独立完成其前向推理及反向传播过程,之后将梯度进行加和用于更新SW

CNN模型,在训练开始的第一个epoch,对不同子模型的梯度使用DBSCAN进行聚类,以此对子模型进行分组,在后续训练中每次迭代更新时,仅在每个分组中抽样一个模型参与训练更新,训练的子模型个数为子模型分组的数量,由DBSCAN算法中的eps参数调整。6.根据权利要求1所述的一种实时边云协同卷积神经网络推理方法,其特征在于,计算延时:
将一个N层的CNN模型部署在2层边...

【专利技术属性】
技术研发人员:杨树森赵聪赵鹏张展华任雪斌余翰乔韩青郭思言
申请(专利权)人:杭州卷积云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1