一种基于云边端协同的深度学习模型推理加速方法技术

技术编号:34904111 阅读:19 留言:0更新日期:2022-09-10 14:15
本发明专利技术公开了一种基于云边端协同的深度学习模型推理加速方法,具体涉及一种深度学习模型分层卸载方法。该方法通过对整个深度学习模型推理过程中的计算时延、数据传输时延、数据传播时延和模型分层卸载策略生成时延进行理论建模,并以计算任务响应时延最小为优化目标,决定最优深度学习模型的分层卸载策略。相较于以物理端为主导和以云计算中心为主导的深度学习模型执行框架,本方法通过将边缘计算范式和云计算结合起来,并将深度学习模型分层卸载至不同的边缘计算节点,在满足计算精度的前提下,实现计算任务响应时延最小化。实现计算任务响应时延最小化。实现计算任务响应时延最小化。

【技术实现步骤摘要】
一种基于云边端协同的深度学习模型推理加速方法


[0001]本专利技术属于云边端协同计算领域,具体涉及一种基于云边端协同的深度学习模型推理加速方法。

技术介绍

[0002]基于深度学习模型的智能应用程序通常需要大量计算,当前可行的解决方案有两种,其一是End

only模式,即在物理端使用简单模型和轻量级深度学习模型框架执行所有计算,例如TensorFlow Lite、Caffe For Android;其二是Cloud

only模式,即将所有计算任务卸载到算力强大的云中心,以进行复杂的深度学习模型计算。但是,上述方法要么会因为只在物理端部署一个简单模型而降低识别准确率,要么会因为物理端与云之间的广域网传输链路不稳定而导致传输时延开销过大。因此,同时保证合理的延迟和识别准确率是相当困难的。
[0003]为了克服延迟和识别准确率之间的矛盾,更好的解决方案是利用边缘计算范式。然而,由于忽略了深度学习应用的特点和边缘环境的动态性,现有的用于深度学习模型推理的边缘计算执行框架和卸载机制仍然存在一些局限性。

技术实现思路

[0004]本专利技术的目的在于:通过将边缘计算范式和云计算结合起来,并将深度学习模型分层卸载至不同的边缘计算节点,在满足计算精度的前提下,实现计算任务响应时延最小化。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于云边端协同的深度学习模型推理加速方法,所述云边端协同是指云服务器、与云服务器通信的至少两个边缘计算节点,以及至少一个物理终端,物理终端与边缘计算节点的通信距离小于边缘计算节点与云服务器的距离,所述方法包括如下步骤:步骤S1、物理终端将图像数据预处理为分辨率相同、数据量相等的图像特征数据D1,将输入划分好的待卸载深度学习模型的各个DNN层,将上一层输出作为下一层的输入,最终得到;步骤S2、进行离线学习阶段:基于各个边缘计算节点预设负载情况,以各个边缘计算节点上待卸载深度学习模型处理图像特征数据的过程为输入、已知的图像特征数据D
z
通过各个边缘计算节点上待卸载深度学习模型的各个对应的计算时延为输出,构建并训练获得分层计算时延预测模型CT;同时基于云服务器预设负载情况,以云服务器上待卸载深度学习模型各个
处图像特征数据的过程为输入、已知的云服务器上待卸载深度学习模型各个处理图像特征数据对应的计算时延为输出,构建并训练获得云服务器计算时延预测模型CT
c
;步骤S3、根据各个边缘计算节点的实际计算资源负载情况,由物理终端的计算任务所对应的边缘计算节点应用分层计算时延预测模型CT,以待卸载深度学习模型各个处理图像特征数据的过程为输入、获得图像特征数据通过各个边缘计算节点上待卸载深度学习模型各个对应的计算时延为输出的理论分层计算时延 ;步骤S4、基于已知的边缘计算节点局域网网络带宽情况r、以及各个边缘计算节点之间的物理距离l,计算经过当前边缘计算节点传输图像特征数据到其他边缘计算节点所需的数据传输时延T和传播时延S;同时基于已知的云服务器网络带宽情况r
c
、以及计算任务的边缘计算节点与云服务器之间的物理距离l
c
,计算经过计算任务的边缘计算节点传输图像特征数据D1到云服务器所需的数据传输时延T
c
和传播时延S
C
;步骤S5、以步骤S3获得的各个边缘计算节点理论分层计算时延、以及步骤S4获得的数据传输时延T和传播时延S为输入,以所对应的响应时延TIME为输出,构建深度学习模型分层卸载模型如下式:,并以响应时延TIME最小为优化目标,获得响应时延TIME最小的深度学习模型分层卸载模型,其中t为边缘计算节点从收到物理终端发送的计算任务到生成深度学习模型分层卸载模型的时间;步骤S6、根据步骤S2获得的云服务器计算时延预测模型CT
c
,以及云服务器的计算资源负载情况,应用分层计算时延预测模型CT
c
,以待卸载深度学习模型各个处理图像特征数据的过程为输入、获得图像特征数据通过云服务器上待卸载深度学习模型的各个对应的计算时延为输出的理论分层计算时延,之后按如下公式:,计算单独使用云服务器处理计算任务所产生的理论计算时延,其中
为将D1通过DNN1产生的计算时延,之后按如下公式计算单独使用云服务器时处理图像特征数据D
z
的响应时延TIMEc: ;步骤S7、动态比较单独使用云服务器时的响应时延TIMEc与深度学习模型分层卸载模型响应时延最小的TIME大小,若TIME小于TIMEc,则以响应时延TIME最小对应的深度学习模型分层卸载模型为分层卸载策略,完成待计算数据以最小化响应时延为目标的卸载计算;否则以响应时延TIMEc对应的单独使用云服务器处理待计算数据为最终分层卸载策略,完成待计算数据以最小化响应时延的卸载计算;步骤S8、基于步骤S7获得的分层卸载策略,各执行分层卸载策略的边缘计算节点收集计算任务时的计算负载情况,之后返回步骤S2。
[0006]进一步地,前述的已划分好的待卸载深度学习模型的各个DNN层按如下方法获得:将待卸载深度学习模型的隐藏层、输入层以及输出层的所包含的神经元,以各单独成列的神经元为划分为n列,获得单独成列的神经元列,之后获得, n为正整数。
[0007]进一步地,前述的步骤S1具体为:基于已分割好的待卸载深度学习模型的各个以各个边缘计算节点上待卸载深度学习模型各个处理图像特征数据的过程为输入、图像特征数据通过各个边缘计算节点上待卸载深度学习模型的各个对应的计算时延为输出,分别构建各个边缘计算节点分层计算时延模型如下式:;其中,为计算资源负载情况预设CPU负载、为计算资源负载情况预设GPU负载、为计算资源负载情况预设缓存负载。
[0008]进一步地,前述的步骤S3中,基于已知的边缘计算节点局域网网络带宽情况r,各个边缘计算节点之间的物理距离l,按如下公式:,;
分别计算各个边缘计算节点传输图像特征数据到其他边缘计算节点所需的数据传输时延T、传播时延S;其中,光速C代表电磁波在信道上的传播速率。
[0009]进一步地,前述的边缘计算节点包括深度强化网络、深度学习模型、态势感知中心、以及决策收发中心;其中所述深度强化网络包括:分层计算时延预测模块,用于计算理论分层计算时延和 ,以及存储分层计算时延预测模型CT和云服务器计算时延预测模型CT
c
;传输时延计算模块,用于计算数据传输时延T和传播时延S;在线决策时延统计模块,用于计算边缘计算节点从收到物理终端发送的计算任务到生成深度学习模型分层卸载模型的时间t;在线学习模块,用于收集并传递计算任务时的实际计算负载情况和实际计算时延数据到边缘计算节点的分层计算时延预测模块;离线样本数据存储模块,用于存储各个边缘计算节点和云服务器在预设负载情况下,图像特征数据通过各个边缘计算节点上待卸载深度学习模型的各个对应的计算时延,和图像特征数据通过云服务器上待卸载深度学习模型的各个对应的计算时延;决策信息生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于云边端协同的深度学习模型推理加速方法,所述云边端协同是指云服务器、与云服务器通信的至少两个边缘计算节点,以及至少一个物理终端,物理终端与边缘计算节点的通信距离小于边缘计算节点与云服务器的距离,其特征在于,所述方法包括如下步骤:步骤S1、物理终端将图像数据预处理为分辨率相同、数据量相等的图像特征数据D1,输入划分好的待卸载深度学习模型的各个DNN层,即,将上一层输出作为下一层的输入,最终得到;步骤S2、进行离线学习阶段:基于各个边缘计算节点计算资源预设负载情况,以各个边缘计算节点上待卸载深度学习模型处理图像特征数据的过程为输入、已知的图像特征数据通过各个边缘计算节点上待卸载深度学习模型的各个对应的计算时延为输出,构建并训练获得分层计算时延预测模型CT;同时基于云服务器计算资源预设负载情况,以云服务器上待卸载深度学习模型各个处理图像特征数据D
z
的过程为输入、已知的云服务器上待卸载深度学习模型各个处理图像特征数据D
z
对应的计算时延为输出,构建并训练获得云服务器计算时延预测模型CT
c
;步骤S3、根据各个边缘计算节点的实际计算资源负载情况,由物理终端的计算任务所对应的边缘计算节点应用分层计算时延预测模型CT,以待卸载深度学习模型各个处理图像特征数据的过程为输入、获得图像特征数据通过各个边缘计算节点上待卸载深度学习模型各个对应的计算时延为输出的理论分层计算时延;步骤S4、基于已知的边缘计算节点局域网网络带宽情况r、以及各个边缘计算节点之间的物理距离l,计算经过当前边缘计算节点传输图像特征数据到其他边缘计算节点所需的数据传输时延T和传播时延S;同时基于已知的云服务器网络带宽情况r
c
、以及计算任务的边缘计算节点与云服务器之间的物理距离l
c
,计算经过计算任务的边缘计算节点传输图像特征数据D1到云服务器所需的数据传输时延T
c
和传播时延S
C
;步骤S5、以步骤S3获得的各个边缘计算节点理论分层计算时延、以及步骤S4获得的数据传输时延T和传播时延S为输入,以所对应的响应时延为输出,构建深度学习模型分层卸载模型如下式:并以响应时延TIME最小为优化目标,获得响应时延最小的深度学习模型分层卸
载模型,其中t为边缘计算节点从收到物理终端发送的计算任务到生成深度学习模型分层卸载模型的时间;步骤S6、根据步骤S2获得的云服务器计算时延预测模型CT
c
,以及云服务器的实际计算资源负载情况,应用分层计算时延预测模型CT
c
,以待卸载深度学习模型各个处理图像特征数据的过程为输入、获得图像特征数据通过云服务器上待卸载深度学习模型的各个对应的计算时延为输出的理论分层计算时延 ,之后按如下公式: ,计算单独使用云服务器处理计算任务所产生的理论计算时延 ,其中为将D1通过DNN1产生的计算时延,之后按如下公式计算单独使用云服务器时处理图像特征数据D
z
的响应时延TIMEc:;步骤S7、动态比较单独使用云服务器时的响应时延TIMEc与深度学习模型分层卸载模型响应时延最小的大小,若小于TIMEc,则以响应时延最小对应的深度学习模型分层...

【专利技术属性】
技术研发人员:郭永安周金粮王宇翱钱琪杰孙洪波
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1