一种基于云边端协同的深度学习模型推理加速方法技术

技术编号：34904111 阅读：19 留言：0更新日期：2022-09-10 14:15

本发明专利技术公开了一种基于云边端协同的深度学习模型推理加速方法，具体涉及一种深度学习模型分层卸载方法。该方法通过对整个深度学习模型推理过程中的计算时延、数据传输时延、数据传播时延和模型分层卸载策略生成时延进行理论建模，并以计算任务响应时延最小为优化目标，决定最优深度学习模型的分层卸载策略。相较于以物理端为主导和以云计算中心为主导的深度学习模型执行框架，本方法通过将边缘计算范式和云计算结合起来，并将深度学习模型分层卸载至不同的边缘计算节点，在满足计算精度的前提下，实现计算任务响应时延最小化。实现计算任务响应时延最小化。实现计算任务响应时延最小化。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于云边端协同的深度学习模型推理加速方法

[0001]本专利技术属于云边端协同计算领域，具体涉及一种基于云边端协同的深度学习模型推理加速方法。

技术介绍

[0002]基于深度学习模型的智能应用程序通常需要大量计算，当前可行的解决方案有两种，其一是End
‑
only模式，即在物理端使用简单模型和轻量级深度学习模型框架执行所有计算，例如TensorFlow Lite、Caffe For Android；其二是Cloud
‑
only模式，即将所有计算任务卸载到算力强大的云中心，以进行复杂的深度学习模型计算。但是，上述方法要么会因为只在物理端部署一个简单模型而降低识别准确率，要么会因为物理端与云之间的广域网传输链路不稳定而导致传输时延开销过大。因此，同时保证合理的延迟和识别准确率是相当困难的。
[0003]为了克服延迟和识别准确率之间的矛盾，更好的解决方案是利用边缘计算范式。然而，由于忽略了深度学习应用的特点和边缘环境的动态性，现有的用于深度学习模型推理的边缘计算执行框架和卸载机制仍然存在一些局限性。

技术实现思路

[0004]本专利技术的目的在于：通过将边缘计算范式和云计算结合起来，并将深度学习模型分层卸载至不同的边缘计算节点，在满足计算精度的前提下，实现计算任务响应时延最小化。
[0005]为实现上述目的，本专利技术提供如下技术方案：一种基于云边端协同的深度学习模型推理加速方法，所述云边端协同是指云服务器、与云服务器通信的至少两个边缘计算节点，以及至...

【技术保护点】

【技术特征摘要】
1.一种基于云边端协同的深度学习模型推理加速方法，所述云边端协同是指云服务器、与云服务器通信的至少两个边缘计算节点，以及至少一个物理终端，物理终端与边缘计算节点的通信距离小于边缘计算节点与云服务器的距离，其特征在于，所述方法包括如下步骤：步骤S1、物理终端将图像数据预处理为分辨率相同、数据量相等的图像特征数据D1，输入划分好的待卸载深度学习模型的各个DNN层，即，将上一层输出作为下一层的输入，最终得到；步骤S2、进行离线学习阶段：基于各个边缘计算节点计算资源预设负载情况，以各个边缘计算节点上待卸载深度学习模型处理图像特征数据的过程为输入、已知的图像特征数据通过各个边缘计算节点上待卸载深度学习模型的各个对应的计算时延为输出，构建并训练获得分层计算时延预测模型CT；同时基于云服务器计算资源预设负载情况，以云服务器上待卸载深度学习模型各个处理图像特征数据D
z
的过程为输入、已知的云服务器上待卸载深度学习模型各个处理图像特征数据D
z
对应的计算时延为输出，构建并训练获得云服务器计算时延预测模型CT
c
；步骤S3、根据各个边缘计算节点的实际计算资源负载情况，由物理终端的计算任务所对应的边缘计算节点应用分层计算时延预测模型CT，以待卸载深度学习模型各个处理图像特征数据的过程为输入、获得图像特征数据通过各个边缘计算节点上待卸载深度学习模型各个对应的计算时延为输出的理论分层计算时延；步骤S4、基于已知的边缘计算节点局域网网络带宽情况r、以及各个边缘计算节点之间的物理距离l，计算经过当前边缘计算节点传输图像特征数据到其他边缘计算节点所需的数据传输时延T和传播时延S；同时基于已知的云服务器网络带宽情况r
c
、以及计算任务的边缘计算节点与云服务器之间的物理距离l
c
，计算经过计算任务的边缘计算节点传输图像特征数据D1到云服务器所需的数据传输时延T
c
和传播时延S
C
；步骤S5、以步骤S3获得的各个边缘计算节点理论分层计算时延、以及步骤S4获得的数据传输时延T和传播时延S为输入，以所对应的响应时延为输出，构建深度学习模型分层卸载模型如下式：并以响应时延TIME最小为优化目标,获得响应时延最小的深度学习模型分层卸
载模型，其中t为边缘计算节点从收到物理终端发送的计算任务到生成深度学习模型分层卸载模型的时间；步骤S6、根据步骤S2获得的云服务器计算时延预测模型CT
c
，以及云服务器的实际计算资源负载情况，应用分层计算时延预测模型CT
c
，以待卸载深度学习模型各个处理图像特征数据的过程为输入、获得图像特征数据通过云服务器上待卸载深度学习模型的各个对应的计算时延为输出的理论分层计算时延，之后按如下公式：，计算单独使用云服务器处理计算任务所产生的理论计算时延，其中为将D1通过DNN1产生的计算时延，之后按如下公式计算单独使用云服务器时处理图像特征数据D
z
的响应时延TIMEc：；步骤S7、动态比较单独使用云服务器时的响应时延TIMEc与深度学习模型分层卸载模型响应时延最小的大小，若小于TIMEc，则以响应时延最小对应的深度学习模型分层...

【专利技术属性】
技术研发人员：郭永安，周金粮，王宇翱，钱琪杰，孙洪波，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人