当前位置: 首页 > 专利查询>上海大学专利>正文

面向边缘计算基于模型分割的应用推理部署方法技术

技术编号:38208061 阅读:10 留言:0更新日期:2023-07-21 16:57
一种面向边缘计算基于模型分割的应用推理部署方法,在性能测试阶段,分别通过网络性能测试、客户端推理任务延时测试和服务端推理任务延时测试得到网络链路的延迟与带宽以及神经网络(DNN)各层执行的耗时,通过分割点决策方法得到最佳分割点配置;在本地推理阶段,通过获取图像后由当前客户端按照最佳分割点配置执行分割点前的推理任务,并将中继点数据经int8特征量化处理后传输至位于边缘侧的服务端;在边缘推理阶段,服务端按照相同的最佳分割点配置执行分割点后的边缘推理并执行推理任务后,将结果传回客户端,由客户端进行格式化处理并输出分类结果和检测框。本发明专利技术通过面向边缘计算的应用部署的实际可用系统,并通过动态调整的分割点决策方法,完成实际系统在图像分类和目标检测两类AI应用的性能提升验证。证。证。

【技术实现步骤摘要】
面向边缘计算基于模型分割的应用推理部署方法


[0001]本专利技术涉及的是一种分布式信息处理领域的技术,具体是一种面向边缘计算基于模型分割的应用推理部署方法。

技术介绍

[0002]边缘计算是一种分布式计算框架,将云服务从网络核心推向网络边缘的范式,其目标是尽可能靠近数据源和最终用户托管计算任务,使应用程序更接近物联网设备、本地终端设备或边缘服务器等数据源。现有边缘推理技术缺少在实际系统中应用部署和性能验证方法,在性能测试部分都只止步于基于模拟环境的仿真测试,缺乏在实际软硬件平台上部署AI应用,执行边缘分割推理的方法,也缺乏在实际平台上完成方法性能验证的方法的同时基于模型分割的特征数据传输优化欠佳:边缘推理可优化分割的DNN模型依旧需要通信传输的特征图数据量过大,导致传输延迟还是很难降低。

技术实现思路

[0003]本专利技术针对现有技术存在的上述不足,提出一种面向边缘计算基于模型分割的应用推理部署方法,针对动态网络环境下,结合模型分割和特征量化技术,通过面向边缘计算的应用部署的实际可用系统,并通过动态调整的分割点决策方法,完成实际系统在图像分类和目标检测两类AI应用的性能提升验证。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种面向边缘计算基于模型分割的应用推理部署方法,在性能测试阶段,分别通过网络性能测试、客户端推理任务延时测试和服务端推理任务延时测试得到网络链路的延迟与带宽以及神经网络(DNN)各层执行的耗时,通过分割点决策方法得到最佳分割点配置;在本地推理阶段,通过获取图像后由当前客户端按照最佳分割点配置执行分割点前的推理任务,并将中继点数据经int8特征量化处理后传输至位于边缘侧的服务端;在边缘推理阶段,服务端按照相同的最佳分割点配置执行分割点后的边缘推理并执行推理任务后,将结果传回客户端,由客户端进行格式化处理并输出分类结果和检测框。
[0006]所述的最佳分割点配置是指:通过分割点决策方法所得的以最佳延时性能为目标的DNN推理分割决策点所处DNN模型的逻辑层位置。
[0007]所述的客户端推理任务延时测试和服务端推理任务延时测试是指:客户端与服务端对AI应用的DNN推理任务进行试运行,以层为单位对每一层的执行时间计时以测得各层的执行耗时。
[0008]优选地,为避免主机任务负载波动造成的误差,将多次运行客户端推理任务延时测试和服务端推理任务延时测试。
[0009]所述的DNN各层执行的耗时是指:通过推理模块硬件运算性能与网络性能信息包括:在客户端与服务端分别测试并统计DNN各层执行的耗时,从而解两端主机不同性能条件下对完成同一层推理的耗时差异。
[0010]所述的网络性能测试是指:将网络链路往返延时(TN)与传输延时(D
i
/BW)叠加获得总网络延时,其中:传输延时基于实时网络带宽BW与传输数据体积D
i
共同决定;分割点越提前,需要传输的特征图大小就越大,也就会引入更长的传输耗时。
[0011]在本地推理阶段和边缘推理阶段中的最佳分割点配置,采用改进后的DNN得到,该改进后的DNN包括:初始化模块、顺序转换模块以及前向传播逻辑模块,其中:初始化模块通过继承方法获得Pytorch官方标准DNN的特征提取块、平均汇聚块、特征分类块,并输出给顺序转换模块;顺序转换模块利用pytorch提供的ModuleList容器,将初始化模块继承的原版DNN中所有的网络层块进行铺平处理,铺平后所有层粒度的子模块都被按顺序置入一个ModuleList容器;前向传播逻辑模块根据分割点配置信息,控制ModuleList容器在指定序号的DNN层子模块处停止推理,并返回该模块的输出张量。
[0012]所述的铺平处理是指:通过把pytorch官方标准DNN封装的网络模块以层为单位进行拆分,并重新顺序封装到顺序转换模块的ModuleList容器,从而在推理阶段执行模型分割时能够获取任意网络层输出。
[0013]所述的分割点配置信息是指:经铺平处理的层粒度的子模块{L1,L2,...,L
N
}以及分割点L
i
,其中:第L1至L
i
层网络的推理任务在客户端本地执行,L
i+1
层至L
N
层网络在服务端边缘执行,具体为:当客户端运行到第L
i
层时,第L
i
层的输出张量即本次分割任务中的中继特征数据,通过int8特征量化后发送至服务端,使得L
i
层以后的推理任务在服务端完成。
[0014]所述的分割点决策方法具体包括:
[0015]步骤a、输入参数包括:DNN的总层数,DNN网络层集合{L
i
|0,1,...,i,...,N},各层输出经过int8特征量化的数据体积{D
i
|0,1,...,i,...,N},各层在客户端执行的耗时{TC
i
|0,1,...,i,...,N},各层在服务端执行的耗时{TS
i
|0,1,...,i,...,N},客户端与服务端间网络的链路往返延时,客户端与服务端间网络的带宽,数据体积常数(默认取值为8)
[0016]步骤b、将DNN各层i假设为分割点循环测试其E2E延时性能,延时性能表示为Latency=TN+TC
i
+TS
i
+S
·
D
i
/BW。循环遍历N+1次后,E2E延时最低的分割点记为最佳分割点Split,输出最佳分割点配置。技术效果
[0017]本专利技术通过int8特征量化技术解决模型分割后需要通信传输的特征图数据量过大的缺陷,相比于现有的边缘推理部署仿真技术,实现在实际软硬件系统下的分割推理部署,使得在实际动态网络环境和算力环境下的推理性能验证成为可能,能够在动态环境下评估网络通信性能和客户端服务端的计算性能,通过调整模型分割点有效的降低图像分类应用的E2E推理延时,将中继特征图的数据大小降低为原来的四分之一,有效的降低通信传输延时,提升目标检测应用的平均检查帧率。
附图说明
[0018]图1为本专利技术系统示意图;
[0019]图2为本专利技术流程图;
[0020]图3为实施例模型分割点获取流程图;
[0021]图4为实施例客户端流程分解图;
[0022]图5为实施例服务端流程分解图;
[0023]图6为实施例图像识别的E2E推理延迟效果图;
[0024]图7为实施例目标检测的平均检测帧率效果图。
具体实施方式
[0025]如图1所示,为本实施例涉及一种面向边缘计算基于模型分割的应用推理部署系统,包括:位于客户端的控制模块、图像采集模块、本地推理模块、本地通信模块和输出处理模块以及位于边缘侧的服务端的边缘通信模块和边缘推理模块,其中:控制模块在测试阶段,分别通过本地和边缘推理模块获取DNN各层执行的耗时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向边缘计算基于模型分割的应用推理部署方法,其特征在于,在性能测试阶段,分别通过网络性能测试、客户端推理任务延时测试和服务端推理任务延时测试得到网络链路的延迟与带宽以及神经网络各层执行的耗时,通过分割点决策方法得到最佳分割点配置;在本地推理阶段,通过获取图像后由当前客户端按照最佳分割点配置执行分割点前的推理任务,并将中继点数据经int8特征量化处理后传输至位于边缘侧的服务端;在边缘推理阶段,服务端按照相同的最佳分割点配置执行分割点后的边缘推理并执行推理任务后,将结果传回客户端,由客户端进行格式化处理并输出分类结果和检测框;所述的最佳分割点配置是指:通过分割点决策方法所得的以最佳延时性能为目标的DNN推理分割决策点所处DNN模型的逻辑层位置。2.根据权利要求1所述的面向边缘计算基于模型分割的应用推理部署方法,其特征是,所述的客户端推理任务延时测试和服务端推理任务延时测试是指:客户端与服务端对AI应用的DNN推理任务进行试运行,以层为单位对每一层的执行时间计时以测得各层的执行耗时;所述的DNN各层执行的耗时是指:通过推理模块硬件运算性能与网络性能信息包括:在客户端与服务端分别测试并统计DNN各层执行的耗时,从而解两端主机不同性能条件下对完成同一层推理的耗时差异;所述的网络性能测试是指:将网络链路往返延时(TN)与传输延时(D
i
/BW)叠加获得总网络延时,其中:传输延时基于实时网络带宽BW与传输数据体积D
i
共同决定;分割点越提前,需要传输的特征图大小就越大,也就会引入更长的传输耗时。3.根据权利要求1所述的面向边缘计算基于模型分割的应用推理部署方法,其特征是,在本地推理阶段和边缘推理阶段中的最佳分割点配置,采用改进后的DNN得到,该改进后的DNN包括:初始化模块、顺序转换模块以及前向传播逻辑模块,其中:初始化模块通过继承方法获得Pytorch官方标准DNN的特征提取块、平均汇聚块、特征分类块,并输出给顺序转换模块;顺序转换模块利用pytorch提供的ModuleList容器,将初始化模块继承的原版DNN中所有的网络层块进行铺平处理,铺平后所有层粒度的子模块都被按顺序置入一个ModuleList容器;前向传播逻辑模块根据分割点配置信息,控制ModuleList容器在指定序号的DNN层子模块处停止推理,并返回该模块的输出张量;所述的铺平处理是指:通过把pytorch官方标准DNN封装的网络模块以层为单位进行拆分,并重新顺序封装到顺序转换模块的ModuleList容器,从而在推理阶段执行模型分割时能够获取任意网络层输出。4.根据权利要求1所述的面向边缘计算基于模型分割的应用推理部署方法,其特征是,所述的分割点配置信息是指:经铺平处理的层粒度的子模块{L1,L2,...,L
N
}以及分割点L
i
,其中:第L1至L
i
层网络的推理任务在客户端本地执行,L
i+1
层至L
N
层网络在服务端边缘执行,具体为:当客户端运行到第L
i
层时,第L
i
层的输出张量即本次分割任务中的中继特征数据,通过int8特征量化后发送至服务端,使得L
i
层以后的推理任务在服务端完成。5.根据权利要求1所述的面向边缘计算基于模型分割的应用推理部署方法,其特征是,所述的分割点决策方法具体包括:步骤a、输入参数包括:DNN的总层数,DNN网络层集合{L
i
|0,1,...,i,...,N},各层输出经过int8特征量化的数据体积{D
i
|0,1,...,i,...,N},各层在客户端执行的耗时{TC
i
|0,
1,...,i,...,N},各层在服务端执行的耗时{TS
i
|0,1,...,i,

,N},客户端与服务端间网络的链路往返延时,客户端与服务端间网络的带宽,数据体积常数;步骤b、将DNN各层i假设为分割点循环测试其E2E延时性能,延时性能表示为Latency=TN+TC
i
+TS
i
+S
·
D
i
/BW,循环遍历N+1次后,E2E延时最低的分割点记为最佳分割点Split,输出最...

【专利技术属性】
技术研发人员:孙彦赞叶新瑞潘广进张舜卿陈小静
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1