深度神经网络的推断任务的联合卸载与调度方法及装置制造方法及图纸

技术编号:35671827 阅读:19 留言:0更新日期:2022-11-23 14:07
本发明专利技术提供了一种深度神经网络的推断任务的联合卸载与调度方法及装置,所述方法包括:获取在多个终端的推断任务全部卸载到边缘服务器的情况下,所述边缘服务器批处理各层任务的最晚起始时间;根据所述最晚起始时间、第一终端执行所述推断任务时各层任务的第一计算延时、以及第一终端向边缘服务器发送各层任务计算得到的中间数据的传输延时,确定第一终端的推断任务被卸载至边缘服务器的候选分割点,所述第一终端为所述多个终端中的任一终端;计算每个候选分割点对应的终端能耗,选择出最低终端能耗对应的候选分割点作为最终分割点;根据所述最终分割点将推断任务卸载至边缘服务器。本发明专利技术能够在保证推断任务的延时需求的情况下,降低终端的能耗。降低终端的能耗。降低终端的能耗。

【技术实现步骤摘要】
深度神经网络的推断任务的联合卸载与调度方法及装置


[0001]本专利技术涉及神经网络模型
,具体而言,本专利技术涉及一种深度神经网络(Deep Neural Networks,DNN)的推断任务(inference)的联合卸载与调度方法及装置。

技术介绍

[0002]深度神经网络是深度学习的基础。神经网络是基于感知机的扩展,而深度神经网络可以理解为包括有多个隐藏层的神经网络。按不同层的位置划分,深度神经网络内部的神经网络层可以分为三类,输入层、隐藏层和输出层,一般来说第一层是输入层,最后一层是输出层,而中间的层都是隐藏层。
[0003]随着人工智能(Artificial Intelligence,AI)的快速发展,各种基于AI的应用正在逐渐的融入到人们的生活。用户可以利用这些应用执行深度神经网络的推断任务。这些应用可能安装在智能手机、平板电脑和汽车等终端上。上述推断任务的计算量通常较大,可能造成终端较大的能量消耗,而终端的能量通常是受限的。
[0004]为减少终端能耗,保证终端的续航时间,现有技术的一种解决方案是将深度神经网络推断任务进行分割,具体是指:终端本地处理前若干层神经网络的计算任务,并将前若干层神经网络的最后一层输出的中间数据上传至边缘服务器,由边缘服务器完成剩余部分神经网络的推断任务,最后将神经网络的输出结果返回给终端。
[0005]以上方案能够减少终端的计算量,降低终端的计算能耗,但在大量场景中,边缘服务器需同时服务多个终端,此时若边缘服务器顺序处理各个被卸载的计算任务可能无法完全利用边缘云的计算资源,导致推断延时上升。特别的,在如自动驾驶等场景中,终端对推断延时有较严格的要求,以上方案可能无法适用。因此,亟需一种能够在保证推断任务的延时需求的情况下,降低推断任务对终端能量消耗的方案。

技术实现思路

[0006]本专利技术实施例要解决的技术问题是提供一种深度神经网络的推断任务的联合卸载与调度方法及装置,在保证推断任务的延时需求的情况下,降低了推断任务对终端能量消耗。
[0007]为解决上述技术问题,本专利技术实施例提供的一种深度神经网络的推断任务的联合卸载与调度方法,所述深度神经网络包括顺序连接的多个层,所述方法包括:
[0008]获取在多个终端的推断任务全部卸载到边缘服务器的情况下,所述边缘服务器批处理各层任务的最晚起始时间;
[0009]根据所述最晚起始时间、第一终端执行所述推断任务时各层任务的第一计算延时、以及第一终端向边缘服务器发送各层任务计算得到的中间数据的传输延时,确定第一终端的推断任务被卸载至边缘服务器的候选分割点,所述第一终端为所述多个终端中的任一终端;
[0010]计算每个候选分割点对应的终端能耗,选择出最低终端能耗对应的候选分割点作
为最终分割点,其中,所述终端能耗包括终端执行候选分割点前各层任务的计算能耗和传输候选分割点前一层任务计算得到的中间数据的传输能耗;
[0011]根据所述最终分割点,将所述第一终端的推断任务卸载至边缘服务器。
[0012]优选的,所述最晚起始时间是根据边缘服务器批处理所述多个终端的推断任务时各层任务的第二计算延时和所述多个终端的推断任务的最小延时需求确定的;
[0013]所述第一终端向边缘服务器发送各层任务计算得到的中间数据的传输延时,是根据所述中间数据的数据量和所述第一终端的上行数据传输速率计算得到的;
[0014]所述候选分割点是满足以下条件的分割点:分割点前的各层任务的第一计算延时与分割点处的传输延时之和,小于或等于分割点后一层任务在边缘服务器处的最晚起始时间。
[0015]优选的,所述获取在多个终端的推断任务全部卸载到边缘服务器的情况下,所述边缘服务器批处理各层任务的最晚起始时间,具体包括:
[0016]边缘服务器接收多个终端发送的控制信息,所述控制信息包括:所述终端对所述推断任务的延时需求、所述终端执行所述推断任务时各层任务的第一计算延时和计算能耗;
[0017]边缘服务器从所述多个终端对所述推断任务的延时需求中选择出最小延时需求;
[0018]边缘服务器根据所述多个终端的数量,确定批大小,并获取在所述批大小的情况下批处理所述推断任务时各层任务的第二计算延时;
[0019]边缘服务器根据所述最小延时需求和所述第二计算延时,确定批处理每层任务的最晚起始时间。
[0020]优选的,所述确定第一终端的推断任务被卸载至边缘服务器的候选分割点,具体包括:
[0021]边缘服务器根据所述推断任务中各层任务计算得到的中间数据的大小和所述第一终端的上行数据传输速率,计算所述第一终端向边缘服务器发送所述中间数据的传输延时;
[0022]边缘服务器针对每个分割点,分别计算该分割点前的各层任务的第一计算延时与发送该分割点的前一层任务的中间数据的传输延时的和值,并在所述和值小于该分割点的后一层任务在边缘服务器处的最晚起始时间的情况下,将该分割点确定为候选分割点。
[0023]优选的,所述计算每个候选分割点对应的终端能耗,具体包括:
[0024]边缘服务器获取所述第一终端的上行数据传输信道的信道质量,确定所述第一终端传输所述候选分割点前一层任务计算得到的中间数据的传输能耗;
[0025]根据所述第一终端执行所述推断任务时各层任务的计算能耗,计算所述第一终端执行所述候选分割点前各层任务的计算能耗之和,并与所述第一终端传输所述候选分割点前一层任务计算得到的中间数据的传输能耗相加,得到所述候选分割点对应的终端能耗。
[0026]优选的,所述根据所述最终分割点,将所述第一终端的推断任务卸载至边缘服务器,具体包括:
[0027]边缘服务器向所述第一终端发送所述最终分割点的调度信息,所述调度信息用于调度第一终端在本地执行所述推断任务在最终分割点前的各层任务,并将所述最终分割点前一层任务计算得到的中间数据发送给边缘服务器;
[0028]边缘服务器接收所述第一终端发送的中间数据,并在所述最终分割点的后一层任务的最晚起始时间到达时,对所述多个终端中已卸载到边缘服务器侧的所述最终分割点后一层的任务进行批处理。
[0029]优选的,所述获取在多个终端的推断任务全部卸载到边缘服务器的情况下,所述边缘服务器批处理各层任务的最晚起始时间,具体包括:
[0030]所述第一终端接收所述边缘服务器发送的通知信息,所述通知信息包括:边缘服务器批处理多个终端的推断任务时各层任务的最晚起始时间、所述第一终端向边缘服务器发送各层任务计算得到的中间数据的传输延时、所述第一终端传输各层任务计算得到的中间数据的传输能耗。
[0031]优选的,所述确定第一终端的推断任务被卸载至边缘服务器的候选分割点,具体包括:
[0032]所述第一终端针对每个分割点,分别计算该分割点前的各层任务的第一计算延时与发送该分割点的前一层任务的中间数据的传输延时的和值,并在所述和值小于该分割点的后一层任务在边缘服务器处的最晚起始时间的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度神经网络的推断任务的联合卸载与调度方法,所述深度神经网络包括顺序连接的多个层,其特征在于,所述方法包括:获取在多个终端的推断任务全部卸载到边缘服务器的情况下,所述边缘服务器批处理各层任务的最晚起始时间;根据所述最晚起始时间、第一终端执行所述推断任务时各层任务的第一计算延时、以及第一终端向边缘服务器发送各层任务计算得到的中间数据的传输延时,确定第一终端的推断任务被卸载至边缘服务器的候选分割点,所述第一终端为所述多个终端中的任一终端;计算每个候选分割点对应的终端能耗,选择出最低终端能耗对应的候选分割点作为最终分割点,其中,所述终端能耗包括终端执行候选分割点前各层任务的计算能耗和传输候选分割点前一层任务计算得到的中间数据的传输能耗;根据所述最终分割点,将所述第一终端的推断任务卸载至边缘服务器。2.如权利要求1所述的方法,其特征在于,所述最晚起始时间是根据边缘服务器批处理所述多个终端的推断任务时各层任务的第二计算延时和所述多个终端的推断任务的最小延时需求确定的;所述第一终端向边缘服务器发送各层任务计算得到的中间数据的传输延时,是根据所述中间数据的数据量和所述第一终端的上行数据传输速率计算得到的;所述候选分割点是满足以下条件的分割点:分割点前的各层任务的第一计算延时与分割点处的传输延时之和,小于或等于分割点后一层任务在边缘服务器处的最晚起始时间。3.如权利要求2所述的方法,其特征在于,所述获取在多个终端的推断任务全部卸载到边缘服务器的情况下,所述边缘服务器批处理各层任务的最晚起始时间,具体包括:边缘服务器接收多个终端发送的控制信息,所述控制信息包括:所述终端对所述推断任务的延时需求、所述终端执行所述推断任务时各层任务的第一计算延时和计算能耗;边缘服务器从所述多个终端对所述推断任务的延时需求中选择出最小延时需求;边缘服务器根据所述多个终端的数量,确定批大小,并获取在所述批大小的情况下批处理所述推断任务时各层任务的第二计算延时;边缘服务器根据所述最小延时需求和所述第二计算延时,确定批处理每层任务的最晚起始时间。4.如权利要求3所述的方法,其特征在于,所述确定第一终端的推断任务被卸载至边缘服务器的候选分割点,具体包括:边缘服务器根据所述推断任务中各层任务计算得到的中间数据的大小和所述第一终端的上行数据传输速率,计算所述第一终端向边缘服务器发送所述中间数据的传输延时;边缘服务器针对每个分割点,分别计算该分割点前的各层任务的第一计算延时与发送该分割点的前一层任务的中间数据的传输延时的和值,并在所述和值小于该分割点的后一层任务在边缘服务器处的最晚起始时间的情况下,将该分割点确定为候选分割点。5.如权利要求3所述的方法,其特征在于,所述计算每个候选分割点对应的终端能耗,具体包括:边缘服务器获取所述第一终端的上行数据传输信道的信道质量,确定所述第一终端传输所述候选分割点前一层任务计算得到的中间数据的传输能耗;
根据所述第一终端执行所述推断任务时各层任务的计算能耗,计算所述第一终端执行所述候选分割点前各层任务的计算能耗之和,并与所述第一终端传输所述候选分割点前一层任务计算得到的中间数据的传输能耗相加,得到所述候选分割点对应的终端能耗。6.如权利要求3所述的方法,其特征在于,所述根据所述最终分割点,将所述第一终端的推断任务卸载至边缘服务器,具体包括:边缘服务器向所述第一终端发送所述最终分割点的调度信息,所述调度信息用于调度第一终端在本地执行所述推断任务在最终分割点前的各层任务,并将所述最终分割点前一层任务计算得到的中间数据发送给边缘服务器...

【专利技术属性】
技术研发人员:施文琦姜淼耿璐郑萌周盛马元琛牛志升
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1