一种云服务的模型部署方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38127558 阅读:9 留言:0更新日期:2023-07-08 09:32
本说明书公开了一种云服务的模型部署方法、装置、电子设备及存储介质。方法包括:基于神经网络搜索架构确定目标模型的多种神经网络结构,目标模型的神经层的结构参数作为搜索空间的超参数。根据结构参数,确定每种神经网络结构的神经层的硬件耗时和传输耗时,传输耗时是指终端将神经层的输出结果传输至云端的耗时。按照神经网络结构的总耗时最小化原则,将每种神经网络结构拆分成终端部分和云端部分,总耗时包括终端部分和云端部分中神经层的硬件耗时以及终端部分中输出结果需要传输至云端的神经层的传输耗时。基于预设策略选取出目标神经网络结构,并按照其划分的终端部分和云端部分完成对应部署,预设策略包含基于总耗时的选取维度。时的选取维度。时的选取维度。

【技术实现步骤摘要】
一种云服务的模型部署方法、装置、电子设备及存储介质


[0001]本文件属于云服务
,尤其涉及一种云服务的模型部署方法、装置、电子设备及存储介质。

技术介绍

[0002]目前常见的基于人工智能的云服务,通常是将智能模型部署在云端运行。这种部署方式下,终端需要将原始数据提交到云端,以由云端集中完成计算。而大数据量的传输导致了云服务的总体耗时较长,且随着终端的硬件性能越来越强,终端有能力分担一些云服务的计算任务以减轻云端压力。
[0003]在此背景下,有必要提出一种能够将云服务的智能模型按照终端和云端拆分部署的技术方案。

技术实现思路

[0004]本说明书实施例提供了一种云服务的模型部署方法、装置、电子设备及存储介质,能够将云服务的智能模型按照终端和云端拆分部署。
[0005]为上述专利技术目的,本说明书实施例是这样实现的:
[0006]第一方面,提出了一种云服务的模型部署方法,包括:
[0007]基于神经网络搜索架构搜索得到目标模型的多种神经网络结构,其中,所述目标模型的神经层的结构参数取值空间作为所述神经网络搜索架构的搜索空间的超参数;
[0008]根据所述多种神经网络结构中每种神经网络结构的神经层的结构参数,确定所述每种神经网络结构的神经层的硬件耗时和传输耗时,其中,所述传输耗时是指终端将神经层的输出结果传输至云端的耗时;
[0009]基于所述每种神经网络结构的神经层的硬件耗时和传输耗时,按照神经网络结构的总耗时最小化原则,将所述每种神经网络结构拆分成由终端运行的终端部分和由云端运行的云端部分,其中,所述总耗时包括:终端部分中神经层的硬件耗时、终端部分中输出结果需要传输至云端的神经层的传输耗时以及云端部分中神经层的硬件耗时;
[0010]基于预设策略从所述多种神经网络结构中选取出目标神经网络结构,以及,按照所述目标神经网络结构被划分的终端部分和云端部分完成对应部署,其中,所述预设策略包含有基于神经网络结构的总耗时的选取维度。
[0011]第二方面,提出了一种云服务的模型部署装置,包括:
[0012]结构搜索模块,基于神经网络搜索架构搜索得到目标模型的多种神经网络结构,其中,所述目标模型的神经层的结构参数取值空间作为所述神经网络搜索架构的搜索空间的超参数;
[0013]耗时确定模块,根据所述多种神经网络结构中每种神经网络结构的神经层的结构参数,确定所述每种神经网络结构的神经层的硬件耗时和传输耗时,其中,所述传输耗时是指终端将神经层的输出结果传输至云端的耗时;
[0014]结构划分模块,基于所述每种神经网络结构的神经层的硬件耗时和传输耗时,按照神经网络结构的总耗时最小化原则,将所述每种神经网络结构拆分成由终端运行的终端部分和由云端运行的云端部分,其中,所述总耗时包括:终端部分中神经层的硬件耗时、终端部分中输出结果需要传输至云端的神经层的传输耗时以及云端部分中神经层的硬件耗时;
[0015]模型部署模块,基于预设策略从所述多种神经网络结构中选取出目标神经网络结构,以及,按照所述目标神经网络结构被划分的终端部分和云端部分完成对应部署,其中,所述预设策略包含有基于神经网络结构的总耗时的选取维度。
[0016]第三方面,提出了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
[0017]基于神经网络搜索架构搜索得到目标模型的多种神经网络结构,其中,所述目标模型的神经层的结构参数取值空间作为所述神经网络搜索架构的搜索空间的超参数;
[0018]根据所述多种神经网络结构中每种神经网络结构的神经层的结构参数,确定所述每种神经网络结构的神经层的硬件耗时和传输耗时,其中,所述传输耗时是指终端将神经层的输出结果传输至云端的耗时;
[0019]基于所述每种神经网络结构的神经层的硬件耗时和传输耗时,按照神经网络结构的总耗时最小化原则,将所述每种神经网络结构拆分成由终端运行的终端部分和由云端运行的云端部分,其中,所述总耗时包括:终端部分中神经层的硬件耗时、终端部分中输出结果需要传输至云端的神经层的传输耗时以及云端部分中神经层的硬件耗时;
[0020]基于预设策略从所述多种神经网络结构中选取出目标神经网络结构,以及,按照所述目标神经网络结构被划分的终端部分和云端部分完成对应部署,其中,所述预设策略包含有基于神经网络结构的总耗时的选取维度。
[0021]第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下操作:
[0022]基于神经网络搜索架构搜索得到目标模型的多种神经网络结构,其中,所述目标模型的神经层的结构参数取值空间作为所述神经网络搜索架构的搜索空间的超参数;
[0023]根据所述多种神经网络结构中每种神经网络结构的神经层的结构参数,确定所述每种神经网络结构的神经层的硬件耗时和传输耗时,其中,所述传输耗时是指终端将神经层的输出结果传输至云端的耗时;
[0024]基于所述每种神经网络结构的神经层的硬件耗时和传输耗时,按照神经网络结构的总耗时最小化原则,将所述每种神经网络结构拆分成由终端运行的终端部分和由云端运行的云端部分,其中,所述总耗时包括:终端部分中神经层的硬件耗时、终端部分中输出结果需要传输至云端的神经层的传输耗时以及云端部分中神经层的硬件耗时;
[0025]基于预设策略从所述多种神经网络结构中选取出目标神经网络结构,以及,按照所述目标神经网络结构被划分的终端部分和云端部分完成对应部署,其中,所述预设策略包含有基于神经网络结构的总耗时的选取维度。
[0026]本说明书实施例的方案能够将目标模型的神经层的结构参数取值空间作为神经网络搜索架构的搜索空间的超参数,以基于神经网络搜索架构搜索得到目标模型的多种神经网络结构;之后,根据神经网络结构的神经层的结构参数,确定每种神经网络结构的神经
层的硬件耗时和传输耗时,并按照神经网络结构的总耗时最小化原则,将每种神经网络结构拆分成由终端运行的终端部分和由云端运行的云端部分。其中,总耗时包括终端部分中神经层的硬件耗时、终端部分中输出结果需要传输至云端的神经层的传输耗时以及云端部分中神经层的硬件耗时。接下来,至少根据神经网络结构的总耗时的选取维度,从多种神经网络结构中选取出目标神经网络结构,并按照目标神经网络结构被划分的终端部分和云端部分完成对应部署。基于本说明书实施例的方案,能够以缩短云服务的总耗时为目的,为云服务的目标模型确定一个相对适合的神经网络结构,并将该神经网络结构拆分成终端部分和云端部分进行对应部署,从而使终端也能够承担云服务的一部分计算任务,进而改善云端计算压力过大以及云服务时延过高的问题。
附图说明
[0027]此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云服务的模型部署方法,包括:基于神经网络搜索架构搜索得到目标模型的多种神经网络结构,其中,所述目标模型的神经层的结构参数取值空间作为所述神经网络搜索架构的搜索空间的超参数;根据所述多种神经网络结构中每种神经网络结构的神经层的结构参数,确定所述每种神经网络结构的神经层的硬件耗时和传输耗时,其中,所述传输耗时是指终端将神经层的输出结果传输至云端的耗时;基于所述每种神经网络结构的神经层的硬件耗时和传输耗时,按照神经网络结构的总耗时最小化原则,将所述每种神经网络结构拆分成由终端运行的终端部分和由云端运行的云端部分,其中,所述总耗时包括:终端部分中神经层的硬件耗时、终端部分中输出结果需要传输至云端的神经层的传输耗时以及云端部分中神经层的硬件耗时;基于预设策略从所述多种神经网络结构中选取出目标神经网络结构,以及,按照所述目标神经网络结构被划分的终端部分和云端部分完成对应部署,其中,所述预设策略包含有基于神经网络结构的总耗时的选取维度。2.根据权利要求1所述的方法,所述多种神经网络结构中任意神经网络结构的终端部分和云端部分均由所属神经网络结构中至少一个连续的神经层组成,且该终端部分在所属神经网络结构的计算路径中位于该云端部分之前。3.根据权利要求1所述的方法,将目标模型的神经层的结构参数取值空间作为神经网络搜索架构的搜索空间的超参数,以基于神经网络搜索架构确定所述目标模型的多种神经网络结构,包括:基于目标模型的神经层的结构参数取值空间,创建所述目标模型的超网络,其中,所述超网络包含有所述目标模型在所述结构参数取值空间下可能的神经网络结构;多轮迭代执行:基于神经网络架构的搜索策略从所述超网络中搜索得到目标模型对应的一个神经网络结构;以及,基于搜索得到的神经网络结构的神经层的结构参数确定目标函数的梯度方向,以按照该梯度方向对所述搜索策略进行更新。4.根据权利要求1所述的方法,根据每种神经网络结构的神经层的结构参数,确定每种神经网络结构的神经层的硬件耗时和传输耗时,包括:将每种神经网络结构的神经层的结构参数分别输入至耗时预测模型,得到每种神经网络结构的神经层的硬件耗时和传输耗时,其中,所述耗时预测模型的训练集包含有多种神经网络结构的样本,每种样本提供有所属神经网络结构的结构参数以及所属神经网络结构对应标注的神经层的硬件耗时和传输耗时。5.根据权利要求4所述的方法,所述训练集中的样本是从所述多种神经网络结构中抽样选取得到的,且样本对应标注的神经层的硬件耗时和传输耗时是基于实测所确定得到的。6.根据权利要求3所述的方法,所述预设策略还包含有基于神经网络结构的神经网络性能的选取维度和/或基于神经网络结构的终端算力开销的选取维度。7.根据权利要求1所述的方法,
所述目标模型为深度神经网络模型,所述每种神经网络结构的神经层的结构参数为维度与该神经网络结构中的神经层一一对应的编码向量,且所述编码向量中的维度值是基于对应神经层的神经元数量所确定得到的。8.根据权利要求1所述的方法,所述目标模型用于识别为电子支付业务中的电子支付风险。9.一种云服务的模型部署装置,包括:结构搜索模块,基于神经网络搜索架构搜索得到目标模型的多种神经网络结构,其中,所...

【专利技术属性】
技术研发人员:张长浩申书恒傅欣艺王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1