模型推理的资源分配方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24497313 阅读:48 留言:0更新日期:2020-06-13 03:33
本申请涉及一种模型推理的资源分配方法、装置、计算机设备和存储介质。所述方法包括:获取加速板卡的数量,各个加速板卡上搭载有多个加速芯片;获取待分配深度模型和待分配深度模型的各个计算层的时间开销;根据各个计算层的时间开销,确定待分配深度模型拆分成多个目标子模型的模型拆分策略,每个加速板卡对应一个目标子模型;根据各个计算层的时间开销,确定各个加速板卡的目标子模型拆分成与对应的各个加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个加速芯片对应一个目标子单元。按照时间开销对自动拆解模型,按照拆解后的模型部署模型,采用部署的模型进行模型推理,可以加快模型的推理速度。

Resource allocation method, device, computer equipment and storage medium of model reasoning

【技术实现步骤摘要】
模型推理的资源分配方法、装置、计算机设备和存储介质
本申请涉及计算机
,尤其涉及一种模型推理的资源分配方法、装置、计算机设备和存储介质。
技术介绍
当前传统GPU是主流的深度学习推理平台,但其存在高成本及高功耗等缺点,AI专用硬件加速芯片的出现一定程度上弥补了不足,在很多应用场合显示了巨大的竞争优势。目前主流的AI专用推理芯片(如Intel的MovidiusMyriadX系列VPU等)由于目标应用场景定位及自身架构等原因,存在支持模型尺寸受限的问题。通常服务器端会部署多张加速板卡,每张加速板卡包含多个加速芯片,以支持大规模AI模型推理。因此部署大规模AI模型时对需要原模型进行拆分并分配至各加速板卡/芯片资源。由于大规模AI模型计算层数繁多(至少1000层以上),如何分配到各计算资源、以及如何合并计算结果都需要准确考量。如果模型拆分不当或者算力分配不均,将导致整体模型加速效果不佳,甚至模型加载失败的问题。
技术实现思路
为了解决上述技术问题,本申请提供了一种模型推理的资源分配方法、装置、计算机设备和存储介质。第一方面,本申请提供了一种模型推理的资源分配方法,包括:获取加速板卡的数量,各个加速板卡上搭载有多个加速芯片;获取待分配深度模型和待分配深度模型的各个计算层的时间开销;根据各个计算层的时间开销,确定待分配深度模型拆分成多个目标子模型的模型拆分策略,每个加速板卡对应一个目标子模型,每个目标子模型的时间开销位于第一预设开销区间内;根据各个计算层的时间开销,确定各个加速板卡的目标子模型拆分成与对应的各个加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个加速芯片对应一个目标子单元,每个目标子单元的时间开销位于第二预设开销区间内。第二方面,本申请提供了一种模型推理的资源分配装置,包括:数据获取模块,用于获取加速板卡的数量,各个加速板卡上搭载有多个加速芯片,获取待分配深度模型和待分配深度模型的各个计算层的时间开销;板卡分配模块,根据各个计算层的时间开销,确定待分配深度模型拆分成多个目标子模型的模型拆分策略,每个加速板卡对应一个目标子模型,每个目标子模型的时间开销位于第一预设开销区间内;芯片分配模块,用于根据各个计算层的时间开销,确定各个加速板卡的目标子模型拆分成与对应的各个加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个加速芯片对应一个目标子单元,每个目标子单元的时间开销位于第二预设开销区间内。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取加速板卡的数量,各个加速板卡上搭载有多个加速芯片;获取待分配深度模型和待分配深度模型的各个计算层的时间开销;根据各个计算层的时间开销,确定待分配深度模型拆分成多个目标子模型的模型拆分策略,每个加速板卡对应一个目标子模型,每个目标子模型的时间开销位于第一预设开销区间内;根据各个计算层的时间开销,确定各个加速板卡的目标子模型拆分成与对应的各个加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个加速芯片对应一个目标子单元,每个目标子单元的时间开销位于第二预设开销区间内。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取加速板卡的数量,各个加速板卡上搭载有多个加速芯片;获取待分配深度模型和待分配深度模型的各个计算层的时间开销;根据各个计算层的时间开销,确定待分配深度模型拆分成多个目标子模型的模型拆分策略,每个加速板卡对应一个目标子模型,每个目标子模型的时间开销位于第一预设开销区间内;根据各个计算层的时间开销,确定各个加速板卡的目标子模型拆分成与对应的各个加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个加速芯片对应一个目标子单元,每个目标子单元的时间开销位于第二预设开销区间内。上述模型推理的资源分配方法、装置、计算机设备和存储介质,所述方法包括:获取加速板卡的数量,各个加速板卡上搭载有多个加速芯片;获取待分配深度模型和待分配深度模型的各个计算层的时间开销;根据各个计算层的时间开销,确定待分配深度模型拆分成多个目标子模型的模型拆分策略,每个加速板卡对应一个目标子模型,每个目标子模型的时间开销位于第一预设开销区间内;根据各个计算层的时间开销,确定各个加速板卡的目标子模型拆分成与对应的各个加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个加速芯片对应一个目标子单元,每个目标子单元的时间开销位于第二预设开销区间内。根据模型参数和加速板卡参数等自动拆解模型,按照拆解后的模型部署模型,可以加快模型的推理速度。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为一个实施例中模型推理的资源分配方法的应用环境图;图2为一个实施例中模型推理的资源分配方法的流程示意图;图3为一个实施例中加速板卡和加速芯片的硬件部署示意图;图4为一个具体的实施例中分配模型的方法的流程示意图;图5为一个实施例中模型推理的资源分配装置的结构框图;图6为一个实施例中计算机设备的内部结构图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为一个实施例中模型推理的资源分配方法的应用环境图。参照图1,该模型推理的资源分配方法应用于模型推理的资源分配系统。该模型推理的资源分配系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110或服务器120获取加速板卡的数量,各个加速板卡上搭载有多个加速芯片;获取待分配深度模型和待分配深度模型的各个计算层的时间开销;根据各个计算层的时间开销,确定待分配深度模型拆分成多个目标子模型的模型拆分策略,每个加速板卡对应一个目标子模型,每个目标子模型的时间开销位于第一预设开销区间内;根据各个计算层的时间开销,确定各个加速板卡的目标子模型拆分成与对应的各个加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个加速芯片对应一个目标子单元,每个目标子单元的时间开销位于第二预设开销区间内。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用本文档来自技高网...

【技术保护点】
1.一种模型推理的资源分配方法,其特征在于,所述方法包括:/n获取加速板卡的数量,各个所述加速板卡上搭载有多个加速芯片;/n获取待分配深度模型和所述待分配深度模型的各个计算层的时间开销;/n根据各个所述计算层的时间开销,确定所述待分配深度模型拆分成多个目标子模型的模型拆分策略,每个所述加速板卡对应一个所述目标子模型,每个所述目标子模型的时间开销位于第一预设开销区间内;/n根据各个所述计算层的时间开销,确定各个所述加速板卡的目标子模型拆分成与对应的各个所述加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个所述加速芯片对应一个所述目标子单元,每个所述目标子单元的时间开销位于第二预设开销区间内。/n

【技术特征摘要】
1.一种模型推理的资源分配方法,其特征在于,所述方法包括:
获取加速板卡的数量,各个所述加速板卡上搭载有多个加速芯片;
获取待分配深度模型和所述待分配深度模型的各个计算层的时间开销;
根据各个所述计算层的时间开销,确定所述待分配深度模型拆分成多个目标子模型的模型拆分策略,每个所述加速板卡对应一个所述目标子模型,每个所述目标子模型的时间开销位于第一预设开销区间内;
根据各个所述计算层的时间开销,确定各个所述加速板卡的目标子模型拆分成与对应的各个所述加速板卡上的芯片相同数量的目标子单元的子模型拆分策略,每个所述加速芯片对应一个所述目标子单元,每个所述目标子单元的时间开销位于第二预设开销区间内。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取每个所述加速板卡的资源和对应的所述目标子模型的需求计算资源;
根据每个所述加速板卡的资源和对应的所述目标子模型的需求资源,确定各个所述目标子模型进行拆分和/或合并的模型调整策略,以使按照拆分和/或合并后得到的每个所述加速板卡的目标子模型的资源开销小于或等于对应的所述加速板卡的资源上限。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取每个所述加速板卡的传输开销和对应的所述目标子模型的传输开销;
根据每个所述加速板卡的传输开销和对应的所述目标子模型的传输开销,确定各个所述目标子模型进行拆分和/或合并的模型调整策略,以使执行拆分和/或合并后得到的每个所述加速板卡的目标子模型时所需的传输开销小于或等于对应的所述加速板卡的预设传输开销上限。


4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
获取每个所述加速板卡的资源和对应的所述目标子模型的需求资源;
根据每个所述加速板卡上的芯片的资源和对应的所述目标子单元的需求资源,确定对各个所述目标子单元进行拆分和/或合并的单元调整策略,以使拆分和/或合并后得到的每个所述加速板卡的芯片的目标子单元的资源小于或等于对应的所述加速板卡的芯片的资源上限。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取每个所述加速板卡的芯片的传输开销和对应的所述目标子单元的传输开销;
根据每个所述加速板卡的芯片的传输开销和对应的所述目标子单元的传输开销,确定各个所述目标子单元进行拆分和/或合并的单元调整策略,以使每个所述加速板卡的芯片的传输开销小于或等于对应的所述目标子单元的传输开销。


6.根据权利要求2或3所述的方法,其特征在于,所述模型调整策略,包括:
判断当前板卡对应的模型的资源或传输开销是否符合所述当前板卡的资源或传输开销;
当所述当前板卡对应的模型的资源或传输开销不符合所述当前板卡的资源或传输开销时,将所述当前板卡对应的模型进行拆分,得到第一子模型和第二子模型,以使所述第一子模型符...

【专利技术属性】
技术研发人员:陈可董峰
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1