模型推理的资源分配方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：24497313 阅读：48 留言：0更新日期：2020-06-13 03:33

本申请涉及一种模型推理的资源分配方法、装置、计算机设备和存储介质。所述方法包括：获取加速板卡的数量，各个加速板卡上搭载有多个加速芯片；获取待分配深度模型和待分配深度模型的各个计算层的时间开销；根据各个计算层的时间开销，确定待分配深度模型拆分成多个目标子模型的模型拆分策略，每个加速板卡对应一个目标子模型；根据各个计算层的时间开销，确定各个加速板卡的目标子模型拆分成与对应的各个加速板卡上的芯片相同数量的目标子单元的子模型拆分策略，每个加速芯片对应一个目标子单元。按照时间开销对自动拆解模型，按照拆解后的模型部署模型，采用部署的模型进行模型推理，可以加快模型的推理速度。

Resource allocation method, device, computer equipment and storage medium of model reasoning

全部详细技术资料下载

【技术实现步骤摘要】
模型推理的资源分配方法、装置、计算机设备和存储介质
本申请涉及计算机
，尤其涉及一种模型推理的资源分配方法、装置、计算机设备和存储介质。
技术介绍
当前传统GPU是主流的深度学习推理平台，但其存在高成本及高功耗等缺点，AI专用硬件加速芯片的出现一定程度上弥补了不足，在很多应用场合显示了巨大的竞争优势。目前主流的AI专用推理芯片(如Intel的MovidiusMyriadX系列VPU等)由于目标应用场景定位及自身架构等原因，存在支持模型尺寸受限的问题。通常服务器端会部署多张加速板卡，每张加速板卡包含多个加速芯片，以支持大规模AI模型推理。因此部署大规模AI模型时对需要原模型进行拆分并分配至各加速板卡/芯片资源。由于大规模AI模型计算层数繁多(至少1000层以上)，如何分配到各计算资源、以及如何合并计算结果都需要准确考量。如果模型拆分不当或者算力分配不均，将导致整体模型加速效果不佳，甚至模型加载失败的问题。
技术实现思路
为了解决上述技术问题，本申请提供了一种模型推理的资源分配方法、装置、计算机设备和存储介质。第一方面，本申请提供了一种模型推理的资源分配方法，包括：获取加速板卡的数量，各个加速板卡上搭载有多个加速芯片；获取待分配深度模型和待分配深度模型的各个计算层的时间开销；根据各个计算层的时间开销，确定待分配深度模型拆分成多个目标子模型的模型拆分策略，每个加速板卡对应一个目标子模型，每个目标子模型的时间开销位于第一预设开销区间内；根据各个...

【技术保护点】
1.一种模型推理的资源分配方法，其特征在于，所述方法包括：/n获取加速板卡的数量，各个所述加速板卡上搭载有多个加速芯片；/n获取待分配深度模型和所述待分配深度模型的各个计算层的时间开销；/n根据各个所述计算层的时间开销，确定所述待分配深度模型拆分成多个目标子模型的模型拆分策略，每个所述加速板卡对应一个所述目标子模型，每个所述目标子模型的时间开销位于第一预设开销区间内；/n根据各个所述计算层的时间开销，确定各个所述加速板卡的目标子模型拆分成与对应的各个所述加速板卡上的芯片相同数量的目标子单元的子模型拆分策略，每个所述加速芯片对应一个所述目标子单元，每个所述目标子单元的时间开销位于第二预设开销区间内。/n

【技术特征摘要】
1.一种模型推理的资源分配方法，其特征在于，所述方法包括：
获取加速板卡的数量，各个所述加速板卡上搭载有多个加速芯片；
获取待分配深度模型和所述待分配深度模型的各个计算层的时间开销；
根据各个所述计算层的时间开销，确定所述待分配深度模型拆分成多个目标子模型的模型拆分策略，每个所述加速板卡对应一个所述目标子模型，每个所述目标子模型的时间开销位于第一预设开销区间内；
根据各个所述计算层的时间开销，确定各个所述加速板卡的目标子模型拆分成与对应的各个所述加速板卡上的芯片相同数量的目标子单元的子模型拆分策略，每个所述加速芯片对应一个所述目标子单元，每个所述目标子单元的时间开销位于第二预设开销区间内。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取每个所述加速板卡的资源和对应的所述目标子模型的需求计算资源；
根据每个所述加速板卡的资源和对应的所述目标子模型的需求资源，确定各个所述目标子模型进行拆分和/或合并的模型调整策略，以使按照拆分和/或合并后得到的每个所述加速板卡的目标子模型的资源开销小于或等于对应的所述加速板卡的资源上限。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
获取每个所述加速板卡的传输开销和对应的所述目标子模型的传输开销；
根据每个所述加速板卡的传输开销和对应的所述目标子模型的传输开销，确定各个所述目标子模型进行拆分和/或合并的模型调整策略，以使执行拆分和/或合并后得到的每个所述加速板卡的目标子模型时所需的传输开销小于或等于对应的所述加速板卡的预设传输开销上限。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：
获取每个所述加速板卡的资源和对应的所述目标子模型的需求资源；
根据每个所述加速板卡上的芯片的资源和对应的所述目标子单元的需求资源，确定对各个所述目标子单元进行拆分和/或合并的单元调整策略，以使拆分和/或合并后得到的每个所述加速板卡的芯片的目标子单元的资源小于或等于对应的所述加速板卡的芯片的资源上限。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：
获取每个所述加速板卡的芯片的传输开销和对应的所述目标子单元的传输开销；
根据每个所述加速板卡的芯片的传输开销和对应的所述目标子单元的传输开销，确定各个所述目标子单元进行拆分和/或合并的单元调整策略，以使每个所述加速板卡的芯片的传输开销小于或等于对应的所述目标子单元的传输开销。

6.根据权利要求2或3所述的方法，其特征在于，所述模型调整策略，包括：
判断当前板卡对应的模型的资源或传输开销是否符合所述当前板卡的资源或传输开销；
当所述当前板卡对应的模型的资源或传输开销不符合所述当前板卡的资源或传输开销时，将所述当前板卡对应的模型进行拆分，得到第一子模型和第二子模型，以使所述第一子模型符...

【专利技术属性】
技术研发人员：陈可，董峰，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人