模型运行方法、装置、设备以及存储介质制造方法及图纸

技术编号：41789186 阅读：15 留言：0更新日期：2024-06-24 20:16

本申请公开了一种模型运行方法、装置、设备以及存储介质，该模型运行方法包括：获取初始任务流，初始任务流包括至少两个初始模型以及用于连接两初始模型的数据队列；根据各初始模型的模型运行耗时以及各初始模型在初始任务流中的任务节点位置，从各初始模型中选取待分割模型；对待分割模型进行模型分割处理，得到目标任务流，目标任务流中包括待分割模型分割后的子模型和/或初始任务流中除待分割模型外的剩余初始模型以及连接各模型的数据队列；基于目标任务流进行模型运行处理。上述方案，能够应用于包括大模型的多模型任务流中，通过模型拆分以充分利用硬件资源并提升模型运行的并行度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及深度学习，特别是涉及一种模型运行方法、装置、设备以及存储介质。

技术介绍

1、近年来，深度学习神经网络模型在自然语言处理、计算机视觉等领域得到了广泛的应用。随着transformer架构的提出及chatgpt的火热，深度学习领域的模型越来越大，如bert、gpt-3、llama等模型，其模型参数已经达到了十亿以上。

2、这些模型功能强大，但是在一些需求更复杂的智能化场景中，往往需要多模型协作来完成。同时由于大模型的出现，多模型之间的耗时差异会非常大，模型并行运行难度加大，从而导致硬件资源利用率降低。

3、因此，如何在包含大模型的多模型协作场景中充分利用硬件资源高效地运行模型已成为一个亟待解决的问题。

技术实现思路

1、本申请至少提供一种模型运行方法、装置、设备以及计算机可读存储介质。

2、本申请第一方面提供了一种模型运行方法，包括：获取初始任务流，所述初始任务流包括至少两个初始模型以及用于连接两初始模型的数据队列；根据各初始模型的模型运行耗时以...

【技术保护点】

1.一种模型运行方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标任务流进行模型运行处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标模型的数据队列中的各数据槽位分别分配显存资源和内存资源，包括：

4.根据权利要求2所述的方法，其特征在于，在所述对所述目标模型的数据队列中的各数据槽位分别分配显存资源和内存资源之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，在所述将所述前序模型的输出数据存放至所述显存槽位之后，所述方法还包括：

6.根据权利要求1所述的...

【技术特征摘要】

1.一种模型运行方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标任务流进行模型运行处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标模型的数据队列中的各数据槽位分别分配显存资源和内存资源，包括：

4.根据权利要求2所述的方法，其特征在于，在所述对所述目标模型的数据队列中的各数据槽位分别分配显存资源和内存资源之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，在所述将所述前序模型的输出数据存放至所述显存槽位之后，所述方法还包括：

6.根据权利要求1所述...

【专利技术属性】
技术研发人员：张海玉，孙伶君，陈波扬，林超，魏程峰，姜晓卫，张磊，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人