一种显存管理方法、装置、设备及存储介质制造方法及图纸

技术编号：43764117 阅读：25 留言：0更新日期：2024-12-24 16:06

本发明专利技术公开了一种显存管理方法、装置、设备及存储介质，涉及内存管理技术领域，包括：通过预设记录函数统计目标预训练模型在模型推理过程中的若干显存申请，以确定最大显存消耗量；基于最大显存消耗量确定目标预训练模型的可用显存，并确定显存需求不大于预设显存请求阈值的若干第一显存申请以及显存需求大于预设显存请求阈值的若干第二显存申请，并通过预设显存区间确定若干第一显存申请对应的若干第一显存分配空间以及若干第二显存申请对应的若干第二显存分配空间。由此，可以减少内存的频繁申请和释放，避免产生内存碎片，提升推理性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及内存管理，特别涉及一种显存管理方法、装置、设备及存储介质。

技术介绍

1、随着科技的发展，预训练模型被广泛的运用在各行各业之中，例如vllm、tensorrt-llm等，其中vllm以pagedattention技术、连续批处理等而受到广泛使用。当前vllm模型除了预先分配kv cache对其它算子的输入输出管理依赖于pytorch框架，它沿用pytorch的内存管理方案，pytorch的内存管理会根据所需的内存分配一块大的内存，然后将这块大的内存切块返回所需的部分，当后续需求新的内存时会从当前剩余的部分查找，如果有合适大小的内存就返回，否则就开辟新的内存块，如此反复。

2、但现有技术分配大内存块不容易控制大小，分配过大，容易产生很多内存碎片，影响计算利用率，分配过小，则需要进行频繁的内存申请，对性能影响较大。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种显存管理方法、装置、设备及存储介质，可以尽可能减少内存的频繁申请和释放，避免产生内存碎片，提升推理...

【技术保护点】

1.一种显存管理方法，其特征在于，包括：

2.根据权利要求1所述的显存管理方法，其特征在于，所述通过预设记录函数统计目标预训练模型在模型推理过程中的若干显存申请，并根据所述若干显存申请确定最大显存消耗量，包括：

3.根据权利要求2所述的显存管理方法，其特征在于，所述基于所述最大显存消耗量确定所述目标预训练模型对应的可用显存，并根据预设显存请求阈值对所述若干显存申请进行区分，以得到显存需求不大于所述预设显存请求阈值的若干第一显存申请以及显存需求大于所述预设显存请求阈值的若干第二显存申请，包括：

4.根据权利要求1所述的显存管理方法，其特征在于，所述将所述...

【技术特征摘要】

1.一种显存管理方法，其特征在于，包括：

4.根据权利要求1所述的显存管理方法，其特征在于，所述将所述若干第一显存申请对应的若干第一显存需求与预设显存区间进行匹配，以确定所述若干第一显存需求对应的若干第一目标显存区间，并基于所述若干第一目标显存区间对应的区间最大值从所述可用显存中为所述若干第一显存申请匹配对应的若干第一显存分配空间，包括：

5.根据权利要求1所述的显存管理方法，其特征在于，所述确定所述若干第二显存申请对...

【专利技术属性】
技术研发人员：何也，
申请(专利权)人：苏州元脑智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人