【技术实现步骤摘要】
本专利技术涉及内存管理,特别涉及一种显存管理方法、装置、设备及存储介质。
技术介绍
1、随着科技的发展,预训练模型被广泛的运用在各行各业之中,例如vllm、tensorrt-llm等,其中vllm以pagedattention技术、连续批处理等而受到广泛使用。当前vllm模型除了预先分配kv cache对其它算子的输入输出管理依赖于pytorch框架,它沿用pytorch的内存管理方案,pytorch的内存管理会根据所需的内存分配一块大的内存,然后将这块大的内存切块返回所需的部分,当后续需求新的内存时会从当前剩余的部分查找,如果有合适大小的内存就返回,否则就开辟新的内存块,如此反复。
2、但现有技术分配大内存块不容易控制大小,分配过大,容易产生很多内存碎片,影响计算利用率,分配过小,则需要进行频繁的内存申请,对性能影响较大。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种显存管理方法、装置、设备及存储介质,可以尽可能减少内存的频繁申请和释放,避免产生内存碎片,提升推理
...【技术保护点】
1.一种显存管理方法,其特征在于,包括:
2.根据权利要求1所述的显存管理方法,其特征在于,所述通过预设记录函数统计目标预训练模型在模型推理过程中的若干显存申请,并根据所述若干显存申请确定最大显存消耗量,包括:
3.根据权利要求2所述的显存管理方法,其特征在于,所述基于所述最大显存消耗量确定所述目标预训练模型对应的可用显存,并根据预设显存请求阈值对所述若干显存申请进行区分,以得到显存需求不大于所述预设显存请求阈值的若干第一显存申请以及显存需求大于所述预设显存请求阈值的若干第二显存申请,包括:
4.根据权利要求1所述的显存管理方法,其
...【技术特征摘要】
1.一种显存管理方法,其特征在于,包括:
2.根据权利要求1所述的显存管理方法,其特征在于,所述通过预设记录函数统计目标预训练模型在模型推理过程中的若干显存申请,并根据所述若干显存申请确定最大显存消耗量,包括:
3.根据权利要求2所述的显存管理方法,其特征在于,所述基于所述最大显存消耗量确定所述目标预训练模型对应的可用显存,并根据预设显存请求阈值对所述若干显存申请进行区分,以得到显存需求不大于所述预设显存请求阈值的若干第一显存申请以及显存需求大于所述预设显存请求阈值的若干第二显存申请,包括:
4.根据权利要求1所述的显存管理方法,其特征在于,所述将所述若干第一显存申请对应的若干第一显存需求与预设显存区间进行匹配,以确定所述若干第一显存需求对应的若干第一目标显存区间,并基于所述若干第一目标显存区间对应的区间最大值从所述可用显存中为所述若干第一显存申请匹配对应的若干第一显存分配空间,包括:
5.根据权利要求1所述的显存管理方法,其特征在于,所述确定所述若干第二显存申请对...
【专利技术属性】
技术研发人员:何也,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。