【技术实现步骤摘要】
本专利技术涉及模型推理,尤其涉及一种用于模型推理的空间分配方法、装置、设备和介质。
技术介绍
1、大语言模型包含了大量的前馈神经网络(feedforward neural network,ffn)运算及attention运算,需要消耗大量的计算资源,同时也需要存储巨大的权重矩阵和序列推理产生的推理数据。
2、目前,多通过缓存(如kv cache)存储推理数据,但随着序列的增长,所需存储的推理数据增加,进而导致kv cache的体积也越来越大,甚至kv cache的体积会远大于模型权重本身,成为占据计算卡存储中的主要部分。
3、并行任务数量(如batch size)的设置会受到序列长度的影响,序列长度越长,其推理数据所占用kv cache的体积越大,进而在给定硬件资源和模型权重大小的情况下,batch size越小,也就是batch size和序列长度成反比。当需要实现超长序列的模型推理时,往往batch size只能取较小的值,使得计算效率降低,并且很多序列的实际推理结束长度远小于设置的最大推理长度,造成了预留空
<本文档来自技高网...【技术保护点】
1.一种用于模型推理的空间分配方法,其特征在于,包括:
2.根据权利要求1所述的用于模型推理的空间分配方法,其特征在于,所述释放所述第一序列集合对应的缓存空间,并采用释放的缓存空间存储所述第二序列集合对应的推理数据,包括:
3.根据权利要求2所述的用于模型推理的空间分配方法,其特征在于,所述基于所述第一序列集合的序列数量以及所述第二序列集合的序列数量,从所述第二序列集合中确定第一子序列集合,包括:
4.根据权利要求3所述的用于模型推理的空间分配方法,其特征在于,所述基于所述序列数量差,以及所述并行任务数量,从所述第二序列集合中确定所
...【技术特征摘要】
1.一种用于模型推理的空间分配方法,其特征在于,包括:
2.根据权利要求1所述的用于模型推理的空间分配方法,其特征在于,所述释放所述第一序列集合对应的缓存空间,并采用释放的缓存空间存储所述第二序列集合对应的推理数据,包括:
3.根据权利要求2所述的用于模型推理的空间分配方法,其特征在于,所述基于所述第一序列集合的序列数量以及所述第二序列集合的序列数量,从所述第二序列集合中确定第一子序列集合,包括:
4.根据权利要求3所述的用于模型推理的空间分配方法,其特征在于,所述基于所述序列数量差,以及所述并行任务数量,从所述第二序列集合中确定所述第一子序列集合,包括:
5.根据权利要求2所述的用于模型推理的空间分配方法,其特征在于,所述方法还包括:
6....
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。