用于管理显存的方法、设备和存储介质技术

技术编号:44468082 阅读:19 留言:0更新日期:2025-03-04 17:40
本发明专利技术的实施例涉及一种用于管理显存的方法。该方法包括:在板卡处,确定关于板卡的全局显存区域;确定用于键值缓存的第一显存区域,并将第一显存区域分配至全局显存区域的第一端;确定用于激活值缓存的第二显存区域,并将第二显存区域分配至全局显存区域的第二端;基于第一显存区域和第二显存区域,确定全局显存区域中未被占用的空显存区域。通过将第一显存区域和第二显存区域中至少一个的至少部分区域释放至空显存区域,或者将空显存区域中的至少部分区域转换为第一显存区域和第二显存区域中至少一个,使得能够动态地改变第一显存区域和第二显存区域中的至少一个的当前大小,从而实现在全局显存区域中灵活配置第一显存区域和第二显存区域。

【技术实现步骤摘要】

本专利技术的实施例总体涉及计算机,并且更具体地涉及用于管理显存的方法、设备和存储介质


技术介绍

1、大语言模型(llm),一般采用transformer结构,以诸如自回归推理方式进行推理。通常,为了减少推理过程中的重复计算量,可以预先将之前的计算结果(例如,键(key)和值(value)、中间激活值等)存储在缓存中,以减少计算量。然而,在现有技术中,显存中预先配置的诸如用于键值缓存的显存区域、用于激活值缓存的显存区域的大小是固定的,不可动态调整,并且多个显存区域之间分立管理。

2、综上,现有的用于管理显存的方案的不足之处在于:无法协同地调节显存中用于键值缓存的显存区域的大小和用于激活值缓存的显存区域的大小,显存利用率低。


技术实现思路

1、针对上述问题,本专利技术提供了一种用于管理显存的方法和系统,使得协同地调节显存中用于键值缓存的显存区域的大小和用于激活值缓存的显存区域的大小,提高显存利用率和吞吐率。

2、根据本专利技术的第一方面,提供了一种用于管理显存的方法,包括:在板卡处,确定本文档来自技高网...

【技术保护点】

1.一种用于管理显存的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,确定关于所述板卡的全局显存区域包括:

3.根据权利要求2所述的方法,其特征在于,所述第一预定尺寸等于所述板卡的总显存大小减去所述权重显存区域的大小和所述备用显存区域的大小。

4.根据权利要求1所述的方法,其特征在于,确定用于键值缓存的第一显存区域包括:

5.根据权利要求1所述的方法,其特征在于,所述第一显存区域具有第一显存类型,所述第二显存区域具有第二显存类型,其中所述第一显存类型和所述第二显存类型不同。

6.一种用于访问根据权利要求1至5...

【技术特征摘要】

1.一种用于管理显存的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,确定关于所述板卡的全局显存区域包括:

3.根据权利要求2所述的方法,其特征在于,所述第一预定尺寸等于所述板卡的总显存大小减去所述权重显存区域的大小和所述备用显存区域的大小。

4.根据权利要求1所述的方法,其特征在于,确定用于键值缓存的第一显存区域包括:

5.根据权利要求1所述的方法,其特征在于,所述第一显存区域具有第一显存类型,所述第二显存区域具有第二显存类型,其中所述第一显存类型和所述第二显存类型不同。

6.一种...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:上海壁仞科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1