【技术实现步骤摘要】
本专利技术的实施例总体涉及计算机,并且更具体地涉及用于管理显存的方法、设备和存储介质。
技术介绍
1、大语言模型(llm),一般采用transformer结构,以诸如自回归推理方式进行推理。通常,为了减少推理过程中的重复计算量,可以预先将之前的计算结果(例如,键(key)和值(value)、中间激活值等)存储在缓存中,以减少计算量。然而,在现有技术中,显存中预先配置的诸如用于键值缓存的显存区域、用于激活值缓存的显存区域的大小是固定的,不可动态调整,并且多个显存区域之间分立管理。
2、综上,现有的用于管理显存的方案的不足之处在于:无法协同地调节显存中用于键值缓存的显存区域的大小和用于激活值缓存的显存区域的大小,显存利用率低。
技术实现思路
1、针对上述问题,本专利技术提供了一种用于管理显存的方法和系统,使得协同地调节显存中用于键值缓存的显存区域的大小和用于激活值缓存的显存区域的大小,提高显存利用率和吞吐率。
2、根据本专利技术的第一方面,提供了一种用于管理显存的方法,
...【技术保护点】
1.一种用于管理显存的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,确定关于所述板卡的全局显存区域包括:
3.根据权利要求2所述的方法,其特征在于,所述第一预定尺寸等于所述板卡的总显存大小减去所述权重显存区域的大小和所述备用显存区域的大小。
4.根据权利要求1所述的方法,其特征在于,确定用于键值缓存的第一显存区域包括:
5.根据权利要求1所述的方法,其特征在于,所述第一显存区域具有第一显存类型,所述第二显存区域具有第二显存类型,其中所述第一显存类型和所述第二显存类型不同。
6.一种用于访
...【技术特征摘要】
1.一种用于管理显存的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,确定关于所述板卡的全局显存区域包括:
3.根据权利要求2所述的方法,其特征在于,所述第一预定尺寸等于所述板卡的总显存大小减去所述权重显存区域的大小和所述备用显存区域的大小。
4.根据权利要求1所述的方法,其特征在于,确定用于键值缓存的第一显存区域包括:
5.根据权利要求1所述的方法,其特征在于,所述第一显存区域具有第一显存类型,所述第二显存区域具有第二显存类型,其中所述第一显存类型和所述第二显存类型不同。
6.一种...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。