【技术实现步骤摘要】
本专利技术涉及大模型推理 ,尤其涉及一种用于推理时权重更新的实现装置及方法。
技术介绍
1、目前,在transformer类大模型结构中,注意力模块(attention)是主要的计算模块之一,它允许模型在基于序列数据进行推理时,根据每个位置的上下文信息动态地更新权重。在推理和权重更新的过程中,每生成一个推理对象(token),需要存储该token的键值信息(kv信息),用于后续推理,attention计算时需要读取键值缓存(kvcache)中所有的键值信息进行计算,当推理长度较长时,kvcache中会存储较长的历史信息,attention的速度较慢。为了加速计算,现有的一些推理方法中,推理出当前一组token后,基于当前token生成前后的状态信息直接更新权重,权重更新后再进行下一次推理,这样不需要保存键值信息。但在更新权重时,无法进行推理,即需要暂停推理,导致模型推理速度较慢。
技术实现思路
1、本专利技术提供一种用于推理时权重更新的实现装置及方法,用以解决相关技术中模型推理和权重更新无
...【技术保护点】
1.一种推理时权重更新的实现装置,其特征在于,包括:推理设备和权重更新设备;
2.根据权利要求1所述的推理时权重更新的实现装置,其特征在于,所述推理设备还用于在推理出当前推理对象集合后,保存所述当前推理对象集合中各推理对象的键值信息,至少基于所述当前推理对象集合中各推理对象的键值信息,推理下一个推理对象集合。
3.根据权利要求2所述的推理时权重更新的实现装置,其特征在于,在第一次推理的情况下,所述推理设备用于执行第一次推理,生成第一个推理对象集合;
4.根据权利要求2所述的推理时权重更新的实现装置,其特征在于,所述推理设备用于在当前
...【技术特征摘要】
1.一种推理时权重更新的实现装置,其特征在于,包括:推理设备和权重更新设备;
2.根据权利要求1所述的推理时权重更新的实现装置,其特征在于,所述推理设备还用于在推理出当前推理对象集合后,保存所述当前推理对象集合中各推理对象的键值信息,至少基于所述当前推理对象集合中各推理对象的键值信息,推理下一个推理对象集合。
3.根据权利要求2所述的推理时权重更新的实现装置,其特征在于,在第一次推理的情况下,所述推理设备用于执行第一次推理,生成第一个推理对象集合;
4.根据权利要求2所述的推理时权重更新的实现装置,其特征在于,所述推理设备用于在当前次推理出所述当前推理对象集合后,以所述当前推理对象集合中各推理对象的键值信息替换之前保存的上一个推理对象集合中各推理对象的键值信息。
5.根据权利要求1所述的推理时权重更新的实现装置,其特征在于,所述每个推理对象集合中推理对象个数相等。
6.根据权利要求1至5中任...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。