用于推理时权重更新的实现装置及方法制造方法及图纸

技术编号：43385452 阅读：25 留言：0更新日期：2024-11-19 18:00

本发明专利技术涉及大模型推理技术领域，提供一种推理时权重更新的实现装置及方法，该装置包括：推理设备和权重更新设备；推理设备用于依次推理多个推理对象集合，且在推理出当前推理对象集合后，将当前推理对象集合发送至权重更新设备；权重更新设备用于基于当前推理对象集合，执行当前次权重更新，得到当前次权重更新后的权重，并将当前次权重更新后的权重发送至推理设备，权重更新设备中当前次权重更新与推理设备中下一次推理并行执行；推理设备至少基于下一次权重更新后的权重，推理下下一个推理对象集合。本发明专利技术中，推理任务和权重更新任务在不同设备上并行执行，执行权重更新任务时，不会暂停推理任务，缩短了推理时间，提升了模型推理速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大模型推理，尤其涉及一种用于推理时权重更新的实现装置及方法。

技术介绍

1、目前，在transformer类大模型结构中，注意力模块（attention）是主要的计算模块之一，它允许模型在基于序列数据进行推理时，根据每个位置的上下文信息动态地更新权重。在推理和权重更新的过程中，每生成一个推理对象（token），需要存储该token的键值信息（kv信息），用于后续推理，attention计算时需要读取键值缓存（kvcache）中所有的键值信息进行计算，当推理长度较长时，kvcache中会存储较长的历史信息，attention的速度较慢。为了加速计算，现有的一些推理方法中，推理出当前一组token后，基于当前token生成前后的状态信息直接更新权重，权重更新后再进行下一次推理，这样不需要保存键值信息。但在更新权重时，无法进行推理，即需要暂停推理，导致模型推理速度较慢。

技术实现思路

1、本专利技术提供一种用于推理时权重更新的实现装置及方法，用以解决相关技术中模型推理和权重更新无...

【技术保护点】

1.一种推理时权重更新的实现装置，其特征在于，包括：推理设备和权重更新设备；

2.根据权利要求1所述的推理时权重更新的实现装置，其特征在于，所述推理设备还用于在推理出当前推理对象集合后，保存所述当前推理对象集合中各推理对象的键值信息，至少基于所述当前推理对象集合中各推理对象的键值信息，推理下一个推理对象集合。

3.根据权利要求2所述的推理时权重更新的实现装置，其特征在于，在第一次推理的情况下，所述推理设备用于执行第一次推理，生成第一个推理对象集合；

4.根据权利要求2所述的推理时权重更新的实现装置，其特征在于，所述推理设备用于在当前次推理出所述当前推理...

【技术特征摘要】

1.一种推理时权重更新的实现装置，其特征在于，包括：推理设备和权重更新设备；

4.根据权利要求2所述的推理时权重更新的实现装置，其特征在于，所述推理设备用于在当前次推理出所述当前推理对象集合后，以所述当前推理对象集合中各推理对象的键值信息替换之前保存的上一个推理对象集合中各推理对象的键值信息。

5.根据权利要求1所述的推理时权重更新的实现装置，其特征在于，所述每个推理对象集合中推理对象个数相等。

6.根据权利要求1至5中任...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，请求不公布姓名，请求不公布姓名，
申请(专利权)人：上海壁仞科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人