【技术实现步骤摘要】
本专利技术设计ai语言分析,特别是一种适用于gpt大语言模型的xcache加速推理方法。
技术介绍
1、gpt是自然语言处理文本生成领域目前最具有广泛使用价值的一个语言模型,gpt模型的特点是参数量越大,所提供高质量训练数据集越多,模型效果越好,但是推理的速度却逐渐变慢,在gpt模型推理过程中,历史计算过的key值和value值在推理当前token过程中,并不需要每次重新计算,也即可以针对每个子层历史计算过的key值和value值存储起来,在推理当前token过程中,只需要取出已经计算过的内容即可,也即为业界普遍应用的kv cache技术,它是一种通过空间换取时间的方式,实现推理加速,然而当用户生成文本内容较长,gpt模型层数加多,这种方式历史缓存的key值和value值占用计算空间逐渐加大,从而超出内存或显存,对算力资源是一种浪费,本专利在kv cache技术基础上,提出了一种xcache技术,也即通过简单的更改kv cache缓存顺序,只需缓存输入因果多头注意力的输入即可,而不需要缓存key值和value值,即可实现推理加速能力,这
...【技术保护点】
1.一种适用于GPT大语言模型的XCache加速推理方法,其特征在于:包括如下步骤
2.根据权利要求1所述一种适用于GPT大语言模型的XCache加速推理方法,其特征在于:
【技术特征摘要】
1.一种适用于gpt大语言模型的xcache加速推理方法,其特征在于:包括如下步骤
<...【专利技术属性】
技术研发人员:曹肖攀,张喜强,魏帮财,张峻崎,花榕励,吴磊,祁宝莲,赵长海,贾晓婷,
申请(专利权)人:中电万维信息技术有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。