一种适用于GPT大语言模型的XCache加速推理方法技术

技术编号:42392395 阅读:41 留言:0更新日期:2024-08-16 16:17
本发明专利技术设计AI语言分析技术领域,特别是一种适用于GPT大语言模型的XCache加速推理方法。具体是一种基于频次逐级加大惩罚的GPT文本生成方案。这种方案可以有效的解决大模型出现的反复token片段无效生成问题,同时因为随着频次逐级在惩罚,因而比直接通过惩罚系数要更加温和,也即用户在数据量不是很足情况下,仍然可以使用。

【技术实现步骤摘要】

本专利技术设计ai语言分析,特别是一种适用于gpt大语言模型的xcache加速推理方法。


技术介绍

1、gpt是自然语言处理文本生成领域目前最具有广泛使用价值的一个语言模型,gpt模型的特点是参数量越大,所提供高质量训练数据集越多,模型效果越好,但是推理的速度却逐渐变慢,在gpt模型推理过程中,历史计算过的key值和value值在推理当前token过程中,并不需要每次重新计算,也即可以针对每个子层历史计算过的key值和value值存储起来,在推理当前token过程中,只需要取出已经计算过的内容即可,也即为业界普遍应用的kv cache技术,它是一种通过空间换取时间的方式,实现推理加速,然而当用户生成文本内容较长,gpt模型层数加多,这种方式历史缓存的key值和value值占用计算空间逐渐加大,从而超出内存或显存,对算力资源是一种浪费,本专利在kv cache技术基础上,提出了一种xcache技术,也即通过简单的更改kv cache缓存顺序,只需缓存输入因果多头注意力的输入即可,而不需要缓存key值和value值,即可实现推理加速能力,这种方法比kvcach本文档来自技高网...

【技术保护点】

1.一种适用于GPT大语言模型的XCache加速推理方法,其特征在于:包括如下步骤

2.根据权利要求1所述一种适用于GPT大语言模型的XCache加速推理方法,其特征在于:

【技术特征摘要】

1.一种适用于gpt大语言模型的xcache加速推理方法,其特征在于:包括如下步骤

<...

【专利技术属性】
技术研发人员:曹肖攀张喜强魏帮财张峻崎花榕励吴磊祁宝莲赵长海贾晓婷
申请(专利权)人:中电万维信息技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1