当前位置: 首页 > 专利查询>清华大学专利>正文

针对大语言模型的动态猜测解码方法、装置、设备及介质制造方法及图纸

技术编号:41470455 阅读:20 留言:0更新日期:2024-05-30 14:24
本公开涉及人工智能技术领域,尤其涉及针对大语言模型的动态猜测解码方法、装置、设备及介质,该方法包括:响应于获取到待处理的输入文本,从预设结构集中采样不同的多个模型子结构;基于输入文本,确定每个模型子结构的加速比;根据每个模型子结构对应的加速比,从多个模型子结构中选取加速比最大的模型子结构作为输入文本的目标草稿模型;利用目标草稿模型对输入文本进行预测,得到目标草稿模型预测出的草稿词块,并使用大语言模型对草稿词块进行验证,以得到输入文本对应的解码结果。由此,能够为不同的输入文本,使用合适的目标草稿模型进行猜测解码,同时减小额外的计算开销,以提高接收率和加速推理效果,有利于提高猜测解码的效率和性能。

【技术实现步骤摘要】

本公开涉及人工智能,尤其涉及一种针对大语言模型的动态猜测解码方法、装置、设备及介质


技术介绍

1、目前,大语言模型(large language model,llm)在推理过程中通常采用自回归解码(autoregressive decoding)的方式,即按顺序依次生成每个词块(token,又称为词元),且每一步仅完成1个token的解码。因此,为了计算和生成仅仅1个token,自回归解码过程需要将整个llm的权重都加载到gpu(graphic processing unit,图形处理单元)的计算单元中去,这就导致了推理过程中非常大的访存开销和极不均衡的计算-访存比,从而导致gpu利用率非常低下。而猜测解码正是一种缓解上述问题,提升gpu的计算利用率,来加速llm的推理过程的方法。

2、猜测解码是指在解码过程中引入“猜测”这一步骤。具体来说,猜测解码可以大致分为两个阶段:猜测阶段和验证阶段。在猜测阶段,对于当前的输入文本,猜测解码方法首先利用一个“便宜”的草稿模型(draft model)生成连续的若干个草稿词块(draft token),值本文档来自技高网...

【技术保护点】

1.一种针对大语言模型的动态猜测解码方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述输入文本,确定每个模型子结构的加速比,包括:

3.根据权利要求2所述的方法,其特征在于,所述加速比预测器包括:结构编码器、文本编码器以及预测器头;

4.根据权利要求2或3所述的方法,其特征在于,所述加速比预测器的训练过程包括:

5.根据权利要求3所述的方法,其特征在于,所述结构编码器与所述预测器头使用多层感知机模型,所述文本编码器使用对比语言图像预训练模型。

6.根据权利要求1至3任一项所述的方法,其特征在于,所述...

【技术特征摘要】

1.一种针对大语言模型的动态猜测解码方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述输入文本,确定每个模型子结构的加速比,包括:

3.根据权利要求2所述的方法,其特征在于,所述加速比预测器包括:结构编码器、文本编码器以及预测器头;

4.根据权利要求2或3所述的方法,其特征在于,所述加速比预测器的训练过程包括:

5.根据权利要求3所述的方法,其特征在于,所述结构编码器与所述预测器头使用多层感知机模型,所述文本编码器使用对比语言图像预训练模型。

6.根据权利要求1至3任一项所述的方法,其特征在于,所述大语言模型具有多层,每...

【专利技术属性】
技术研发人员:汪玉宁雪妃周紫轩
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1