【技术实现步骤摘要】
本公开涉及人工智能,尤其涉及一种针对大语言模型的动态猜测解码方法、装置、设备及介质。
技术介绍
1、目前,大语言模型(large language model,llm)在推理过程中通常采用自回归解码(autoregressive decoding)的方式,即按顺序依次生成每个词块(token,又称为词元),且每一步仅完成1个token的解码。因此,为了计算和生成仅仅1个token,自回归解码过程需要将整个llm的权重都加载到gpu(graphic processing unit,图形处理单元)的计算单元中去,这就导致了推理过程中非常大的访存开销和极不均衡的计算-访存比,从而导致gpu利用率非常低下。而猜测解码正是一种缓解上述问题,提升gpu的计算利用率,来加速llm的推理过程的方法。
2、猜测解码是指在解码过程中引入“猜测”这一步骤。具体来说,猜测解码可以大致分为两个阶段:猜测阶段和验证阶段。在猜测阶段,对于当前的输入文本,猜测解码方法首先利用一个“便宜”的草稿模型(draft model)生成连续的若干个草稿词块(draf
...【技术保护点】
1.一种针对大语言模型的动态猜测解码方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述输入文本,确定每个模型子结构的加速比,包括:
3.根据权利要求2所述的方法,其特征在于,所述加速比预测器包括:结构编码器、文本编码器以及预测器头;
4.根据权利要求2或3所述的方法,其特征在于,所述加速比预测器的训练过程包括:
5.根据权利要求3所述的方法,其特征在于,所述结构编码器与所述预测器头使用多层感知机模型,所述文本编码器使用对比语言图像预训练模型。
6.根据权利要求1至3任一项所述的方
...【技术特征摘要】
1.一种针对大语言模型的动态猜测解码方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述输入文本,确定每个模型子结构的加速比,包括:
3.根据权利要求2所述的方法,其特征在于,所述加速比预测器包括:结构编码器、文本编码器以及预测器头;
4.根据权利要求2或3所述的方法,其特征在于,所述加速比预测器的训练过程包括:
5.根据权利要求3所述的方法,其特征在于,所述结构编码器与所述预测器头使用多层感知机模型,所述文本编码器使用对比语言图像预训练模型。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述大语言模型具有多层,每...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。