基于大语言模型投机采样推理的加速器硬件及加速方法技术

技术编号：41158791 阅读：6 留言：0更新日期：2024-04-30 18:22

本发明专利技术公布了一种基于大语言模型投机采样推理的加速器硬件及加速方法，基于DRAM‑PIM存内计算架构的投机采样推理算法，设计并使用设计空间探索方法，为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例；根据最优投机采样推理软硬件协同设计，得到基于DRAM‑PIM投机采样大语言模型推理的加速器硬件；并使用文本生成加速方法执行投机采样推理。设计得到的基于投机采样推理的加速器硬件包括一个中央宿主处理器与多个DRAM‑PIM模块。使用本发明专利技术可实现高效的文本生成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及投机采样推理加速硬件设计技术，尤其涉及一种针对投机采样推理的dram-pim加速器硬件系统设计及加速方法。

技术介绍

1、近年来，基于transformer的生成式大语言模型在自然语言处理领域取得了卓越的性能，其在聊天机器人、代码生成、机器翻译、问题推理等多个应用上的优越表现让大语言模型推理成为云服务提供商必备的服务业务。为了提升大语言模型的推理效率与服务质量，投机采样推理算法受到了学术界和工业界的广泛关注。该算法在原有大语言模型的基础上，额外引入了一个或多个参数量规模更小的语言模型。在每轮文本生成的迭代过程中，这些额外引入的模型被称为“草稿模型”，草稿模型根据已有的文本直接生成草稿输出。生成后的草稿文本根据重合关系被组织成树状结构（被称为“令牌树”），然后送入原有的大语言模型（被称为“目标模型”）进行验证。验证后，概率最高的文本作为当前轮次迭代的输出。

2、上述投机采样算法可以显著减少参数量较大的目标模型的调用次数。此外，参数量较小的草稿模型可在相同时间内生成更长的草稿输出，从而增加每轮迭代的输出长度。因此，投机采样算法可以显著提升大语言模型的文本生成性能。然而，现有的加速器系统并不能充分发挥投机采样算法的加速潜能。其主要原因包含以下两方面：（1）投机采样推理中，不同模型的计算模式不同，从而导致对硬件资源的需求产生差异。（2）现有加速器设计使用固定的算子映射策略，并未充分考虑加速器不同组成成分之间的性能差异。

技术实现思路

1、为了克服上述现有技术的不足

2、本专利技术提供的技术方案如下：

3、一种基于dram-pim的投机采样推理加速器硬件系统设计及文本生成加速方法。本专利技术的dram-pim硬件架构包括一个中央宿主处理器与多个pim模块。其中，中央宿主处理器用于提供大量算力，适合执行计算密集型算子；pim模块则可以提供大量内部带宽，适合执行访存密集型算子。本专利技术基于dram-pim的投机采样推理算法，为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例，不同模型之间的加速器架构设计可能不同，同一模型使用的加速器实例使用相同的架构设计。

4、本专利技术提供的加速器系统硬件设计及文本生成加速方法包括以下步骤：

5、1）用户提供投机采样推理所使用的草稿模型和目标模型信息、加速器硬件信息，以及探索参数。

6、2）硬件加速器设计空间探索：本专利技术设计并使用设计空间探索方法，对加速器架构与投机采样推理数据流进行协同探索。该方法包含多次搜索迭代，每次迭代包括以下步骤：

7、2.1）在每次搜索迭代中，首先随机采样一定数量的加速器硬件架构设计。

8、加速器硬件架构设计的内容包括：每个模型使用的加速器的内存种类，pim模块上的计算内存模块数量的组合。

9、2.2）对每种加速器架构设计，随机采样一定数量的投机采样推理数据流。

10、2.3）将采样得到的所有硬件（加速器）架构设计与所有投机采样推理数据流进行组合，得到投机采样推理软硬件协同设计。每个投机采样推理软硬件协同设计包含一个硬件架构设计以及一个基于该设计采样得到的投机采样推理数据流。

11、2.4）算法对所有的软硬件协同设计进行评估，并更新最优投机采样推理软硬件协同设计记录；

12、2.5）如果当前为最后一轮迭代，算法结束，输出当前记录的最优投机采样推理软硬件协同设计。否则，算法返回2.1），开始新一轮迭代。根据最优投机采样推理软硬件协同设计，即得到基于dram-pim投机采样大语言模型推理的加速器硬件。

13、3）设计空间探索结束后，用户基于探索得到的硬件架构设计定制硬件。在定制硬件上，本专利技术使用文本生成加速方法执行投机采样推理。该方法包括以下步骤：

14、3.1）用户提供文本输入以及投机采样推理使用的所有草稿模型与目标模型的权重数据。定制硬件根据设计空间探索得到的投机采样推理数据流加载权重数据到加速器的指定位置。

15、目标模型即采用的大语言模型；目标模型中加入的草稿模型用于根据已有的文本直接生成草稿输出。目标模型根据设计空间探索方法给出的投机采样推理数据流进行草稿文本验证。

16、3.2）所有硬件使用宿主处理器执行神经网络推理以处理文本输入。处理完毕后，用户获得首个文本输出。

17、3.3）得到首个文本输出后，本方法以迭代的方式完成后续文本生成。在每轮迭代中，所有的草稿模型根据设计空间探索方法给出的投机采样推理数据流并行进行草稿文本生成。生成完毕后，所有生成的草稿文本被发送至目标模型（大语言模型）。目标模型根据设计空间探索方法给出的投机采样推理数据流进行草稿文本验证。验证完毕后，被接受的文本作为当前迭代的文本生成输出，并且被传送至所有草稿模型，等待下一轮迭代。

18、3.4）如果当前迭代的输出遇到终止令牌或者用户要求停止输出，文本生成停止，用户获得所需的生成文本输出。否则，本方法跳转至步骤3.2），继续后续迭代。

19、与现有技术相比，本专利技术的有益效果是：

20、本专利技术提供基于dram-pim的投机采样推理加速器硬件设计及文本生成加速方法，具有的技术优势包括：

21、(一)本方法的设计空间探索方法充分考虑投机采样算法内不同的草稿模型和目标模型之间的计算模式差异，可以在文本生成时充分利用硬件性能。

22、(二)本专利技术的设计空间探索方法可以应用于不同场景下基于dram-pim的投机采样推理，可迁移性强。

23、(三)相较已有文本生成方法，本专利技术的文本生成加速方法可以获得推理性能的提升。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，基于动态随机存取存储器-存内计算架构DRAM-PIM的投机采样推理算法，设计并使用设计空间探索方法，为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例；根据最优投机采样推理软硬件协同设计，得到基于DRAM-PIM投机采样大语言模型推理的加速器硬件；包括如下步骤：

2.如权利要求1所述基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，所述模型信息包括：

3.如权利要求1所述基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，所述加速器硬件信息包括：负责每个草稿模型和目标模型执行推理任务的加速器数量；加速器之间的互联拓扑；加速器之间的互联带宽；宿主处理器的算力及内存带宽；每个PIM计算单元的算力及内存带宽；

4.如权利要求1所述基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，Transformer层共包含9个算子，并分为6组；其中，QK算子和SV算子为注意力算子，其余算子为全连接层算子；每个算子组占用所有的PIM模块实例或宿主处理器实例。

5.如权利要求4所述基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，全连接层算子包含矩阵乘法操作；对于全连接层的输入矩阵、权重矩阵以及输出矩阵的三个维度，分别分割为份；其中，代表输入矩阵的行数，代表输入矩阵的行向量长度，代表输出矩阵的行向量长度；设负责执行当前算子的运算单元包括宿主处理器或PIM计算单元的总数为，需满足：。

6.如权利要求5所述基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，注意力算子由个形状相同的矩阵乘法操作即注意力头构成，设每个注意力头内的输入矩阵、键/值缓存矩阵，以及输出矩阵的三个维度为；首先将所有的注意力头分为组，且将负责执行当前算子的运算单元对应分为组；第组运算单元负责执行第组注意力头的运算，；对于每个注意力头，将三个维度分别分割为份；设负责执行当前算子的运算单元总数为，需满足：。

7.如权利要求6所述基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，生成所有可能的算子形状与运算单元数量的组合，并统计每个组合的执行延迟的估算方法为：

8.一种基于投机采样推理加速器硬件设计的文本生成加速方法，其特征在于，利用权利要求1所述基于大语言模型投机采样推理的加速器硬件设计方法设计得到的加速器硬件系统，执行投机采样推理进行文本生成加速；包括以下步骤：

9.一种基于投机采样推理的加速器硬件系统，其特征在于，所述加速器硬件利用权利要求1所述基于大语言模型投机采样推理的加速器硬件设计方法进行设计得到，其特征在于，包括一个中央宿主处理器与多个PIM模块；其中，中央宿主处理器用于提供算力，适于执行计算密集型算子；PIM模块用于提供内部带宽，适合执行访存密集型算子。

10.如权利要求9所述的加速器硬件系统，其特征在于，单个加速器上的多个PIM模块架构相同；每个PIM模块包含基于HBM内存或GDDR内存的多个内存模块；在基于HBM内存的PIM模块中，8个内存模块堆叠在缓存芯片模块上；在基于GDDR内存的PIM模块中，4个内存模块平摊在PIM模块上。

...

【技术特征摘要】

1.一种基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，基于动态随机存取存储器-存内计算架构dram-pim的投机采样推理算法，设计并使用设计空间探索方法，为投机采样推理算法中的所有草稿模型与目标模型分配独立的加速器实例；根据最优投机采样推理软硬件协同设计，得到基于dram-pim投机采样大语言模型推理的加速器硬件；包括如下步骤：

2.如权利要求1所述基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，所述模型信息包括：

3.如权利要求1所述基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，所述加速器硬件信息包括：负责每个草稿模型和目标模型执行推理任务的加速器数量；加速器之间的互联拓扑；加速器之间的互联带宽；宿主处理器的算力及内存带宽；每个pim计算单元的算力及内存带宽；

4.如权利要求1所述基于大语言模型投机采样推理的加速器硬件设计方法，其特征在于，transformer层共包含9个算子，并分为6组；其中，qk算子和sv算子为注意力算子，其余算子为全连接层算子；每个算子组占用所有的pim模块实例或宿主处理器实例。

6.如权利要求5所述基于大语言...

【专利技术属性】
技术研发人员：孙广宇，李聪，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人