一种基于混合神经网络结构的大语言模型的推理加速方法技术

技术编号：40829462 阅读：6 留言：0更新日期：2024-04-01 14:51

本发明专利技术涉及大语言模型技术领域，尤其涉及一种基于混合神经网络结构的大语言模型的推理加速方法，包括以下步骤：S1：对采集数据通过数据预处理得到预处理数据，对预处理数据进行数据处理以生成处理数据；S2：打包处理数据的训练部分的输入向量输入到保留网络进行训练得到预训练模型，保留网络包括并行保留网络、循环保留网络；S3：将处理数据的测试部分的输入向量输入预训练模型得到对话结果，预训练模型即自适应多尺度保留网络。本发明专利技术通过在残差连接中引入可学习的缩放因子，模型可自适应不同序列长度,引入自适应衰减率和可学习的残差连接缩放因子，使模型更精准地处理多尺度序列依赖，同时增强了对长短序列的适应性和深层网络的训练稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大语言模型，尤其涉及一种基于混合神经网络结构的大语言模型的推理加速方法。

技术介绍

1、大模型的发展带来了新的机遇和挑战。随着数字化转型需求增长，人工智能在企业中的应用越来越多，人工智能进入大规模落地应用关键期。大模型未来发展趋势将持续快速发展，带来重大模式创新和产业变革，比如改变信息分发和获取模式、革新内容生产模式、全自然交互完成任务、实现专家级虚拟助手、颠覆传统手工编程方式、成为科研工作加速器。而人工智能技术的快速发展，尤其是在自然语言处理(nlp)领域，需求日益增长，大型语言模型成为了研究和应用的热点。这些模型在文本翻译、情感分析、自动摘要以及对话系统等任务中展现了前所未有的效能。然而，随着模型规模的增长，其对计算资源的需求也在急剧上升，特别是在训练和推理过程中对内存和处理速度的要求。

2、经典的rnns在实现performance和low-cost inference中，由于存在的长程依赖性不支持训练的并行，导致在大参数量下的训练效率很低下，传统的transformer训练并行，但是muti-head attention机制决定了推理是串行的，在推理时的开销随着token长度的增加会越来越大，所以类似chatgpt在大量token生成的时候速度会很慢，而基于transformer优化的linear transformer在性能上表现的差强人意，这三大主要矛盾构成了一个不可能三角。现有的transformer模型在处理长序列时，由于其复杂的自注意力机制，导致显著的gpu内存消耗，限制了模型处理大规

技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点,开发一种新的语言模型架构，既能够满足大型数据集处理的性能需求，又能在保持高效率的同时降低成本。本专利技术旨在解决现有模型在处理大规模和复杂数据时所面临的问题，如内存消耗高、推理速度慢和训练并行性受限，以支持下一代nlp应用的发展，满足行业对高效计算模型的期待，而提供了一种基于混合神经网络结构的大语言模型的推理加速方法，包括以下步骤：

2、s1：对采集数据通过数据预处理得到预处理数据，对所述预处理数据进行数据处理以生成处理数据；

3、s2：打包所述处理数据的训练部分的训练输入向量输入到保留网络进行训练得到预训练模型，所述保留网络包括并行保留网络、循环保留网络；

4、s3：将所述处理数据的测试部分的测试输入向量输入到所述预训练模型得到对话结果，所述预训练模型即预训练好的自适应多尺度保留网络。

5、优选地，在步骤s1中，所述数据处理，进一步包括：

6、将输入文本标准化处理生成标准数据，将所述标准数据进行分割得到分割数据、所述分割数据进行编码得到编码数据、所述编码数据进行填充以生成具有相同长度的处理数据。

7、优选地，在步骤s2中，所述打包所述处理数据的训练部分的训练输入向量，进一步包括：

8、将所述训练输入向量打包输入块得到嵌入向量，对所述嵌入向量进行投影得到状态向量，对所述状态向量进行线性变化得到循环编码序列信息，对所述循环编码序列信息进行投影得到学习系数。

9、优选地，所述训练输入向量打包输入块得到嵌入向量v(n)的计算公式：

10、v(n)＝xn·wv；

11、对所述嵌入向量进行投影得到状态向量sn的计算公式：

12、

13、对所述状态向量进行线性变化得到循环编码序列信息，对所述循环编码序列信息进行投影得到映射向量on:

14、

15、其中，xn为所述嵌入向量的第n个时间步的向量,wv为所述嵌入向量的权重,

16、优选地，所述学习系数的计算公式为：

17、q＝xwq，k＝xwk，

18、其中，q为所述学习系数的第一学习系数，k为所述学习系数的第二学习系数，x为所述嵌入向量，wq为所述第一学习系数的第一权值，wk为所述学习系数的第二权值。

19、优选地，通过对所述映射向量进行对角化处理，所述对角化处理后进行位置嵌入处理得到保留映射向量，所述对角化处理的计算公式为：

20、a＝λ(γeiθ)λ-1，

21、将λ合并到q和k中，进行位置嵌入的计算公式为：

22、

23、其中，+指代共轭转置。

24、优选地，所述并行保留网络，进一步包括：

25、通过所述并行保留网络对所述保留映射数据处理，所述并行公式为：

26、

27、v＝xwv，

28、

29、

30、其中，q为所述学习系数的第一学习系数，k为所述学习系数的第二学习系数，x为所述嵌入向量，wq为所述第一映射向量的第一权值，wk为所述第二映射向量的第二权值，θ为嵌入项，为θ的复共轭，v为值向量，wv为所述值向量权值，d将因果掩蔽和沿相对距离的指数衰减结合为一个矩阵。

31、优选地，所述循环保留网络，进一步包括：

32、通过所述循环保留网络对保留映射数据处理，所述循环保留网络为：

33、

34、retention(xn)＝qnsn,n＝1,…,|x|。

35、优选地，在步骤s3中，所述自适应多尺度保留网络，进一步包括：

36、所述自适应多尺度保留为所述测试输入向量的头分配不同的γ，而为了适应超长序列的机器对话任务，设计一种自适应尺度变化机制，所述自适应尺度变化机制计算方式如下所示：

37、

38、headi＝retention(x1,γi)，

39、y＝groupnormh(concathead1,…,headh))，

40、msrx1)＝(prelu(x1wg)⊙y)wo，

41、其中，x1为所述测试输入向量，wg∈rdmodel×dmodel,wo∈rdmodel×dmodel是第一学习参数，δ是第二学习参数，用来控制指数变化程度，i表示头的索引，l表示当前块内的序列长度,concat表示将不同头的输出结果按第一个维度拼接起来，groupnorm用来对每个头的输出进行归一化，由于头部使用多个γ尺度，使用prelu函数进行非线性激活；

42、对于第l层保留网络，堆叠自适应多尺度保留amsr和激活网络act，并设计可学习缩放的残差连接方案进行网络构建,对于处理好的输入序列x：

43、yl＝amsr(ln(xl))+αl·xl,

44、xl+1＝act(ln(yl))+βl·yl,

45、其本文档来自技高网...

【技术保护点】

1.一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，在步骤S1中，所述数据处理，进一步包括：

3.根据权利要求2所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，在步骤S2中，所述打包所述处理数据的训练部分的训练输入向量，进一步包括：

4.根据权利求3所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，所述训练输入向量打包输入块X得到嵌入向量v(n)的计算公式：

5.根据权利求4所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，所述学习系数的计算公式为：

6.根据权利求5所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，通过对所述映射向量进行对角化处理，所述对角化处理后进行位置嵌入处理得到保留映射向量，所述对角化处理的计算公式为：

7.根据权利求6所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于

8.根据权利求7所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，所述循环保留网络，进一步包括：

9.根据权利求8所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，在步骤S3中，所述自适应多尺度保留网络，进一步包括：

10.根据权利求9所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，所述残差连接通过创建从一个层到后续层的直接路径解决梯度消失问题，另外，通过在所述残差连接中引入所述缩放因子调整所述保留网路的每个层中跳过连接的强度。

...

【技术特征摘要】

1.一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，在步骤s1中，所述数据处理，进一步包括：

3.根据权利要求2所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，在步骤s2中，所述打包所述处理数据的训练部分的训练输入向量，进一步包括：

4.根据权利求3所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，所述训练输入向量打包输入块x得到嵌入向量v(n)的计算公式：

5.根据权利求4所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在于，所述学习系数的计算公式为：

6.根据权利求5所述的一种基于混合神经网络结构的大语言模型的推理加速方法，其特征在...

【专利技术属性】
技术研发人员：张青青，王闻宇，王晓飞，
申请(专利权)人：派欧云计算上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人