基于外推技术的长上下文大模型创建方法技术

技术编号：42631204 阅读：19 留言：0更新日期：2024-09-06 01:31

本发明专利技术公开了一种基于外推技术的长上下文大模型创建方法，所述方法包括：步骤1、预训练具有较短上下文窗口的基座大模型；步骤2、位置插值，扩展上下文长度；步骤3、采用位移稀疏注意力减少计算量；步骤4、LoRA<supgt;+</supgt;微调大模型获得长上下文理解能力；步骤5、评估大模型能力。该方法提高了模型在长上下文场景下的理解和生成能力，使其在需要处理大量上下文信息的任务中表现更加出色、高效，极大地降低了成本和处理速度，并且回答的准确率也大大提高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，具体地，涉及一种基于外推技术的长上下文大模型创建方法。

技术介绍

1、鉴于大模型在训练中消耗资源过大、时间过长的问题，在预训练过程在训练长上下文窗口的大模型几乎是不可行的，这会使得训练消耗的资源和时间指数倍数增加。为解决此问题，现有技术尝试了多种方法，主要在压缩输入技术和稀疏注意力技术。尽管压缩输入技术可以减少模型需要处理的数据量，从而降低资源消耗和缩短训练时间，但这种方法可能导致信息损失，影响模型对长上下文的理解和推理能力。简言之，压缩技术牺牲了一定的信息完整性以换取效率，这在处理复杂或细微的语境时可能不利于模型表现。另一方面，稀疏注意力技术通过减少模型在长序列上的注意力计算来提高效率，但这种方法可能会忽略重要的上下文信息，因为它假设某些输入之间的关系不重要而可以被省略。这种假设并不总是正确的，特别是在上下文关系对于理解整个文本至关重要的情况下，稀疏注意力可能导致模型的推理能力下降。

技术实现思路

1、本专利技术的目的是提供一种基于外推技术的长上下文大模型创建方法，该方法提高了模型在长上下文场景下的理解和生成能力，使其在需要处理大量上下文信息的任务中表现更加出色、高效，极大地降低了成本和处理速度，并且回答的准确率也大大提高。

2、为了实现上述目的，本专利技术提供了一种基于外推技术的长上下文大模型创建方法，该方法包括：

3、步骤1、预训练具有较短上下文窗口的基座大模型；

4、步骤2、位置插值，扩展上下文长度；

<p>5、步骤3、采用位移稀疏注意力减少计算量；

6、步骤4、lora+微调大模型获得长上下文理解能力；

7、步骤5、评估大模型能力。

8、优选地，在长上下文大模型的训练之前选择一个高质量的通用基座语言大模型作为起点，包括：

9、首先，寻找大量的高质量的通用语料，包括各种语言和主题；

10、其次，确定大模型的网络架构，使用参数量为13b的大模型作为基座模型，该模型基于transformer架构中的decoder-only架构；

11、最后，对初始化的模型进行自监督预训练，模型通过预测下一个单词并学习句子间的关系和语言规律建立一个初始的语言模型，即基座大模型，其上下文长度为4k token。

12、优选地，在步骤1中对基座模型进行改进，包括：

13、对每个transformer子层的输入进行归一化；

14、引入swiglu激活函数替换relu非线性激活函数；

15、其网络参数为：嵌入维度为5120，多头注意力头数为40，transformer模块数为40层；预训练使用的学习率为3.0e-4，批次大小为4m，使用1.0t的tokens进行训练。

16、优选地，在步骤2中进行位置插值以扩展基于rope位置编码的大型模型的能力；rope将位置编码视为一个旋转操作，通过在多维空间中对向量f(x)：＝[x0,x1,…,xd-1]t进行旋转来表示和计算序列中不同位置之间的相对位置关系，其中，d是注意力头的维度，m∈[0,c]是位置索引；rope定义的复合函数为：

17、

18、位置插值方法在现有的位置编码之间生成新的编码，以扩展模型的上下文窗口，使模型能够处理更长的序列；由于基数函数的平滑性，该插值为稳定的插值；

19、同时，为适应更长的上下文窗口l′，定义一个新的注意力分数并且使用新的函数在计算rope之前将位置索引从[0,l′]缩放到[0,l]，使得任何两个token之间的最大相对距离从l′减少到l。

20、优选地，在步骤3中处理长文本时，计算成本主要由自注意力self-attention模块引起，针对庞大的输入序列，采取将自注意力机制划分为多个子集的策略，以减少每组自注意力处理的token数量；

21、由于不同分组之间缺乏信息的交互，当随着处理的上下文长度增加导致模型的困惑度perplexity随之升高时，借鉴swin-transformer的设计，采用位移shift操作调整分组，即通过位移每个分组大小的一半，实现分组的重叠。

22、优选地，步骤4中的lora是通过在其权重矩阵中引入低秩矩阵来适应预训练的语言模型，适应过程包括：

23、首先，初始化，即从一个预训练的语言模型出发，在其权重矩阵中添加一个低秩自适应层，该低秩自适应层由一个随机初始化的低秩矩阵来表示；

24、其次，微调，在新的任务或领域上训练模型，并且只更新低秩自适应层的权重，同时保持预训练模型的权重固定；

25、最后，推理，将微调得到的lora权重与原始模型权重进行融合，并且原始模型的架构不变。

26、优选地，为缩小随着目标上下文长度的增加，lora微调与完全微调之间逐渐扩大的性能差距，在lora微调的基础上进行改进得到lora+，改进包括在训练过程中不再固定嵌入层embedding layer和标准化层normalization layer。

27、优选地，在步骤5中进行评估时，首先准备一组长内容文本作为输入，然后将其输入至大模型中进行推理，模型基于其在训练阶段所学到的知识和规律给出一个预测的回答并由人工对这些回答进行分析和评估。

28、优选地，评估模型的准确性和可靠性时采用多种指标和方法，包括计算模型准确率、将模型的回答与专家提供的标准答案进行比较、模型对于相似问题的一致性以及人工评估。

29、根据上述技术方案，本专利技术通过改进位置编码和利用lora(low rankadaptation)技术进行微调来实现。首先，预训练一个针对较短上下文窗口优化的大型语言模型(如llama)。该预训练模型在设计时考虑到了计算效率，但其在处理长上下文时的能力受限。为了扩展模型的上下文理解范围，采用了位置插值技术来修改模型的位置编码，这一步骤关键地增强了模型处理更长序列的能力。进一步地，通过构建长输入输出对，模型被引导学习和维持长距离的依赖关系。最后，采用lora方法进行微调，这种方法通过在模型的关键部分引入额外的可训练参数来提高模型的性能，同时避免了全模型微调中的大规模参数更新，从而在参数效率和模型性能之间取得了平衡。

30、本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。

本文档来自技高网...

【技术保护点】

1.一种基于外推技术的长上下文大模型创建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于外推技术的长上下文大模型创建方法，其特征在于，在长上下文大模型的训练之前选择一个高质量的通用基座语言大模型作为起点，包括：

3.根据权利要求2所述的基于外推技术的长上下文大模型创建方法，其特征在于，在步骤1中对基座模型进行改进，包括：

4.根据权利要求3所述的基于外推技术的长上下文大模型创建方法，其特征在于，在步骤2中进行位置插值以扩展基于RoPE位置编码的大型模型的能力；RoPE将位置编码视为一个旋转操作，通过在多维空间中对向量f(x)：＝[x0,x1,…,xd-1]T进行旋转来表示和计算序列中不同位置之间的相对位置关系，其中，d是注意力头的维度，m∈[0,c]是位置索引；RoPE定义的复合函数为：

5.根据权利要求4所述的基于外推技术的长上下文大模型创建方法，其特征在于，在步骤3中处理长文本时，计算成本主要由自注意力self-attention模块引起，针对庞大的输入序列，采取将自注意力机制划分为多个子集的策略，以减少每组自注意力处理的token数量；

6.根据权利要求5所述的基于外推技术的长上下文大模型创建方法，其特征在于，步骤4中的LoRA是通过在其权重矩阵中引入低秩矩阵来适应预训练的语言模型，适应过程包括：

7.根据权利要求6所述的基于外推技术的长上下文大模型创建方法，其特征在于，为缩小随着目标上下文长度的增加，LoRA微调与完全微调之间逐渐扩大的性能差距，在LoRA微调的基础上进行改进得到LoRA+，改进包括在训练过程中不再固定嵌入层embedding layer和标准化层normalization layer。

8.根据权利要求7所述的基于外推技术的长上下文大模型创建方法，其特征在于，在步骤5中进行评估时，首先准备一组长内容文本作为输入，然后将其输入至大模型中进行推理，模型基于其在训练阶段所学到的知识和规律给出一个预测的回答并由人工对这些回答进行分析和评估。

9.根据权利要求8所述的基于外推技术的长上下文大模型创建方法，其特征在于，评估模型的准确性和可靠性时采用多种指标和方法，包括计算模型准确率、将模型的回答与专家提供的标准答案进行比较、模型对于相似问题的一致性以及人工评估。

...

【技术特征摘要】

1.一种基于外推技术的长上下文大模型创建方法，其特征在于，所述方法包括：

3.根据权利要求2所述的基于外推技术的长上下文大模型创建方法，其特征在于，在步骤1中对基座模型进行改进，包括：

4.根据权利要求3所述的基于外推技术的长上下文大模型创建方法，其特征在于，在步骤2中进行位置插值以扩展基于rope位置编码的大型模型的能力；rope将位置编码视为一个旋转操作，通过在多维空间中对向量f(x)：＝[x0,x1,…,xd-1]t进行旋转来表示和计算序列中不同位置之间的相对位置关系，其中，d是注意力头的维度，m∈[0,c]是位置索引；rope定义的复合函数为：

5.根据权利要求4所述的基于外推技术的长上下文大模型创建方法，其特征在于，在步骤3中处理长文本时，计算成本主要由自注意力self-attention模块引起，针对庞大的输入序列，采取将自注意力机制划分为多个子集的策略，以减少每组自注意力处理的toke...

【专利技术属性】
技术研发人员：刘淇，陈恩红，程明月，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人