System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体地,涉及一种基于外推技术的长上下文大模型创建方法。
技术介绍
1、鉴于大模型在训练中消耗资源过大、时间过长的问题,在预训练过程在训练长上下文窗口的大模型几乎是不可行的,这会使得训练消耗的资源和时间指数倍数增加。为解决此问题,现有技术尝试了多种方法,主要在压缩输入技术和稀疏注意力技术。尽管压缩输入技术可以减少模型需要处理的数据量,从而降低资源消耗和缩短训练时间,但这种方法可能导致信息损失,影响模型对长上下文的理解和推理能力。简言之,压缩技术牺牲了一定的信息完整性以换取效率,这在处理复杂或细微的语境时可能不利于模型表现。另一方面,稀疏注意力技术通过减少模型在长序列上的注意力计算来提高效率,但这种方法可能会忽略重要的上下文信息,因为它假设某些输入之间的关系不重要而可以被省略。这种假设并不总是正确的,特别是在上下文关系对于理解整个文本至关重要的情况下,稀疏注意力可能导致模型的推理能力下降。
技术实现思路
1、本专利技术的目的是提供一种基于外推技术的长上下文大模型创建方法,该方法提高了模型在长上下文场景下的理解和生成能力,使其在需要处理大量上下文信息的任务中表现更加出色、高效,极大地降低了成本和处理速度,并且回答的准确率也大大提高。
2、为了实现上述目的,本专利技术提供了一种基于外推技术的长上下文大模型创建方法,该方法包括:
3、步骤1、预训练具有较短上下文窗口的基座大模型;
4、步骤2、位置插值,扩展上下文长度;
< ...【技术保护点】
1.一种基于外推技术的长上下文大模型创建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于外推技术的长上下文大模型创建方法,其特征在于,在长上下文大模型的训练之前选择一个高质量的通用基座语言大模型作为起点,包括:
3.根据权利要求2所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤1中对基座模型进行改进,包括:
4.根据权利要求3所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤2中进行位置插值以扩展基于RoPE位置编码的大型模型的能力;RoPE将位置编码视为一个旋转操作,通过在多维空间中对向量f(x):=[x0,x1,…,xd-1]T进行旋转来表示和计算序列中不同位置之间的相对位置关系,其中,d是注意力头的维度,m∈[0,c]是位置索引;RoPE定义的复合函数为:
5.根据权利要求4所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤3中处理长文本时,计算成本主要由自注意力self-attention模块引起,针对庞大的输入序列,采取将自注意力机制划分为多个子集的策略,以减少每组自注意
6.根据权利要求5所述的基于外推技术的长上下文大模型创建方法,其特征在于,步骤4中的LoRA是通过在其权重矩阵中引入低秩矩阵来适应预训练的语言模型,适应过程包括:
7.根据权利要求6所述的基于外推技术的长上下文大模型创建方法,其特征在于,为缩小随着目标上下文长度的增加,LoRA微调与完全微调之间逐渐扩大的性能差距,在LoRA微调的基础上进行改进得到LoRA+,改进包括在训练过程中不再固定嵌入层embedding layer和标准化层normalization layer。
8.根据权利要求7所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤5中进行评估时,首先准备一组长内容文本作为输入,然后将其输入至大模型中进行推理,模型基于其在训练阶段所学到的知识和规律给出一个预测的回答并由人工对这些回答进行分析和评估。
9.根据权利要求8所述的基于外推技术的长上下文大模型创建方法,其特征在于,评估模型的准确性和可靠性时采用多种指标和方法,包括计算模型准确率、将模型的回答与专家提供的标准答案进行比较、模型对于相似问题的一致性以及人工评估。
...【技术特征摘要】
1.一种基于外推技术的长上下文大模型创建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于外推技术的长上下文大模型创建方法,其特征在于,在长上下文大模型的训练之前选择一个高质量的通用基座语言大模型作为起点,包括:
3.根据权利要求2所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤1中对基座模型进行改进,包括:
4.根据权利要求3所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤2中进行位置插值以扩展基于rope位置编码的大型模型的能力;rope将位置编码视为一个旋转操作,通过在多维空间中对向量f(x):=[x0,x1,…,xd-1]t进行旋转来表示和计算序列中不同位置之间的相对位置关系,其中,d是注意力头的维度,m∈[0,c]是位置索引;rope定义的复合函数为:
5.根据权利要求4所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤3中处理长文本时,计算成本主要由自注意力self-attention模块引起,针对庞大的输入序列,采取将自注意力机制划分为多个子集的策略,以减少每组自注意力处理的toke...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。