基于外推技术的长上下文大模型创建方法技术

技术编号:42631204 阅读:25 留言:0更新日期:2024-09-06 01:31
本发明专利技术公开了一种基于外推技术的长上下文大模型创建方法,所述方法包括:步骤1、预训练具有较短上下文窗口的基座大模型;步骤2、位置插值,扩展上下文长度;步骤3、采用位移稀疏注意力减少计算量;步骤4、LoRA<supgt;+</supgt;微调大模型获得长上下文理解能力;步骤5、评估大模型能力。该方法提高了模型在长上下文场景下的理解和生成能力,使其在需要处理大量上下文信息的任务中表现更加出色、高效,极大地降低了成本和处理速度,并且回答的准确率也大大提高。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体地,涉及一种基于外推技术的长上下文大模型创建方法


技术介绍

1、鉴于大模型在训练中消耗资源过大、时间过长的问题,在预训练过程在训练长上下文窗口的大模型几乎是不可行的,这会使得训练消耗的资源和时间指数倍数增加。为解决此问题,现有技术尝试了多种方法,主要在压缩输入技术和稀疏注意力技术。尽管压缩输入技术可以减少模型需要处理的数据量,从而降低资源消耗和缩短训练时间,但这种方法可能导致信息损失,影响模型对长上下文的理解和推理能力。简言之,压缩技术牺牲了一定的信息完整性以换取效率,这在处理复杂或细微的语境时可能不利于模型表现。另一方面,稀疏注意力技术通过减少模型在长序列上的注意力计算来提高效率,但这种方法可能会忽略重要的上下文信息,因为它假设某些输入之间的关系不重要而可以被省略。这种假设并不总是正确的,特别是在上下文关系对于理解整个文本至关重要的情况下,稀疏注意力可能导致模型的推理能力下降。


技术实现思路

1、本专利技术的目的是提供一种基于外推技术的长上下文大模型创建方法,该方法提高了模本文档来自技高网...

【技术保护点】

1.一种基于外推技术的长上下文大模型创建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于外推技术的长上下文大模型创建方法,其特征在于,在长上下文大模型的训练之前选择一个高质量的通用基座语言大模型作为起点,包括:

3.根据权利要求2所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤1中对基座模型进行改进,包括:

4.根据权利要求3所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤2中进行位置插值以扩展基于RoPE位置编码的大型模型的能力;RoPE将位置编码视为一个旋转操作,通过在多维空间中对向量f(x):=[x0,x...

【技术特征摘要】

1.一种基于外推技术的长上下文大模型创建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于外推技术的长上下文大模型创建方法,其特征在于,在长上下文大模型的训练之前选择一个高质量的通用基座语言大模型作为起点,包括:

3.根据权利要求2所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤1中对基座模型进行改进,包括:

4.根据权利要求3所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤2中进行位置插值以扩展基于rope位置编码的大型模型的能力;rope将位置编码视为一个旋转操作,通过在多维空间中对向量f(x):=[x0,x1,…,xd-1]t进行旋转来表示和计算序列中不同位置之间的相对位置关系,其中,d是注意力头的维度,m∈[0,c]是位置索引;rope定义的复合函数为:

5.根据权利要求4所述的基于外推技术的长上下文大模型创建方法,其特征在于,在步骤3中处理长文本时,计算成本主要由自注意力self-attention模块引起,针对庞大的输入序列,采取将自注意力机制划分为多个子集的策略,以减少每组自注意力处理的toke...

【专利技术属性】
技术研发人员:刘淇陈恩红程明月
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1