序列处理方法、电子设备和存储介质技术

技术编号:43475593 阅读:24 留言:0更新日期:2024-11-27 13:15
本公开提出一种序列处理方法、电子设备和存储介质,序列处理方法包括:将输入序列分割成有序的第一批次数个子序列,并确定各个子序列对应的子序列序号;基于子序列序号确定子序列中的各个输入词元对应的第一位置编码;基于输入词元在对应的子序列中的位置序号确定各个输入词元对应的第二位置编码,并基于第一位置编码和第二位置编码确定对应的目标位置编码;针对各个输入词元,基于对应的目标位置编码调整对应的第一查询向量和第一键向量,得到对应的第二查询向量和第二键向量;基于各个输入词元对应的各个第二查询向量、各个第二键向量和各个值向量进行注意力处理,得到与输入数据对应的输出序列。本公开能提高大语言模型在推理过程中的外推性。

【技术实现步骤摘要】

本公开涉及人工智能,特别是涉及一种序列处理方法、电子设备和介质。


技术介绍

1、大语言模型在处理输入的数据时,往往是将输入的原始数据转换成多个输入词元,再将每个输入词元编码成相应的特征表示并输入到注意力机制中进行注意力处理,以生成相应的输出的。而注意力机制本身无法捕捉到输入的输入词元的位置信息,当输入词元的位置(即各个输入词元在序列中的顺序)变化时,注意力机制的输出会保持不变,注意力机制的输出和输入的输入词元的顺序无关,这不符合自然语言的特性,也会使得大语言模型的输出准确度降低。因此,在大语言模型中,往往需要对输入词元进行位置编码。

2、现有技术中,在训练大语言模型时,处于训练效率和设备内存资源等方面的限制,训练用的样本序列的长度往往较短,大语言模型在训练过程中只学习到如何处理一定的窗口长度内的位置编码。而在推理过程中,当大语言模型实际的输入序列的长度超出训练时的窗口长度时,对于超出窗口长度的部分所使用的位置编码都是没有经过训练的,大语言模型在训练过程中没有学习如何准确地处理这些超出窗口长度的位置编码,这使得大语言模型此时生成的输出的质量会变低本文档来自技高网...

【技术保护点】

1.一种序列处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的序列处理方法,其特征在于,所述将大语言模型的输入数据转换成对应的输入序列,并确定所述输入序列的第一长度,包括:

3.根据权利要求1所述的序列处理方法,其特征在于,所述基于所述第一长度和所述大语言模型对应的第一预设序列长度确定第一批次数,将所述输入序列分割成有序的第一批次数个子序列,包括:

4.根据权利要求3所述的序列处理方法,其特征在于,所述将所述输入序列中每第一预设序列长度个输入词元依次划分为一个子序列,包括:

5.根据权利要求1所述的序列处理方法,其特征在于,所述...

【技术特征摘要】

1.一种序列处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的序列处理方法,其特征在于,所述将大语言模型的输入数据转换成对应的输入序列,并确定所述输入序列的第一长度,包括:

3.根据权利要求1所述的序列处理方法,其特征在于,所述基于所述第一长度和所述大语言模型对应的第一预设序列长度确定第一批次数,将所述输入序列分割成有序的第一批次数个子序列,包括:

4.根据权利要求3所述的序列处理方法,其特征在于,所述将所述输入序列中每第一预设序列长度个输入词元依次划分为一个子序列,包括:

5.根据权利要求1所述的序列处理方法,其特征在于,所述基于所述输入词元在对应的所述子序列中的位置进行位置编码,得到各个所述输入词元对应的第二位置编码,包括:

6.根据权利要求1所述的序列处理方法,其特征在于,所述基于各个所述输入词元对应的所述第二查询向量、所述第二键向量和所述值向量进行注意力处理,包括:

7.根据权利要求1所述的序列处理方法,其特征在于,所述大语言模型通过以下方式训练...

【专利技术属性】
技术研发人员:米良阮春阳
申请(专利权)人:苏州亿铸智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1