【技术实现步骤摘要】
本公开涉及人工智能,特别是涉及一种序列处理方法、电子设备和介质。
技术介绍
1、大语言模型在处理输入的数据时,往往是将输入的原始数据转换成多个输入词元,再将每个输入词元编码成相应的特征表示并输入到注意力机制中进行注意力处理,以生成相应的输出的。而注意力机制本身无法捕捉到输入的输入词元的位置信息,当输入词元的位置(即各个输入词元在序列中的顺序)变化时,注意力机制的输出会保持不变,注意力机制的输出和输入的输入词元的顺序无关,这不符合自然语言的特性,也会使得大语言模型的输出准确度降低。因此,在大语言模型中,往往需要对输入词元进行位置编码。
2、现有技术中,在训练大语言模型时,处于训练效率和设备内存资源等方面的限制,训练用的样本序列的长度往往较短,大语言模型在训练过程中只学习到如何处理一定的窗口长度内的位置编码。而在推理过程中,当大语言模型实际的输入序列的长度超出训练时的窗口长度时,对于超出窗口长度的部分所使用的位置编码都是没有经过训练的,大语言模型在训练过程中没有学习如何准确地处理这些超出窗口长度的位置编码,这使得大语言模型此时生
...【技术保护点】
1.一种序列处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的序列处理方法,其特征在于,所述将大语言模型的输入数据转换成对应的输入序列,并确定所述输入序列的第一长度,包括:
3.根据权利要求1所述的序列处理方法,其特征在于,所述基于所述第一长度和所述大语言模型对应的第一预设序列长度确定第一批次数,将所述输入序列分割成有序的第一批次数个子序列,包括:
4.根据权利要求3所述的序列处理方法,其特征在于,所述将所述输入序列中每第一预设序列长度个输入词元依次划分为一个子序列,包括:
5.根据权利要求1所述的序列处理方
...【技术特征摘要】
1.一种序列处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的序列处理方法,其特征在于,所述将大语言模型的输入数据转换成对应的输入序列,并确定所述输入序列的第一长度,包括:
3.根据权利要求1所述的序列处理方法,其特征在于,所述基于所述第一长度和所述大语言模型对应的第一预设序列长度确定第一批次数,将所述输入序列分割成有序的第一批次数个子序列,包括:
4.根据权利要求3所述的序列处理方法,其特征在于,所述将所述输入序列中每第一预设序列长度个输入词元依次划分为一个子序列,包括:
5.根据权利要求1所述的序列处理方法,其特征在于,所述基于所述输入词元在对应的所述子序列中的位置进行位置编码,得到各个所述输入词元对应的第二位置编码,包括:
6.根据权利要求1所述的序列处理方法,其特征在于,所述基于各个所述输入词元对应的所述第二查询向量、所述第二键向量和所述值向量进行注意力处理,包括:
7.根据权利要求1所述的序列处理方法,其特征在于,所述大语言模型通过以下方式训练...
【专利技术属性】
技术研发人员:米良,阮春阳,
申请(专利权)人:苏州亿铸智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。