System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,特别是涉及一种数据处理方法、系统、设备及存储介质。
技术介绍
1、目前,当大语言模型拥有更多的参数量时,在下游任务上表现更好且具备“智能涌现”能力已成为普遍共识。但是,随着大语言模型参数量越来越多,从数亿逐渐增加到数千亿,伴随而来的是大语言模型在训练阶段内存消耗巨大,耗时过长,计算成本非常高等问题,因此,如何高效地基于大语言模型实现数据处理已成为大语言模型领域的关键问题。
2、目前的一些方案主要集中在对大语言模型的参数量进行优化上,例如通过权重剪枝的方案,可以有效减少transformer架构中的参数数量,虽然非结构化的稀疏性剪枝方法可以有效地降低硬件资源的利用率,但也会降低大模型的精度。还有的方案是基于低秩权重分解实现结构化剪枝,训练低秩模型时需要调整张量分解的额外超参数,以实现紧凑的模型大小和高精度,而不适当地调整张量分解的超参数会导致模型过大或精度降低,从头开始训练低秩模型则可能导致严重的准确性损失,因此这种基于低秩权重分解的方法更适合大语言模型的微调。
3、综上所述,如何有效地通过模型实现数据处理,既要能够保障准确性,又要能够提高训练效率,降低计算成本,是目前本领域技术人员急需解决的技术问题。
技术实现思路
1、本专利技术的目的是提供一种数据处理方法、系统、设备及存储介质,以有效地通过模型实现数据处理,既要能够保障准确性,又要能够提高训练效率,降低计算成本。
2、为解决上述技术问题,本专利技术提供如下技术方案:
>3、第一方面,本专利技术提供了一种数据处理方法,包括:
4、基于设定的第一配置信息建立第一模型;
5、通过训练样本对所述第一模型进行训练,在满足第一训练终止条件时得到经过训练的待扩展模型,并保存所述待扩展模型的检查点文件;
6、基于所述待扩展模型的检查点文件,对所述待扩展模型进行结构扩展得到第二模型,且所述第二模型的结构符合设定的第二配置信息;其中,所述第二模型的模型参数的数量大于所述第一模型的模型参数的数量;
7、通过训练样本对所述第二模型进行训练,在满足第二训练终止条件时得到经过训练的第一目标模型;
8、将待处理的文本数据或者图像数据输入至所述第一目标模型,得到所述第一目标模型所输出的针对所述文本数据的文本预测结果或者针对所述图像数据的图像处理结果。
9、其中,所述第一模型和所述第二模型均为采用转换器模型架构的基于自注意力机制的神经网络模型;
10、相应地,基于所述待扩展模型的检查点文件,对所述待扩展模型进行结构扩展得到第二模型,包括:
11、基于所述待扩展模型的检查点文件,对所述待扩展模型的模型参数,优化器状态参数,以及配置参数进行结构扩展,得到第二模型。
12、其中,基于所述待扩展模型的检查点文件,对所述待扩展模型的模型参数,优化器状态参数,以及配置参数进行结构扩展,得到第二模型,包括:
13、将所述待扩展模型的检查点文件当中,对应于流水并行第一个阶段的检查点文件作为第一类检查点文件;
14、基于所述第一类检查点文件,对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数,初始嵌入层的模型参数,n个转换器层的优化器状态参数,所述初始嵌入层的优化器状态参数,以及配置参数进行结构扩展,得到第一扩展文件;
15、将所述待扩展模型的检查点文件当中,对应于流水并行中间阶段的检查点文件作为第二类检查点文件;
16、基于所述第二类检查点文件,对所述待扩展模型对应于流水并行中间阶段的各个转换器层的模型参数,各个转换器层的优化器状态参数,以及配置参数进行结构扩展,得到第二扩展文件;
17、将所述待扩展模型的检查点文件当中,对应于流水并行最后一个阶段的检查点文件作为第三类检查点文件;
18、基于所述第三类检查点文件,对所述待扩展模型对应于流水并行最后一个阶段的n个转换器层的模型参数,末尾嵌入层的模型参数,n个转换器层的优化器状态参数,所述末尾嵌入层的优化器状态参数,以及配置参数进行结构扩展,得到第三扩展文件;
19、基于所述第一扩展文件,所述第二扩展文件以及所述第三扩展文件得到所述第二模型;
20、其中,流水并行中间阶段表示的是流水并行各阶段中除了第一个阶段和最后一个阶段之外其余的全部阶段;n表示的是流水并行单个阶段的转换器层数且n=l/n,l表示的是所述第一模型的转换器总层数,n表示的是流水并行的阶段总数。
21、其中,基于所述第一类检查点文件,对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数,初始嵌入层的模型参数,n个转换器层的优化器状态参数,所述初始嵌入层的优化器状态参数,以及配置参数进行结构扩展,得到第一扩展文件,包括:
22、基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍,得到m个第一子文件,且每个所述第一子文件中包括n个转换器层的模型参数;m为不小于2的正整数;
23、基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的所述初始嵌入层的模型参数以及所述初始嵌入层的优化器状态参数保存至m个所述第一子文件中的第1个第一子文件中;
24、基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍,以分别保存至m个所述第一子文件中,且每个所述第一子文件中保存n个转换器层的优化器状态参数;
25、基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的配置参数扩展m倍,以分别保存至m个所述第一子文件中;
26、在进行了对应于流水并行第一个阶段的n个转换器层的模型参数,初始嵌入层的模型参数,n个转换器层的优化器状态参数,所述初始嵌入层的优化器状态参数,以及配置参数的结构扩展之后,将当前的m个所述第一子文件作为所得到的第一扩展文件。
27、其中,基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍,以分别保存至m个所述第一子文件中,且每个所述第一子文件中保存n个转换器层的优化器状态参数,包括:
28、判断所述第一模型是否为使用了零冗余优化器的第一模型;
29、如果否,则从所述第一类检查点文件中获取列表形式的对应于流水并行第一个阶段的n个转换器层的优化器状态参数并扩展m倍,以分别保存至m个所述第一子文件中,且每个所述第一子文件中保存n个转换器层的优化器状态参数;
30、如果是,则从所述第一类检查点文件中获取一维张量形式的对应于流水并行第一个阶段的n个转换器层的优化器状态参数并扩展m倍,以分别保存至m个所述第一子文件中,且每个所述第一子文件中保存n个转换器层的优化器状态参数。
31、其中,基于所述第一类检查点文件本文档来自技高网...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的数据处理方法,其特征在于,所述第一模型和所述第二模型均为采用转换器模型架构的基于自注意力机制的神经网络模型;
3.根据权利要求2所述的数据处理方法,其特征在于,基于所述待扩展模型的检查点文件,对所述待扩展模型的模型参数,优化器状态参数,以及配置参数进行结构扩展,得到第二模型,包括:
4.根据权利要求3所述的数据处理方法,其特征在于,基于所述第一类检查点文件,对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数,初始嵌入层的模型参数,n个转换器层的优化器状态参数,所述初始嵌入层的优化器状态参数,以及配置参数进行结构扩展,得到第一扩展文件,包括:
5.根据权利要求4所述的数据处理方法,其特征在于,基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍,以分别保存至m个所述第一子文件中,且每个所述第一子文件中保存n个转换器层的优化器状态参数,包括:
6.根据权利要求4所述的数据处理方法,其特征在于,基
7.根据权利要求4所述的数据处理方法,其特征在于,还包括:
8.根据权利要求3所述的数据处理方法,其特征在于,基于所述第三类检查点文件,对所述待扩展模型对应于流水并行最后一个阶段的n个转换器层的模型参数,末尾嵌入层的模型参数,n个转换器层的优化器状态参数,所述末尾嵌入层的优化器状态参数,以及配置参数进行结构扩展,得到第三扩展文件,包括:
9.根据权利要求1所述的数据处理方法,其特征在于,所述第一模型所使用的训练样本的数量为预设的第一数值,所述第二模型所使用的训练样本的数量为预设的第二数值,且所述第一数值高于所述第二数值。
10.根据权利要求1至9任一项所述的数据处理方法,其特征在于,还包括:
11.根据权利要求1至9任一项所述的数据处理方法,其特征在于,在通过训练样本对所述第一模型进行训练的过程中,所使用的学习率为基于第一学习率曲线所确定出的学习率:
12.根据权利要求11所述的数据处理方法,其特征在于,在通过训练样本对所述第一模型进行训练的过程中,在迭代步数从0至a的过程中,所述第一学习率曲线的斜率为负且绝对值逐渐增大;
13.一种数据处理系统,其特征在于,包括:
14.一种数据处理设备,其特征在于,包括:
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的数据处理方法的步骤。
...【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的数据处理方法,其特征在于,所述第一模型和所述第二模型均为采用转换器模型架构的基于自注意力机制的神经网络模型;
3.根据权利要求2所述的数据处理方法,其特征在于,基于所述待扩展模型的检查点文件,对所述待扩展模型的模型参数,优化器状态参数,以及配置参数进行结构扩展,得到第二模型,包括:
4.根据权利要求3所述的数据处理方法,其特征在于,基于所述第一类检查点文件,对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数,初始嵌入层的模型参数,n个转换器层的优化器状态参数,所述初始嵌入层的优化器状态参数,以及配置参数进行结构扩展,得到第一扩展文件,包括:
5.根据权利要求4所述的数据处理方法,其特征在于,基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍,以分别保存至m个所述第一子文件中,且每个所述第一子文件中保存n个转换器层的优化器状态参数,包括:
6.根据权利要求4所述的数据处理方法,其特征在于,基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍,得到m个第一子文件,且每个所述第一子文件中包括n个转换器层的模型参数,包括:
7.根据权利要求4所述的数据处理方法,其特征在...
【专利技术属性】
技术研发人员:李令君,吴韶华,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。