【技术实现步骤摘要】
本专利技术涉及计算机,特别是涉及一种数据处理方法、系统、设备及存储介质。
技术介绍
1、目前,当大语言模型拥有更多的参数量时,在下游任务上表现更好且具备“智能涌现”能力已成为普遍共识。但是,随着大语言模型参数量越来越多,从数亿逐渐增加到数千亿,伴随而来的是大语言模型在训练阶段内存消耗巨大,耗时过长,计算成本非常高等问题,因此,如何高效地基于大语言模型实现数据处理已成为大语言模型领域的关键问题。
2、目前的一些方案主要集中在对大语言模型的参数量进行优化上,例如通过权重剪枝的方案,可以有效减少transformer架构中的参数数量,虽然非结构化的稀疏性剪枝方法可以有效地降低硬件资源的利用率,但也会降低大模型的精度。还有的方案是基于低秩权重分解实现结构化剪枝,训练低秩模型时需要调整张量分解的额外超参数,以实现紧凑的模型大小和高精度,而不适当地调整张量分解的超参数会导致模型过大或精度降低,从头开始训练低秩模型则可能导致严重的准确性损失,因此这种基于低秩权重分解的方法更适合大语言模型的微调。
3、综上所述,如何有效地通过模
...【技术保护点】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的数据处理方法,其特征在于,所述第一模型和所述第二模型均为采用转换器模型架构的基于自注意力机制的神经网络模型;
3.根据权利要求2所述的数据处理方法,其特征在于,基于所述待扩展模型的检查点文件,对所述待扩展模型的模型参数,优化器状态参数,以及配置参数进行结构扩展,得到第二模型,包括:
4.根据权利要求3所述的数据处理方法,其特征在于,基于所述第一类检查点文件,对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数,初始嵌入层的模型参数,n个转换器层的优化器状态
...【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的数据处理方法,其特征在于,所述第一模型和所述第二模型均为采用转换器模型架构的基于自注意力机制的神经网络模型;
3.根据权利要求2所述的数据处理方法,其特征在于,基于所述待扩展模型的检查点文件,对所述待扩展模型的模型参数,优化器状态参数,以及配置参数进行结构扩展,得到第二模型,包括:
4.根据权利要求3所述的数据处理方法,其特征在于,基于所述第一类检查点文件,对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数,初始嵌入层的模型参数,n个转换器层的优化器状态参数,所述初始嵌入层的优化器状态参数,以及配置参数进行结构扩展,得到第一扩展文件,包括:
5.根据权利要求4所述的数据处理方法,其特征在于,基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍,以分别保存至m个所述第一子文件中,且每个所述第一子文件中保存n个转换器层的优化器状态参数,包括:
6.根据权利要求4所述的数据处理方法,其特征在于,基于所述第一类检查点文件,将所述待扩展模型对应于流水并行第一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍,得到m个第一子文件,且每个所述第一子文件中包括n个转换器层的模型参数,包括:
7.根据权利要求4所述的数据处理方法,其特征在...
【专利技术属性】
技术研发人员:李令君,吴韶华,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。