一种大模型的加速训练方法、装置、设备及存储介质制造方法及图纸

技术编号:41442135 阅读:27 留言:0更新日期:2024-05-28 20:34
本发明专利技术公开了一种大模型的加速训练方法、装置、设备及存储介质,涉及大模型技术领域。该方法包括:根据大模型分布式训练过程中的分词模型和进程数,对样本文本数据集中样本文本数据进行分片和分桶,得到新的文本分片文件;从新的文本分片文件加载各训练进程对应的进程文本词元数据;对于大模型分布式训练中的每一训练迭代步:对于该训练迭代步中每一训练进程,采用该训练进程在该训练迭代步中对应的进程文本词元数据、以及进程文本词元数据的标签数据,对初始大模型进行训练,得到该训练进程在该训练迭代步中的进程训练损失;根据各训练进程在该训练迭代步的进程训练损失,对大模型在该训练迭代步进行梯度更新。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及大模型,具体涉及一种大模型的加速训练方法、装置、设备及存储介质


技术介绍

1、大语言模型是人工智能应用中的关键技术,这类模型利用大规模的文本数据通过无监督或者监督学习来学习到语言的统计规律、语义信息和上下文关系。目前,一些研究表明大模型的参数量需要与训练模型的数据量成线性的关系,而且随着数据量和参数量的增加,模型的性能也更加地优异。因此各大机构均使用tb级别的数据来训练大模型以获得性能更加优异和鲁棒的模型。但是,随着数据量和模型参数量的增加,模型的训练难度也随之增加。

2、当前的一些服务器资源大多是高gpu/低cpu的,也就是服务器中的cpu资源有限,数据处理甚至是模型训练过程中无法将全部的数据资源加载到cpu中。同时,互联网上的数据很难清洗成高质量的训练数据,因此训练过程也存在一些不稳定性,即训练过程中容易出现损失尖峰等问题。其次,用来进行预训练的数据来源甚广,数据的长短不一,不同长度的数据在训练过程需要将其拼接到全局的最大长度或者当前batch的局部最大长度;但是transformers架构中的attent本文档来自技高网...

【技术保护点】

1.一种大模型的加速训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据大模型分布式训练过程中的分词模型和进程数,对样本文本数据集中样本文本数据进行分片,得到至少两个文本分片文件,包括:

3.根据权利要求1所述的方法,其特征在于,按照所述进程数、所述批次大小和所述词元长度,对至少两个文本分片文件中样本文本词元数据进行分桶排序,得到新的文本分片文件,包括:

4.根据权利要求1所述的方法,其特征在于,一个训练进程对应一个或多个训练设备;不同文本分片文件的样本文本数据量相同。

5.根据权利要求1所述的方法,其特征在于,根据...

【技术特征摘要】

1.一种大模型的加速训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,根据大模型分布式训练过程中的分词模型和进程数,对样本文本数据集中样本文本数据进行分片,得到至少两个文本分片文件,包括:

3.根据权利要求1所述的方法,其特征在于,按照所述进程数、所述批次大小和所述词元长度,对至少两个文本分片文件中样本文本词元数据进行分桶排序,得到新的文本分片文件,包括:

4.根据权利要求1所述的方法,其特征在于,一个训练进程对应一个或多个训练设备;不同文本分片文件的样本文本数据量相同。

5.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:穆玉芝张健韩伟王子豪徐雪帆周正茂陈志刚叶栽森王子
申请(专利权)人:达观数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1