【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及大模型,具体涉及一种大模型的加速训练方法、装置、设备及存储介质。
技术介绍
1、大语言模型是人工智能应用中的关键技术,这类模型利用大规模的文本数据通过无监督或者监督学习来学习到语言的统计规律、语义信息和上下文关系。目前,一些研究表明大模型的参数量需要与训练模型的数据量成线性的关系,而且随着数据量和参数量的增加,模型的性能也更加地优异。因此各大机构均使用tb级别的数据来训练大模型以获得性能更加优异和鲁棒的模型。但是,随着数据量和模型参数量的增加,模型的训练难度也随之增加。
2、当前的一些服务器资源大多是高gpu/低cpu的,也就是服务器中的cpu资源有限,数据处理甚至是模型训练过程中无法将全部的数据资源加载到cpu中。同时,互联网上的数据很难清洗成高质量的训练数据,因此训练过程也存在一些不稳定性,即训练过程中容易出现损失尖峰等问题。其次,用来进行预训练的数据来源甚广,数据的长短不一,不同长度的数据在训练过程需要将其拼接到全局的最大长度或者当前batch的局部最大长度;但是transformers
...【技术保护点】
1.一种大模型的加速训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据大模型分布式训练过程中的分词模型和进程数,对样本文本数据集中样本文本数据进行分片,得到至少两个文本分片文件,包括:
3.根据权利要求1所述的方法,其特征在于,按照所述进程数、所述批次大小和所述词元长度,对至少两个文本分片文件中样本文本词元数据进行分桶排序,得到新的文本分片文件,包括:
4.根据权利要求1所述的方法,其特征在于,一个训练进程对应一个或多个训练设备;不同文本分片文件的样本文本数据量相同。
5.根据权利要求1所述的方
...【技术特征摘要】
1.一种大模型的加速训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,根据大模型分布式训练过程中的分词模型和进程数,对样本文本数据集中样本文本数据进行分片,得到至少两个文本分片文件,包括:
3.根据权利要求1所述的方法,其特征在于,按照所述进程数、所述批次大小和所述词元长度,对至少两个文本分片文件中样本文本词元数据进行分桶排序,得到新的文本分片文件,包括:
4.根据权利要求1所述的方法,其特征在于,一个训练进程对应一个或多个训练设备;不同文本分片文件的样本文本数据量相同。
5.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:穆玉芝,张健,韩伟,王子豪,徐雪帆,周正茂,陈志刚,叶栽森,王子,
申请(专利权)人:达观数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。