【技术实现步骤摘要】
本专利技术涉及大模型训练领域,尤其涉及一种大语言模型训练加速方法。
技术介绍
1、大模型指的是包含超大规模参数的神经网络模型,拥有强大的表达能力和学习能力,能够处理更复杂、更庞大的数据集或任务,并具备更强的泛化能力和准确性,由于大模型的缩放定律和“涌现能力”,大模型参数以数量级的趋势急剧增加,大模型的训练越发困难。
2、由于大模型的缩放规律,更大的模型带来的显著性能提升,但是训练量巨大的模型带来了许多实际挑战。当前大模型训练优化方法主要是:通过对大模型进行建模分析,如对大模型的通信调度,内存占用等,结合多种并行技术进行优化。制约我们高效训练大型模型的瓶颈主要在于计算资源和网络通信。大模型训练具有挑战性,其面临的主要问题为:
3、如图1所示,所需的计算操作数量导致了不切实际的长训练时间;并且,由于内存容量有限,不再可能将整个模型拟合在单个加速器上;
4、由于通信成本和内存冗余,计算可扩展性不是线性的,例如,如果我们使用两倍数量的gpu,训练时间不可能减少到原来的一半;
5、现有的大模型训练优
...【技术保护点】
1.一种大语言模型训练加速方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种大语言模型训练加速方法,其特征在于,所述S1中对不同的网络层分析其存储的参数和计算量包括以下步骤:S11、网络层中的参数量主要是指网络中的权重矩阵,其数量由矩阵维度所确定,而矩阵维度与其输入输出维度有关,这里统一使用dmodel代表其输出的维度,而其他维度与输出或批次数量batch相关;
3.根据权利要求2所述的一种大语言模型训练加速方法,其特征在于,所述S12中的依次列出不同网络层的参数量与计算量包括以下步骤:S121、Embedding层
4
...【技术特征摘要】
1.一种大语言模型训练加速方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种大语言模型训练加速方法,其特征在于,所述s1中对不同的网络层分析其存储的参数和计算量包括以下步骤:s11、网络层中的参数量主要是指网络中的权重矩阵,其数量由矩阵维度所确定,而矩阵维度与其输入输出维度有关,这里统一使用dmodel代表其输出的维度,而其他维度与输出或批次数量batch相关;
3.根据权利要求2所述的一种大语言模型训练加速方法,其特征在于,所述s12中的依次列出不同网络层的参数量与计算量包括以下步骤:s121、embedding层
4.根据权利要求1所述的一种大语言模型训练加速方法,其特征在于,所述s2中对大模型训练中的内存占用,包含主要包含优化器状态,梯度和激活,进行建模分析:首先分析大模型优化器状态和梯度,这两项内存占用于大模型的参数量息息相关,此外还受内存优化策略的影响,首先假设模型参数量为φ,确认大模型梯度于优化器状态和大模型参数的关系;
5.根据...
【专利技术属性】
技术研发人员:董琦,朱仕通,刘欣雨,
申请(专利权)人:中国电子科技集团有限公司电子科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。