【技术实现步骤摘要】
本专利技术涉及模型训练,特别涉及一种问答大模型训练方法、装置、设备及存储介质。
技术介绍
1、在大模型训练领域,随着模型规模和复杂度的不断增加,训练过程对计算资源和内存的需求呈指数级增长。传统的训练方式在处理大规模模型时面临诸多挑战:
2、显存占用过高:在语言模型训练中,如llama(large language model meta ai,一款免费大模型)模型系列,非线性层通常占内存占用的约50%,而线性层贡献不到25%。在训练过程中,前向传播产生的激活值需要保留用于反向传播计算梯度,这导致大量内存被占用。以常见的大语言模型训练为例,使用bf16精度训练时,显存占用巨大,限制了模型的训练规模和效率。
3、量化误差问题:当前的量化方法在处理优化器状态量化时,无法充分利用fp8的表示范围。对于fp8(floating point 8-bit,即8位浮点数数据类型)的e4m3格式(一种浮点数表示格式),其动态范围约为200000,但一阶动量的每个量化组的最大值最小值之比通常为1000,二阶动量的该比值则通常为 10,
...【技术保护点】
1.一种问答大模型训练方法,其特征在于,包括:
2.根据权利要求1所述的问答大模型训练方法,其特征在于,所述从目标问答系统中获取相应的历史真实问答对数据,并将所述历史真实问答对数据导入至待训练问答大模型对应的训练系统中,包括:
3.根据权利要求1所述的问答大模型训练方法,其特征在于,所述基于预设扩展函数对所述优化器状态的当前量化参数进行实时调整,包括:
4.根据权利要求3所述的问答大模型训练方法,其特征在于,所述获取所述历史真实问答对数据对应的动量数据的分布情况确定预设扩展函数对应的即时计算参数,包括:
5.根据权利要求
...【技术特征摘要】
1.一种问答大模型训练方法,其特征在于,包括:
2.根据权利要求1所述的问答大模型训练方法,其特征在于,所述从目标问答系统中获取相应的历史真实问答对数据,并将所述历史真实问答对数据导入至待训练问答大模型对应的训练系统中,包括:
3.根据权利要求1所述的问答大模型训练方法,其特征在于,所述基于预设扩展函数对所述优化器状态的当前量化参数进行实时调整,包括:
4.根据权利要求3所述的问答大模型训练方法,其特征在于,所述获取所述历史真实问答对数据对应的动量数据的分布情况确定预设扩展函数对应的即时计算参数,包括:
5.根据权利要求1所述的问答大模型训练方法,其特征在于,所述基于混合粒度fp8精度流策略对所述当前激活值量化粒度进行实时调整,包括:
【专利技术属性】
技术研发人员:于春钰,薛娇,陈尧,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。