一种问答大模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:46448720 阅读:7 留言:0更新日期:2025-09-19 20:51
本申请公开了一种问答大模型训练方法、装置、设备及存储介质,涉及模型训练技术领域,包括:从目标问答系统中获取相应的历史真实问答对数据,并将历史真实问答对数据导入至待训练问答大模型对应的训练系统中;基于历史真实问答对数据、当前量化参数和当前激活值量化粒度对待训练问答大模型进行模型训练,以得到当前待训练问答大模型;在模型训练中,基于混合粒度FP8精度流策略对当前激活值量化粒度进行实时调整,以及基于预设扩展函数对优化器状态的当前量化参数进行实时调整;在满足预设模型训练结束条件下,将当前待训练问答大模型确定为目标问答大模型,以便对用户端的提问进行回答。这样一来,可以提升模型的训练速度降低大模型的训练门槛。

【技术实现步骤摘要】

本专利技术涉及模型训练,特别涉及一种问答大模型训练方法、装置、设备及存储介质


技术介绍

1、在大模型训练领域,随着模型规模和复杂度的不断增加,训练过程对计算资源和内存的需求呈指数级增长。传统的训练方式在处理大规模模型时面临诸多挑战:

2、显存占用过高:在语言模型训练中,如llama(large language model meta ai,一款免费大模型)模型系列,非线性层通常占内存占用的约50%,而线性层贡献不到25%。在训练过程中,前向传播产生的激活值需要保留用于反向传播计算梯度,这导致大量内存被占用。以常见的大语言模型训练为例,使用bf16精度训练时,显存占用巨大,限制了模型的训练规模和效率。

3、量化误差问题:当前的量化方法在处理优化器状态量化时,无法充分利用fp8的表示范围。对于fp8(floating point 8-bit,即8位浮点数数据类型)的e4m3格式(一种浮点数表示格式),其动态范围约为200000,但一阶动量的每个量化组的最大值最小值之比通常为1000,二阶动量的该比值则通常为 10,远小于e4m3的动态本文档来自技高网...

【技术保护点】

1.一种问答大模型训练方法,其特征在于,包括:

2.根据权利要求1所述的问答大模型训练方法,其特征在于,所述从目标问答系统中获取相应的历史真实问答对数据,并将所述历史真实问答对数据导入至待训练问答大模型对应的训练系统中,包括:

3.根据权利要求1所述的问答大模型训练方法,其特征在于,所述基于预设扩展函数对所述优化器状态的当前量化参数进行实时调整,包括:

4.根据权利要求3所述的问答大模型训练方法,其特征在于,所述获取所述历史真实问答对数据对应的动量数据的分布情况确定预设扩展函数对应的即时计算参数,包括:

5.根据权利要求1所述的问答大模型训...

【技术特征摘要】

1.一种问答大模型训练方法,其特征在于,包括:

2.根据权利要求1所述的问答大模型训练方法,其特征在于,所述从目标问答系统中获取相应的历史真实问答对数据,并将所述历史真实问答对数据导入至待训练问答大模型对应的训练系统中,包括:

3.根据权利要求1所述的问答大模型训练方法,其特征在于,所述基于预设扩展函数对所述优化器状态的当前量化参数进行实时调整,包括:

4.根据权利要求3所述的问答大模型训练方法,其特征在于,所述获取所述历史真实问答对数据对应的动量数据的分布情况确定预设扩展函数对应的即时计算参数,包括:

5.根据权利要求1所述的问答大模型训练方法,其特征在于,所述基于混合粒度fp8精度流策略对所述当前激活值量化粒度进行实时调整,包括:

【专利技术属性】
技术研发人员:于春钰薛娇陈尧
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1