大模型训练方法、系统、终端及存储介质技术方案

技术编号：40966689 阅读：71 留言：0更新日期：2024-04-18 20:47

本发明专利技术提供了一种大模型训练方法、系统、终端及存储介质，该方法包括：获取训练样本，并根据各训练样本构建模板训练数据；将所述模板训练数据输入目标大模型进行前向计算，得到输出概率矩阵；根据所述输出概率矩阵确定所述模板训练数据的平均相对熵损失，并根据所述输出概率矩阵和真实概率分布，确定所述模板训练数据的平均交叉熵损失；根据所述平均交叉熵损失和所述平均相对熵损失确定模型总损失，并根据所述模型总损失对所述目标大模型进行权重更新，直至所述目标大模型收敛。本发明专利技术基于平均交叉熵损失和平均相对熵损失，使得目标大模型在微调阶段实现模板与模板之间的交互，降低了目标大模型对模板的敏感度，提高了模型鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种大模型训练方法、系统、终端及存储介质。

技术介绍

1、自chatgpt问世，aigc类大模型成为学术界和工业界研发的热点，目前aigc类大模型的模型训练主流方案分为三个阶段：预训练、带监督微调(supervised fine-tun-ing，sft)以及基于人类反馈的强化学习(reinforcement learning from human feedback，rlhf)。sft阶段主要利用丰富的有监督模板数据对预训练模型权重进行微调以适用不同的下游任务，其中模板和任务的多样性是提升微调数据质量的关键，决定了大模型对下游不同指令的理解能力和泛化能力以及生成效果的稳定性。针对多样化模板的处理，微调阶段主要是尽可能多地构造符合自然语言的模板进行提问，让模型学习如何遵循不同模板进行答案的生成。推理阶段为避免单个模板带来的偏差，往往针对多个模板生成多个答案，然后进行平均或者众投。

2、现有的大模型微调过程中，大模型对每条训练数据都是单独进行学习，缺乏模板之间的交互，导致训练后的模型鲁棒性较差，...

【技术保护点】

1.一种大模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的大模型训练方法，其特征在于，根据各训练样本构建模板训练数据，包括：

3.如权利要求2所述的大模型训练方法，其特征在于，根据所述输出概率矩阵确定所述模板训练数据的平均相对熵损失，包括：

4.如权利要求3所述的大模型训练方法，其特征在于，根据所述输出概率分布分别确定不同变换模板之间的相对熵损失采用的公式包括：

5.如权利要求2所述的大模型训练方法，其特征在于，根据所述输出概率矩阵和真实概率分布，确定所述模板训练数据的平均交叉熵损失，包括：

6.如权利要求5所述...

【技术特征摘要】

1.一种大模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的大模型训练方法，其特征在于，根据各训练样本构建模板训练数据，包括：

3.如权利要求2所述的大模型训练方法，其特征在于，根据所述输出概率矩阵确定所述模板训练数据的平均相对熵损失，包括：

4.如权利要求3所述的大模型训练方法，其特征在于，根据所述输出概率分布分别确定不同变换模板之间的相对熵损失采用的公式包括：

5.如权利要求2所述的大模型训练方法，其特征在于，根据所述输出概率矩阵和真实概率分布，确定所述模板训练数据的平均交叉熵损失，包括：

6.如权利要求5所述的大模型训练方法，其特征...

【专利技术属性】
技术研发人员：杨梦诗，刘升平，梁家恩，黄伟，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人