【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其涉及一种大模型训练方法、系统、终端及存储介质。
技术介绍
1、自chatgpt问世,aigc类大模型成为学术界和工业界研发的热点,目前aigc类大模型的模型训练主流方案分为三个阶段:预训练、带监督微调(supervised fine-tun-ing,sft)以及基于人类反馈的强化学习(reinforcement learning from human feedback,rlhf)。sft阶段主要利用丰富的有监督模板数据对预训练模型权重进行微调以适用不同的下游任务,其中模板和任务的多样性是提升微调数据质量的关键,决定了大模型对下游不同指令的理解能力和泛化能力以及生成效果的稳定性。针对多样化模板的处理,微调阶段主要是尽可能多地构造符合自然语言的模板进行提问,让模型学习如何遵循不同模板进行答案的生成。推理阶段为避免单个模板带来的偏差,往往针对多个模板生成多个答案,然后进行平均或者众投。
2、现有的大模型微调过程中,大模型对每条训练数据都是单独进行学习,缺乏模板之间的交互,导致训练后的模型鲁棒性较差,
...【技术保护点】
1.一种大模型训练方法,其特征在于,所述方法包括:
2.如权利要求1所述的大模型训练方法,其特征在于,根据各训练样本构建模板训练数据,包括:
3.如权利要求2所述的大模型训练方法,其特征在于,根据所述输出概率矩阵确定所述模板训练数据的平均相对熵损失,包括:
4.如权利要求3所述的大模型训练方法,其特征在于,根据所述输出概率分布分别确定不同变换模板之间的相对熵损失采用的公式包括:
5.如权利要求2所述的大模型训练方法,其特征在于,根据所述输出概率矩阵和真实概率分布,确定所述模板训练数据的平均交叉熵损失,包括:
...
【技术特征摘要】
1.一种大模型训练方法,其特征在于,所述方法包括:
2.如权利要求1所述的大模型训练方法,其特征在于,根据各训练样本构建模板训练数据,包括:
3.如权利要求2所述的大模型训练方法,其特征在于,根据所述输出概率矩阵确定所述模板训练数据的平均相对熵损失,包括:
4.如权利要求3所述的大模型训练方法,其特征在于,根据所述输出概率分布分别确定不同变换模板之间的相对熵损失采用的公式包括:
5.如权利要求2所述的大模型训练方法,其特征在于,根据所述输出概率矩阵和真实概率分布,确定所述模板训练数据的平均交叉熵损失,包括:
6.如权利要求5所述的大模型训练方法,其特征...
【专利技术属性】
技术研发人员:杨梦诗,刘升平,梁家恩,黄伟,
申请(专利权)人:云知声智能科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。