【技术实现步骤摘要】
本专利技术涉及人工智能开发,适用于ai医生家庭问诊场景下的人工智能开发,尤其涉及一种大语言模型的指令微调方法、装置、设备及介质。
技术介绍
1、随着chatgpt等对话模型的出现,学界和业界涌现出了大量的类开源模型,整体生态极度繁荣。目前,这类大语言模型的训练主要包含三个步骤,分别是大规模预训练、有监督指令微调以及强化学习对齐。在指令微调阶段,通过学习编写好的prompt(提示)加output(输出)对,让模型具备遵循指令的能力,通过强化学习的方法对齐用户的需求,强化学习时,通常首先让模型对特定的提示生成多个答案,再给多个答案进行标注,最终学习目的是让符合偏好的回答的输出概率高于其余的回答。现有技术中,在训练ai医生家庭问诊模型这类专业度要求较高的模型时,指令微调阶段的数据偏好情况和强化学习对齐阶段的数据偏好情况往往存在差距,会导致训练好的大语言模型的输出不能准确地对齐偏好,此外强化学习对齐阶段对资源的消耗也很高。
技术实现思路
1、本专利技术提供一种大语言模型的指令微调方法、装置、计算机
...【技术保护点】
1.一种大语言模型的指令微调方法,其特征在于,包括:
2.如权利要求1所述的大语言模型的指令微调方法,其特征在于,所述从所述初始数据集中选取符合预设偏好的所述样本数据,以构建偏好数据集,包括:
3.如权利要求1所述的大语言模型的指令微调方法,其特征在于,所述从所述初始数据集中选取符合预设偏好的样本数据,以构建偏好数据集,包括:
4.如权利要求1所述的大语言模型的指令微调方法,其特征在于,还包括:
5.如权利要求1所述的大语言模型的指令微调方法,其特征在于,所述将所述偏好样本数据插入下个批次的所述微调数据集之后,还包括:<
...【技术特征摘要】
1.一种大语言模型的指令微调方法,其特征在于,包括:
2.如权利要求1所述的大语言模型的指令微调方法,其特征在于,所述从所述初始数据集中选取符合预设偏好的所述样本数据,以构建偏好数据集,包括:
3.如权利要求1所述的大语言模型的指令微调方法,其特征在于,所述从所述初始数据集中选取符合预设偏好的样本数据,以构建偏好数据集,包括:
4.如权利要求1所述的大语言模型的指令微调方法,其特征在于,还包括:
5.如权利要求1所述的大语言模型的指令微调方法,其特征在于,所述将所述偏好样本数据插入下个批次的所述微调数据集之后,还包括:
6.如权利要求1所述的大语言模型的指...
【专利技术属性】
技术研发人员:胡瑞,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。