大语言模型的指令微调方法、装置、设备及介质制造方法及图纸

技术编号：44711005 阅读：15 留言：0更新日期：2025-03-21 17:42

本发明专利技术涉及人工智能开发技术领域，尤其涉及一种大语言模型的指令微调方法、装置、设备及介质，可应用于AI医生家庭问诊模型的训练，该大语言模型的指令微调方法包括，获取初始数据集；从初始数据集中选取符合预设偏好的样本数据，以构建偏好数据集；将初始数据集划分为多个微调数据集；根据多个微调数据集，对预训练大语言模型进行分批次微调，每经过预设数量批次的微调后，从偏好数据集中获取预设数量的偏好样本数据，将偏好样本数据插入下个批次的微调数据集中。通过在指令微调阶段使用偏好样本数据对大语言模型进行训练，令得到的大语言模型的输出能够准确对齐偏好，同时省略了强化学习对齐步骤，降低了训练大语言模型时的资源消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能开发，适用于ai医生家庭问诊场景下的人工智能开发，尤其涉及一种大语言模型的指令微调方法、装置、设备及介质。

技术介绍

1、随着chatgpt等对话模型的出现，学界和业界涌现出了大量的类开源模型，整体生态极度繁荣。目前，这类大语言模型的训练主要包含三个步骤，分别是大规模预训练、有监督指令微调以及强化学习对齐。在指令微调阶段，通过学习编写好的prompt(提示)加output(输出)对，让模型具备遵循指令的能力，通过强化学习的方法对齐用户的需求，强化学习时，通常首先让模型对特定的提示生成多个答案，再给多个答案进行标注，最终学习目的是让符合偏好的回答的输出概率高于其余的回答。现有技术中，在训练ai医生家庭问诊模型这类专业度要求较高的模型时，指令微调阶段的数据偏好情况和强化学习对齐阶段的数据偏好情况往往存在差距，会导致训练好的大语言模型的输出不能准确地对齐偏好，此外强化学习对齐阶段对资源的消耗也很高。

技术实现思路

1、本专利技术提供一种大语言模型的指令微调方法、装置、计算机...

【技术保护点】

1.一种大语言模型的指令微调方法，其特征在于，包括：

2.如权利要求1所述的大语言模型的指令微调方法，其特征在于，所述从所述初始数据集中选取符合预设偏好的所述样本数据，以构建偏好数据集，包括：

3.如权利要求1所述的大语言模型的指令微调方法，其特征在于，所述从所述初始数据集中选取符合预设偏好的样本数据，以构建偏好数据集，包括：

4.如权利要求1所述的大语言模型的指令微调方法，其特征在于，还包括：

5.如权利要求1所述的大语言模型的指令微调方法，其特征在于，所述将所述偏好样本数据插入下个批次的所述微调数据集之后，还包括：</p>

6.如权...

【技术特征摘要】

1.一种大语言模型的指令微调方法，其特征在于，包括：

3.如权利要求1所述的大语言模型的指令微调方法，其特征在于，所述从所述初始数据集中选取符合预设偏好的样本数据，以构建偏好数据集，包括：

4.如权利要求1所述的大语言模型的指令微调方法，其特征在于，还包括：

5.如权利要求1所述的大语言模型的指令微调方法，其特征在于，所述将所述偏好样本数据插入下个批次的所述微调数据集之后，还包括：

6.如权利要求1所述的大语言模型的指...

【专利技术属性】
技术研发人员：胡瑞，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人