当前位置: 首页 > 专利查询>哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院专利>正文

基于增强拒绝采样训练的大语言模型对齐微调方法和系统技术方案

技术编号：40910738 阅读：2 留言：0更新日期：2024-04-18 14:39

本发明专利技术公开了一种基于增强拒绝采样训练的大语言模型对齐微调方法和系统，涉及人工智能技术领域，包括：基于有监督微调后的大语言模型，为预设指令请求文本生成N条响应文本；基于训练好的奖励模型对每条响应文本进行评估，得到奖励分数；将N条响应文本按照对应的奖励分数由高到低排序，并选取前k条响应文本组成目标样本集；基于预设加权函数，计算每条响应文本对应的数据权重；基于预设指令请求文本、目标样本集中的响应文本和数据权重构建加权微调数据集，并基于加权微调数据集对有监督微调后的大语言模型进行对齐微调，得到目标大语言模型。本发明专利技术缓解了现有技术存在的过拟合风险高、易受有噪奖励分数干扰的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，特别是指一种基于增强拒绝采样训练的大语言模型对齐微调方法和系统。

技术介绍

1、大规模预训练语言模型是当前广为使用的各类聊天机器人的基础，这些大规模生成式深度神经网络模型通过在各领域的大规模文本语料库上进行已知前文、预测下文的自监督预训练，实现了对人类自然语言概率分布的建模，在给定前文语境文本的条件下通过对输出词语预测分布的采样即可实现流畅、自然的文本生成，并在各类自然语言理解和生成任务中都有着出色的表现。然而，随着训练语料库的扩大，其中不可避免地包含有害、有偏见的内容，或是一些事实性错误，这些负面文段可能导致预训练大模型在响应使用者指令请求的过程中生成不符合预期或违背人类价值观的文本。为了让大模型能的生成文本够与人类的期望和价值观（如有用性、诚实性和无害性）保持一致，需要进行额外的对齐微调训练，使得大模型能够正确服从人类使用者的各类指令请求，只生成符合预期的响应文本。

2、目前，大模型对齐微调的典型技术为基于人类反馈强化学习（rlhf），该技术通常被认为是最有效的大模型对齐微调技术之一，使用该技术进行微调得到的大模型已被广泛应用于聊天机器人等应用中。rlhf技术一般包含三个阶段，分别是利用有监督学习方法令大模型模仿优质指令请求服从示例文本的有监督微调阶段，利用人类对大模型响应指令请求优劣程度的反馈数据训练标量输出奖励模型的奖励建模阶段，以及利用强化学习算法以最大化奖励模型输出奖励分数为目标训练大模型的强化学习阶段。在强化学习阶段中，典型的技术方案可简要概括为响应文本生成、奖励分数评估、模型参

3、然而，拒绝采样微调技术由于仅为指令请求数据集中的每条指令请求文本选取1条奖励分数最高的响应文本用于后续的大模型微调训练，存在着过拟合风险高、易受有噪奖励分数干扰等不足，使得使用该技术进行对齐微调的大模型对人类指令服从能力的改进有限，不能很好地达到大模型对齐微调的根本目的。

技术实现思路

1、为了解决现有技术存在的上述技术问题，本专利技术实施例提供了一种基于增强拒绝采样训练的大语言模型对齐微调方法和系统。所述技术方案如下：

2、一方面，提供了一种基于增强拒绝采样训练的大语言模型对齐微调方法，所述方法包括：基于有监督微调后的大语言模型，为预设指令请求文本生成n条响应文本；n为正整数；基于训练好的奖励模型对每条响应文本进行评估，得到每条响应文本对应的奖励分数；将所述n条响应文本按照对应的奖励分数由高到低排序，并选取前k条响应文本组成目标样本集；其中，1＜k≤n；基于预设加权函数，计算所述目标样本集中的每条响应文本对应的数据权重；所述预设加权函数为关于奖励分数的函数；基于所述预设指令请求文本、所述目标样本集中的响应文本和所述数据权重构建加权微调数据集，并基于所述加权微调数据集对所述有监督微调后的大语言模型进行对齐微调，得到目标大语言模型。

3、可选地，在基于有监督微调后的大语言模型，为预设指令请求文本生成n条响应文本之前，所述方法还包括：利用符合人类预期与价值观的优质指令请求服从样本对预设大语言模型进行有监督的模仿学习，得到所述有监督微调后的大语言模型；利用人类对所述有监督微调后的大语言模型生成的不同指令响应文本符合人类预期与价值观程度的反馈数据，训练标量输出的奖励模型，得到所述训练好的奖励模型。

4、可选地，所述预设加权函数包括：，其中，fw表示预设加权函数，表示第i个预设指令请求文本所生成的第n条响应文本对应的奖励分数，表示第i个预设指令请求文本所生成的n条响应文本对应的奖励分数中的最大值，exp表示以自然常数e为底的指数函数。

5、可选地，基于所述加权微调数据集对所述有监督微调后的大语言模型进行对齐微调过程的目标函数包括：，其中θars为所述目标大语言模型的网络参数，θ表示有监督微调之前的大语言模型的网络参数，ni表示所述加权微调数据集的数据总数，wj为所述加权微调数据集中第j条数据的数据权重，为预设指令请求文本xj的条件下预测相应的响应文本yj的概率。

6、另一方面，提供了一种基于增强拒绝采样训练的大语言模型对齐微调系统，所述系统包括：生成模块，评估模块，选取模块，计算模块和微调模块；其中，所述生成模块，用于基于有监督微调后的大语言模型，为预设指令请求文本生成n条响应文本；n为正整数；所述评估模块，用于基于训练好的奖励模型对每条响应文本进行评估，得到每条响应文本对应的奖励分数；所述选取模块，用于将所述n条响应文本按照对应的奖励分数由高到低排序，并选取前k条响应文本组成目标样本集；其中，1＜k≤n；所述计算模块，用于基于预设加权函数，计算所述目标样本集中的每条响应文本对应的数据权重；所述预设加权函数为关于奖励分数的函数；所述微调模块，用于基于所述预设指令请求文本、所述目标样本集中的响应文本和所述数据权重构建加权微调数据集，并基于所述加权微调数据集对所述有监督微调后的大语言模型进行对齐微调，得到目标大语言模型。

7、可选地，还包括：学习模块和训练模块；其中，所述学习模块，用于利用符合人类预期与价值观的优质指令请求服从样本对预设大语言模型进行有监督的模仿学习，得到所述有监督微调后的大语言模型；所述训练模块，用于利用人类对所述有监督微调后的大语言模型生成的不同指令响应文本符合人类预期与价值观程度的反馈数据，训练标量输出的奖励模型，得到所述训练好的奖励模型。

8、可选地，所述预设加权函数包括：，其中，fw表示预设加权函数，表示第i个预设指令请求文本所生成的第n条响应文本对应的奖励分数，表示第i个预设指令请求文本所生成的n条响应文本对应的奖励分数中的最大值，exp表示以自然常数e为底的指数函数。

9、可选地，基于所述加权微调数据集对所述有监督微调后的大语言模型进行对齐微调过程的目标函数包括：，其中θars为所述目标大语言模型的网络参数，θ表示有监督微调之前的大语言模型的网络参数，ni表示所述加权微调数据集的数据总数，wj为所述加权微调数据集中第j条数据的数据权重，为预设指令请求文本xj的条件下预测相应的响应文本yj的概率。

10、另一方面，提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。本文档来自技高网...

【技术保护点】

1.一种基于增强拒绝采样训练的大语言模型对齐微调方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在基于有监督微调后的大语言模型，为预设指令请求文本生成N条响应文本之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述预设加权函数包括：

4.根据权利要求1所述的方法，其特征在于，基于所述加权微调数据集对所述有监督微调后的大语言模型进行对齐微调过程的目标函数包括：

5.一种基于增强拒绝采样训练的大语言模型对齐微调系统，其特征在于，所述系统包括：生成模块，评估模块，选取模块，计算模块和微调模块；其中，

6.根据权利要求5所述的系统，其特征在于，还包括：学习模块和训练模块；其中，

7.根据权利要求5所述的系统，其特征在于，所述预设加权函数包括：

8.根据权利要求5所述的系统，其特征在于，基于所述加权微调数据集对所述有监督微调后的大语言模型进行对齐微调过程的目标函数包括：

9.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至4任一项所述的方法。

...

【技术特征摘要】

1.一种基于增强拒绝采样训练的大语言模型对齐微调方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在基于有监督微调后的大语言模型，为预设指令请求文本生成n条响应文本之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述预设加权函数包括：

4.根据权利要求1所述的方法，其特征在于，基于所述加权微调数据集对所述有监督微调后的大语言模型进行对齐微调过程的目标函数包括：

5.一种基于增强拒绝采样训练的大语言模型对齐微调系统，其特征在于，所述系统包括：生成模块，评估模块，选取模块，计算模块和微调模块；其中，

6.根据权利要求5所...

【专利技术属性】
技术研发人员：陈科海，江睿立，白雪峰，杨沐昀，赵铁军，张民，
申请(专利权)人：哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人