一种自对比大语言模型强化训练方法、装置、介质及设备制造方法及图纸

技术编号:41578365 阅读:15 留言:0更新日期:2024-06-06 23:55
本发明专利技术涉及一种自对比大语言模型强化训练方法、装置、介质及设备,属于人工智能技术领域。用以解决在无偏好标注的场景下对大规模语言模型进行偏好对齐强化训练的问题。方法包括:获取初始数据集,所述初始数据集中的每个样本包括问题和对应的标准答案;将所述问题输入监督微调模型以生成若干回复;将所述回复和所述标准答案均输入预训练嵌入模型以生成对应的回复嵌入和标准答案嵌入;负样本过滤,包括:分别计算标准答案嵌入和各回复嵌入之间的余弦相似度,将至少部分余弦相似度低于预设阈值的回复嵌入对应的回复作为负样本;以标准答案作为正样本,基于所述正样本和所述负样本对所述监督微调模型进行强化学习训练。

【技术实现步骤摘要】

本专利技术属于人工智能,具体而言涉及一种自对比大语言模型强化训练方法、装置、介质及设备


技术介绍

1、大型语言模型(llm)一直在朝着产生不仅准确,而且在人类环境中有意义、建设性和有用的输出的方向发展。引导预先训练的llm理解人类意图的一项不可或缺的技术是对齐,主要包括监督微调(sft)和反馈强化学习(rlxf)阶段。在sft中,规则驱动,lima探索了减少人类监督的方法。然而,很少有人关注rlxf中的高效无反馈对齐,这可能在对准训练的性能增益中更重要。rlxf方法被视为提高llm一致性水平的核心因素。

2、然而,无论采用何种方法,扩展rlxf的一个关键障碍都是从人类训练或先进的人工智能系统(例如gpt-4或其他大型llm)收集昂贵的偏好反馈。因此,一条研究路线一直集中在llm的反馈最小对齐上。

3、相关工作例如人工智能反馈强化学习(rlaif)是一个有趣的领域,因为它具有自动化学习和改进的潜力。与之前的rlhf工作相比,使用人工智能反馈而不是手动注释有效地减少了人类注释的使用。rlaif使用llm-as-a-jjudge风格提示本文档来自技高网...

【技术保护点】

1.一种自对比大语言模型强化训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:所述初始数据集包括监督微调数据集。

3.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:获取初始数据集包括:

4.根据权利要求3所述的自对比大语言模型强化训练方法,其特征在于:所述智能问答模型包括GPT-4或者LLaMA2。

5.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:所述预设阈值的取值介于25%-75%。

6.根据权利要求1所述的自对比大语言模型强化训练方法,其...

【技术特征摘要】

1.一种自对比大语言模型强化训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:所述初始数据集包括监督微调数据集。

3.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:获取初始数据集包括:

4.根据权利要求3所述的自对比大语言模型强化训练方法,其特征在于:所述智能问答模型包括gpt-4或者llama2。

5.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:所述预设阈值的取值介于25%-75%。

6.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:步骤s5中,基于所述正样本和所述负样本...

【专利技术属性】
技术研发人员:刘潇宋曦轩张鹏
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1