【技术实现步骤摘要】
本专利技术属于人工智能,具体而言涉及一种自对比大语言模型强化训练方法、装置、介质及设备。
技术介绍
1、大型语言模型(llm)一直在朝着产生不仅准确,而且在人类环境中有意义、建设性和有用的输出的方向发展。引导预先训练的llm理解人类意图的一项不可或缺的技术是对齐,主要包括监督微调(sft)和反馈强化学习(rlxf)阶段。在sft中,规则驱动,lima探索了减少人类监督的方法。然而,很少有人关注rlxf中的高效无反馈对齐,这可能在对准训练的性能增益中更重要。rlxf方法被视为提高llm一致性水平的核心因素。
2、然而,无论采用何种方法,扩展rlxf的一个关键障碍都是从人类训练或先进的人工智能系统(例如gpt-4或其他大型llm)收集昂贵的偏好反馈。因此,一条研究路线一直集中在llm的反馈最小对齐上。
3、相关工作例如人工智能反馈强化学习(rlaif)是一个有趣的领域,因为它具有自动化学习和改进的潜力。与之前的rlhf工作相比,使用人工智能反馈而不是手动注释有效地减少了人类注释的使用。rlaif使用llm-as-a-
...【技术保护点】
1.一种自对比大语言模型强化训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:所述初始数据集包括监督微调数据集。
3.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:获取初始数据集包括:
4.根据权利要求3所述的自对比大语言模型强化训练方法,其特征在于:所述智能问答模型包括GPT-4或者LLaMA2。
5.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:所述预设阈值的取值介于25%-75%。
6.根据权利要求1所述的自对比大语言
...【技术特征摘要】
1.一种自对比大语言模型强化训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:所述初始数据集包括监督微调数据集。
3.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:获取初始数据集包括:
4.根据权利要求3所述的自对比大语言模型强化训练方法,其特征在于:所述智能问答模型包括gpt-4或者llama2。
5.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:所述预设阈值的取值介于25%-75%。
6.根据权利要求1所述的自对比大语言模型强化训练方法,其特征在于:步骤s5中,基于所述正样本和所述负样本...
【专利技术属性】
技术研发人员:刘潇,宋曦轩,张鹏,
申请(专利权)人:北京智谱华章科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。