当前位置: 首页 > 专利查询>清华大学专利>正文

大语言模型训练方法及装置制造方法及图纸

技术编号:41347228 阅读:25 留言:0更新日期:2024-05-20 10:02
本公开涉及大语言模型技术领域,尤其涉及一种大语言模型训练方法及装置,获取基于人类反馈而获得用于奖励模型的第一数据集,第一数据集中包括手动标记的多个第一数据;利用第一数据集对预训练语言模型进行训练得目标奖励模型;根据利用目标奖励模型对第一数据进行测试得到的测试结果计算出目标奖励模型的误差率;在误差率大于或等于误差阈值时,利用第一数据集训练目标奖励模型得到新的目标奖励模型并进行误差率计算,直至最新的目标奖励模型的误差率小于误差阈值;利用所有目标奖励模型和用于大语言模型的第二数据集训练预训练语言模型得到训练好的大语言模型。利用训练出的高效奖励模型得到高性能增益的LLM,提高了LLM的精度和效果。

【技术实现步骤摘要】

本公开涉及大语言模型,尤其涉及一种大语言模型训练方法及装置


技术介绍

1、大语言模型(large language model,llm)是一种基于海量文本数据训练的深度学习模型。它能够理解并生成自然语言文本,应用于自然语言处理领域,如文本生成、文本摘要、语言翻译等任务;应用于人工智能领域,可以帮助机器更好地理解人类语言,实现更自然的人机交互;还可以应用于其他领域,如智能客服、智能写作、智能推荐等。例如,在智能客服中,大语言模型可以自动回答用户的问题,提高客服效率;在智能写作中,大语言模型可以辅助写作人员生成高质量的文本内容;在智能推荐中,大语言模型可以根据用户的历史行为和偏好,推荐更符合用户需求的内容。

2、相关技术中,利用rlhf(reinforcement learning from human feedback,基于人类反馈的强化学习技术)进行大语言模型的训练,但是存在由于训练出的奖励模型低效导致最终训练出的大语言模型精度低、效果差的问题。


技术实现思路

1、有鉴于此,本公开提出了一种大语本文档来自技高网...

【技术保护点】

1.一种大语言模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一数据以三联体方式表示,所述三联体中包括输入、针对所述输入的首选响应和非首选响应,所述测试结果包括针对每个进行测试的第一数据的置信度差值,所述置信度差值用于表示所述目标奖励模型基于所述第一数据得到的该第一数据的首选响应和非首选响应之间的差异,

3.根据权利要求2所述的方法,其特征在于,根据所述测试结果计算出所述目标奖励模型的误差率,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述第二数据集包括所述第一数据集,利用训练得到的所有目标奖励模型和...

【技术特征摘要】

1.一种大语言模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一数据以三联体方式表示,所述三联体中包括输入、针对所述输入的首选响应和非首选响应,所述测试结果包括针对每个进行测试的第一数据的置信度差值,所述置信度差值用于表示所述目标奖励模型基于所述第一数据得到的该第一数据的首选响应和非首选响应之间的差异,

3.根据权利要求2所述的方法,其特征在于,根据所述测试结果计算出所述目标奖励模型的误差率,包括:

4.根据权利要求1或2所述的方法,其特征在于,所述第二数据集包括所述第一数据集,利用训练得到的所有目标奖励模型和用于大语言模型的第二数据集对所述预训练语言模型进行训练,得到训练好的大语言模型,包括:

5.根据权利要求4所述的方法,其特征在于,基于各所述目标奖励模型对各所述预测结果的反馈进行模型策略更新,得到更新后大语言模型,包括:

6.一种大语言模型训练装置,其特征在于,所述装置包括:

7.根据权利要求6所述...

【专利技术属性】
技术研发人员:代季峰宁雪妃
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1